Traiter les listes noires avec DataQualityTools

Les listes noires, telles que les listes Robinson, sont un élément essentiel du marketing direct. Ce n’est pas difficile de les maintenir. À l’aide des DataQualityTools, les listes noires peuvent être traitées sans aucun problème.

Les listes Robinson (vous pouvez en lire plus à ce sujet dans l'article 'Listes Robinson / listes noires') sont un bon moyen pour respecter le vœu de certains destinataires de ne pas recevoir de publicité et même d’économiser de l’argent en même temps. De plus, vous pouvez aussi utiliser vos propres listes noires pour exclure vos compétiteurs, vos employés ou même vos clients existants, dans le cas où vous voudriez prospecter de nouveaux clients, de la liste de destinataires pour certaines campagnes de marketing direct.

Pour traiter les listes noires, vous avez besoin d’un logiciel qui est capable de faire une recherche floue de doublons entre deux tables (recherche tolérante aux erreurs) tel que DataQualityTools, disponible sur www.DataQualityApps.fr. À l'aide de la déduplication entre deux tables, vous pouvez aussi synchroniser des listes d'adresses, par exemple pour ne pas prospecter des adresses qui ont déjà été sollicités lors d’une campagne de marketing direct antérieure ou utiliser les résultats de la comparaison pour transférer des informations, par exemple des numéros de téléphone ou de client, d’une liste d'adresses vers une autre. Il y a de maintes possibilités de se servir de la déduplication entre deux tables. Et avec DataQualityTools, la déduplication entre deux tables est faite en un tour de main.

Pour ce faire, procédez avec les étapes suivantes:

  1. Si vous ne l’avez pas encore fait, téléchargez DataQualityTools de www.DataQualityApps.fr sur votre ordinateur. Installez le logiciel et demandez une activation d’essai. Ainsi, vous pouvez travailler avec le logiciel pendant une semaine sans aucune restriction.
  2. La fonction requise se trouve dans le menu du bloc 'Comparaison entre deux tables'. Choisissez 'Comparaison utilisant l’adresse postale'.
  3. Suite au démarrage de cette fonction, l'administration des projets apparaît à l’écran. Créez un nouveau projet avec un nom de projet quelconque et cliquez ensuite sur le bouton 'Continuer'.
  4. Dans la prochaine étape, il faut commencer par ouvrir, à l'aide du bouton 'Ouvrir un fichier', le fichier avec les données à traiter. Pour les serveurs de bases de données (MS SQL Server, MySQL, Oracle, IBM DB2 ou PostgreSQL), il faut plutôt commencer par choisir le serveur de bases de données correspondant dans la liste de sélection dans 'Format / Accès à'. Ensuite, il faut entrer le nom du serveur de bases de données. Cliquez sur le bouton 'Connexion avec le serveur' et entrez vos données de connexion. Dans la liste de sélection correspondante, vous pouvez alors choisir la base de données et la table à traiter.
  5. Ensuite, il faut indiquer au logiciel où il peut trouver quelles informations dans la table, donc par exemple, la colonne dans laquelle est écrit le nom de la rue ou de la ville. Pour cela, il faut choisir, dans la liste de sélection avec les titres de colonne qui apparaissent dans la table, le champ de données qui correspond le mieux à chacune des désignations qui se trouvent juste à gauche. Le logiciel effectue automatiquement un classement des champs par défaut, basé sur les titres de colonnes. Puisqu’on veut rechercher des doublons en utilisant l’adresse postale, on doit aussi indiquer, pour chacune des parties constituantes de l’adresse postale, la colonne dans la table à traiter qui contient ces informations. Vous pouvez vérifier les résultats du classement des champs à l'aide de la 'Vérification du classement des champs', qui se trouve à droite sur votre écran.
  6. La table qu’on vient d’indiquer est la table dans laquelle le logiciel doit faire la déduplication. Si les doublons trouvés sont supprimés dans la table source, alors ils seront supprimés dans cette table. Maintenant, on doit indiquer au logiciel la deuxième table, donc la liste noire. Les enregistrements ne seront jamais supprimés dans cette table. Elle est protégée en écriture. Pour indiquer la deuxième table, cliquez simplement sur 'Continuer'. Le dialogue qui apparaît est pareil au dialogue précédent, et on s’en sert de la même façon. Indiquez ici la table avec la liste noire, et faites le classement des champs de la même manière que pour la première table.
  7. En cliquant sur 'Continuer', on arrive au dialogue pour la configuration de la fonction elle-même. Ici, le plus important c’est d’indiquer la valeur seuil pour la déviation maximale permise entre deux adresses. De plus, on peut aussi exclure de la comparaison certaines parties constituantes de l’adresse postale. Ce faisant, il faut bien sûr avoir indiqué, lors du classement des champs effectué dans l’étape précédente, une colonne dans la table à traiter pour chaque partie constituante de l’adresse postale qui doit être inclue dans la comparaison. Renseignement: Les deux tables utilisées pour la déduplication peuvent avoir des structures complètement différentes. Par exemple, le numéro de maison pourrait être inscrit dans la même colonne que la rue dans une des tables, et dans l’autre, cette information est saisie dans deux colonnes séparées. Il est seulement important que toutes les trois colonnes soient aussi indiquées lors du classement des champs dans ces deux tables.
  8. En cliquant sur 'Continuer', vous démarrez le dédoublonnage. Ça ne prend que quelques moments et vous obtenez un sommaire des résultats. Si le logiciel trouve des doublons entre les deux tables, en cliquant sur 'OK' vous parvenez au dialogue avec les fonctions pour la traitement des résultats. Sinon, la valeur seuil pour le degré de concordance doit être réduite et vous devez redémarrer la comparaison.
  9. Dans le dialogue avec les fonctions pour traiter les résultats, il y a un bouton tout en haut avec l’inscription 'Retouches manuelles'. Ici, les résultats de la comparaison sont présentées sous forme tabellaire. Les enregistrements qui doivent être supprimés sont marqués ici avec une croix rouge, qui peut aussi être enlevée au besoin.
  10. Finalement, il faut encore traiter les résultats. Par exemple, on pourrait supprimer les enregistrements qui sont marqués d’une croix rouge directement dans le fichier source. Pour cela, il suffit de cliquer sur le bouton 'Supprimer dans le fichier source'.

La déduplication entre deux tables peut aussi se faire avec DeduplicationWizard, disponible sur www.DataQualityApps.fr. Celui-ci ne peut traiter que les fichiers Excel et ne contient que les fonctions les plus importants des DataQualityTools.

Renseignement: Il y a une vidéo d’instruction pour DataQualityTools qui vous introduit à l’opération du logiciel par l’exemple d’un dédoublonnage dans une table.

Dans l'article 'Dédoublonnage avec le DeduplicationWizard', vous pouvez lire comment utiliser DeduplicationWizard pour le dédoublonnage dans une liste d'adresses. Et dans l'article 'Dédoublonnage planifiée avec BatchDeduplicator', vous pouvez en lire plus sur comment planifier la recherche de doublons.

Auteur: Thomas Hainke