Chercher les doublons dans un fichier Excel

Les doublons sont déjà difficiles à contrôler manuellement dans les petits fichiers, donc avec les grandes quantités de données telles que celles gérées avec EXCEL, ils ne peuvent être maîtrisés qu'avec un outil approprié.

En principe, il faut distinguer entre les doublons évidents et les doublons flous. Les doublons évidents, donc ceux où les caractères sont identiques sauf pour la casse, sont faciles à trouver avec EXCEL. EXCEL contient sa propre fonction à cet effet.

  1. Elle se trouve sur l'onglet 'Données' dans la plage ‘Outils de données’ et s'appelle ‘Supprimer les doublons’.
  2. Si seulement une seule cellule est marquée lors du démarrage de la fonction, la sélection sera automatiquement étendue sur toute la table. Par contre, si une colonne individuelle est sélectionnée, EXCEL demande si la sélection doit être étendue sur la table au complet. Si vous indiquez que la sélection ne doit pas être étendue, les doublons trouvés ne seront supprimés que dans les colonnes sélectionnées. Toutes les autres colonnes demeurent inchangées. Si la sélection est étendue sur toute la table, la ligne au complet sera supprimée même si toutes les colonnes n'ont pas été sélectionnées pour être inclus dans la recherche de doublons.
  3. Une liste montrant les colonnes qui sont inclues dans la sélection se trouve dans le dialogue pour configurer la fonction de recherche de doublons. Si le crochet est placé sur ‘Mes données ont des en-têtes’, ces colonnes portent alors comme nom le texte provenant de la première ligne. Autrement, elles seront simplement numérotées. Vous pouvez en lire plus sur comment ajouter des titres de colonnes dans une table dans l‘article 'Excel: Insérer des titres de colonnes'. Si le crochet est placé sur une des colonnes de la liste, le contenu de cette colonne sera inclus dans la recherche de doublons, sinon, il sera ignoré. À l'aide du bouton 'Sélectionner tout‘ et 'Désélectionner tout‘, ces crochets peuvent facilement être placés ou enlevés par un clic de souris.
  4. Lorsque la fonction pour la recherche de doublons est configurée, elle peut être démarrée en cliquant sur le bouton 'OK‘.
  5. EXCEL l'exécute alors immédiatement. Lorsque EXCEL est terminé, l'utilisateur est informé du nombre de doublons qui ont été trouvés et combien de lignes resteront après qu'ils soient supprimés. Malheureusement, EXCEL ne dit pas quels enregistrements seront supprimés et de quoi ils ont l'air. Comme déjà mentionné, EXCEL supprime soit la ligne au complet, peu importe quelle colonne a été sélectionnée comme critère pour la rechercher de doublons si la table au complet a été sélectionnée, ou seulement la partie de la ligne dont les colonnes se trouvent à l'intérieur de la sélection.

De cette façon, c'est facile de trouver et de supprimer les doublons évidents avec EXCEL. Par contre, EXCEL ne contient pas de fonction pour supprimer les doublons flous. Vous pouvez en lire plus sur ce qui cause les doublons flous et de quoi ils peuvent avoir l'air dans l'article 'Les doublons dans les listes d'adresses'. Ce problème ne peut être vraiment résolu qu’avec des outils spécialisés, qui offrent un dédoublonnage tolérante aux erreurs, comme par exemple DataQualityTools et DeduplicationWizard, disponibles sur www.DataQualityApps.fr. Vous pouvez lire comment utiliser DeduplicationWizard pour rechercher les adresses en double dans une table dans l'article 'Dédoublonnage avec le DeduplicationWizard'. Vous pouvez apprendre comment faire la déduplication entre deux tables avec DataQualityTools dans l'article 'Traiter les listes noires avec DataQualityTools'. Et dans l'article 'Dédoublonnage planifié avec BatchDeduplicator', vous pouvez en lire plus sur comment planifier la recherche d’adresses en double.

Auteur: Thomas Hainke