encoder | décoder | compresser

> soundex | phonétique | fuzzy <

// Soundex – algorithme phonétique pour indexer les noms par leur son

[PHONETIC]

Basé sur le son

Encode les noms selon la prononciation plutôt que l’orthographe.

[FUZZY]

Correspondance approximative

Retrouve des noms qui sonnent de façon similaire même s’ils sont écrits différemment.

[GENEALOGY]

Généalogie

Outil essentiel pour la généalogie et les archives historiques.

>> informations techniques

Comment fonctionne Soundex:

Soundex conserve la première lettre et remplace les consonnes par des chiffres regroupés par similarité phonétique. Les consonnes qui se prononcent de façon proche partagent le même chiffre, les voyelles sont ignorées et le code est complété ou tronqué à 4 caractères (American) ou de longueur variable (Refined).

Règles de codage:

1 = B,F,P,V 2 = C,G,J,K,Q,S,X,Z 3 = D,T 4 = L 5 = M,N 6 = R Robert → R163 Rupert → R163 Rubin → R150

Pourquoi utiliser Soundex ?:

  • >Déduplication dans les bases de données
  • >Recherche généalogique
  • >Analyse de recensements
  • >Correspondance clients
  • >Correction orthographique

>> questions fréquentes

Qu’est‑ce que Soundex ?

Soundex est un algorithme phonétique breveté en 1918 pour indexer les noms par leur son. Il a été conçu pour le recensement américain afin de retrouver des noms de famille avec des prononciations similaires malgré des orthographes différentes.

American vs Refined Soundex ?

American Soundex produit des codes à 4 caractères (une lettre + 3 chiffres). Refined Soundex (utilisé par exemple dans SQL Server) utilise plus de groupes et des codes de longueur variable pour une meilleure précision.

Pourquoi des orthographes différentes partagent‑elles le même code ?

C’est précisément le but ! Soundex regroupe les noms qui se prononcent de manière similaire. Smith et Schmidt sonnent presque pareil, ils obtiennent donc des codes proches pour faciliter la recherche de variantes.

Quelles sont les limites de Soundex ?

Soundex fonctionne surtout bien avec des noms anglais. Il peut être moins adapté aux autres langues et certaines variantes orthographiques très éloignées peuvent donner des codes différents pour le même nom.

Autres langues