// NYSIIS - encodage phonétique haute précision pour la correspondance et la déduplication de noms
Plus précis que Soundex pour la plupart des scénarios de rapprochement de noms.
Génère des codes phonétiques cohérents de longueur fixe pour faciliter les comparaisons.
Utilisé dans les systèmes de justice pénale et les registres gouvernementaux de l'État de New York.
NYSIIS (New York State Identification and Intelligence System) est un algorithme d'encodage phonétique créé dans les années 1970 pour améliorer l'appariement des noms. Il améliore Soundex en appliquant des règles plus fines sur les préfixes, suffixes et combinaisons de lettres fréquentes. Les noms sont transformés en un code phonétique de 6 caractères, stable et adapté à la déduplication et au chaînage de dossiers.
Transformation de noms :
Johnson → JANSAN
Jonsen → JANSAN
Jensen → JANSAN
Williams → WALAN
Wiliams → WALAN
Willems → WALAN
Cas particuliers :
MacDonald → MCDANALD
Knudsen → NNADSAN
Schmidt → SSNAT
Phillips → FFALAP
Règles clés :
- MAC → MCC
- KN → NN
- PH → FF
- SCH → SSS
- Voyelles → A
NYSIIS est un algorithme d'encodage phonétique qui représente les noms en fonction de leur prononciation plutôt que de leur orthographe. Il a été conçu pour le système de justice de l'État de New York afin de mieux retrouver les noms qui sonnent de la même manière.
En pratique, NYSIIS offre généralement une meilleure précision que Soundex. Il couvre davantage de cas particuliers, génère des codes de 6 caractères au lieu de 4 et réduit les faux positifs comme les faux négatifs.
Le NYSIIS modifié est une variante améliorée qui ajoute des règles supplémentaires pour certains motifs de noms. Elle affine le traitement des voyelles et de certains groupes consonantiques pour améliorer la qualité des correspondances.
On le trouve dans les systèmes de justice, les dossiers médicaux, les bases de données de généalogie et les plateformes CRM, partout où il est important de regrouper des noms qui sonnent de façon similaire.