// NYSIIS - wysokiej dokładności kodowanie fonetyczne do dopasowywania nazwisk i usuwania duplikatów
Dokładniejszy niż Soundex w większości scenariuszy dopasowywania nazwisk.
Generuje spójne kody fonetyczne o stałej długości sześciu znaków.
Używany w systemach wymiaru sprawiedliwości i innych rejestrach publicznych stanu Nowy Jork.
NYSIIS (New York State Identification and Intelligence System) to algorytm kodowania fonetycznego opracowany w latach 70. XX wieku w celu poprawy dopasowywania nazwisk. W odróżnieniu od Soundex używa bogatszego zestawu reguł dotyczących prefiksów, sufiksów i częstych kombinacji liter. Nazwisko jest krok po kroku przekształcane do 6‑znakowego kodu fonetycznego, który dobrze sprawdza się przy łączeniu i deduplikacji rekordów.
Przekształcenia nazwisk:
Johnson → JANSAN
Jonsen → JANSAN
Jensen → JANSAN
Williams → WALAN
Wiliams → WALAN
Willems → WALAN
Przypadki szczególne:
MacDonald → MCDANALD
Knudsen → NNADSAN
Schmidt → SSNAT
Phillips → FFALAP
Kluczowe reguły:
- MAC → MCC
- KN → NN
- PH → FF
- SCH → SSS
- Samogłoski → A
NYSIIS to algorytm kodowania fonetycznego, który reprezentuje nazwiska na podstawie ich wymowy, a nie pisowni. Został opracowany dla systemu wymiaru sprawiedliwości stanu Nowy Jork, aby skuteczniej odnajdywać podobnie brzmiące nazwiska.
W praktyce NYSIIS często daje lepsze wyniki niż Soundex. Obejmuje więcej przypadków brzegowych, lepiej radzi sobie z wariantami nazwisk i generuje 6‑znakowe kody zamiast 4‑znakowych.
Zmodyfikowany NYSIIS to ulepszona wersja algorytmu, która rozszerza niektóre reguły, zwłaszcza dotyczące samogłosek i grup spółgłoskowych, aby uzyskać stabilniejsze dopasowania.
Algorytm jest używany w rejestrach wymiaru sprawiedliwości, systemach medycznych i ubezpieczeniowych, bazach genealogicznych oraz w systemach CRM, wszędzie tam, gdzie trzeba grupować podobnie brzmiące nazwiska.