// NYSIIS — высокоточное фонетическое кодирование для сопоставления имен и удаления дубликатов
Более точен, чем Soundex, в большинстве сценариев сопоставления имен.
Генерирует стабильные фонетические коды фиксированной длины из шести символов.
Используется в системах уголовного правосудия и других государственных реестрах штата Нью‑Йорк.
NYSIIS (New York State Identification and Intelligence System) — алгоритм фонетического кодирования, разработанный в 1970‑х годах для улучшения сопоставления фамилий. В отличие от Soundex он использует более богатый набор правил для распространенных префиксов, суффиксов и комбинаций букв. Имя последовательно преобразуется в 6‑символьный фонетический код, который удобно использовать для дедупликации и связывания записей.
Преобразование имен:
Johnson → JANSAN
Jonsen → JANSAN
Jensen → JANSAN
Williams → WALAN
Wiliams → WALAN
Willems → WALAN
Особые случаи:
MacDonald → MCDANALD
Knudsen → NNADSAN
Schmidt → SSNAT
Phillips → FFALAP
Ключевые правила:
- MAC → MCC
- KN → NN
- PH → FF
- SCH → SSS
- Гласные → A
NYSIIS — это алгоритм фонетического кодирования, представляющий имена по произношению, а не по написанию. Он был разработан для систем идентификации штата Нью‑Йорк, чтобы находить одинаково звучащие, но по‑разному пишущиеся фамилии.
NYSIIS, как правило, обеспечивает более точные результаты, чем Soundex. Он обрабатывает больше особых случаев и строит 6‑символьные коды вместо 4‑символьных, что уменьшает число ошибочных совпадений и пропущенных совпадений.
Модифицированный NYSIIS — это улучшенная версия алгоритма, в которой уточнены некоторые правила, особенно связанные с гласными и группами согласных, что повышает качество сопоставления для отдельных типов имен.
Алгоритм применяется в судебных и полицейских системах, медицинских и страховых базах, генеалогических проектах, а также в CRM‑решениях и других системах, где важна надежная фонетическая идентификация имен.