кодирование | фонетика | сопоставление

> nysiis | фонетика | имена <

// NYSIIS — высокоточное фонетическое кодирование для сопоставления имен и удаления дубликатов

0 символы
0 символы
[ACCURATE]

Высокая точность

Более точен, чем Soundex, в большинстве сценариев сопоставления имен.

[6-CHAR]

6‑символьный код

Генерирует стабильные фонетические коды фиксированной длины из шести символов.

[OFFICIAL]

Официальный стандарт

Используется в системах уголовного правосудия и других государственных реестрах штата Нью‑Йорк.

>> техническая информация

Как работает NYSIIS

NYSIIS (New York State Identification and Intelligence System) — алгоритм фонетического кодирования, разработанный в 1970‑х годах для улучшения сопоставления фамилий. В отличие от Soundex он использует более богатый набор правил для распространенных префиксов, суффиксов и комбинаций букв. Имя последовательно преобразуется в 6‑символьный фонетический код, который удобно использовать для дедупликации и связывания записей.

Зачем использовать NYSIIS?

  • Сопоставление записей в системах уголовного правосудия
  • Поиск и удаление дубликатов в медицинских и страховых реестрах
  • Генеалогические исследования и базы данных фамилий
  • Record linkage между разнородными источниками данных
  • CRM‑системы с большим количеством вариантов написания имен

Примеры кодирования NYSIIS

Преобразование имен:

Johnson → JANSAN
Jonsen → JANSAN
Jensen → JANSAN

Williams → WALAN
Wiliams → WALAN
Willems → WALAN

Особые случаи:
MacDonald → MCDANALD
Knudsen → NNADSAN
Schmidt → SSNAT
Phillips → FFALAP

Ключевые правила:
- MAC → MCC
- KN → NN
- PH → FF
- SCH → SSS
- Гласные → A

>> часто задаваемые вопросы

Что такое NYSIIS?

NYSIIS — это алгоритм фонетического кодирования, представляющий имена по произношению, а не по написанию. Он был разработан для систем идентификации штата Нью‑Йорк, чтобы находить одинаково звучащие, но по‑разному пишущиеся фамилии.

Чем NYSIIS отличается от Soundex?

NYSIIS, как правило, обеспечивает более точные результаты, чем Soundex. Он обрабатывает больше особых случаев и строит 6‑символьные коды вместо 4‑символьных, что уменьшает число ошибочных совпадений и пропущенных совпадений.

Что такое модифицированный NYSIIS?

Модифицированный NYSIIS — это улучшенная версия алгоритма, в которой уточнены некоторые правила, особенно связанные с гласными и группами согласных, что повышает качество сопоставления для отдельных типов имен.

Где используется NYSIIS сегодня?

Алгоритм применяется в судебных и полицейских системах, медицинских и страховых базах, генеалогических проектах, а также в CRM‑решениях и других системах, где важна надежная фонетическая идентификация имен.

СКОПИРОВАНО!