// NYSIIS - 이름 매칭과 중복 제거를 위한 고정밀 음성 인코딩
일반적인 이름 매칭 작업에서 Soundex 보다 더 정확한 결과를 제공합니다.
고정 길이 6자의 음성 코드를 생성하여 비교와 검색을 쉽게 합니다.
뉴욕주 형사 사법 시스템 등 여러 공공 시스템에서 사용되는 표준 알고리즘입니다.
NYSIIS(New York State Identification and Intelligence System)는 1970년대에 개발된 음성 인코딩 알고리즘입니다. 이름의 철자가 아니라 발음을 기준으로 코드를 생성하며, Soundex 보다 더 많은 규칙과 예외 케이스를 다룹니다. 이름에 일련의 치환 규칙을 적용하여, 이름 매칭과 중복 제거에 적합한 6자 음성 코드로 변환합니다.
이름 변환:
Johnson → JANSAN
Jonsen → JANSAN
Jensen → JANSAN
Williams → WALAN
Wiliams → WALAN
Willems → WALAN
특수 사례:
MacDonald → MCDANALD
Knudsen → NNADSAN
Schmidt → SSNAT
Phillips → FFALAP
주요 규칙:
- MAC → MCC
- KN → NN
- PH → FF
- SCH → SSS
- 모음 → A
NYSIIS는 이름을 발음 기반 코드로 변환하는 음성 인코딩 알고리즘입니다. 뉴욕주 사법 시스템을 위해 설계되었으며, 철자가 달라도 비슷하게 들리는 성을 찾을 수 있도록 도와줍니다.
NYSIIS는 Soundex보다 더 많은 규칙과 예외를 포함하여, 실제 데이터에서 더 높은 매칭 정확도를 제공합니다. 또한 4자가 아닌 6자의 코드로 표현되므로 구분력이 더 좋습니다.
개선된 NYSIIS는 모음 처리와 특정 자음 클러스터 처리를 보완한 변형 버전으로, 일부 이름 유형에서 더 안정적인 매칭 결과를 제공합니다.
사법 기관, 의료기관, 계보 데이터베이스, CRM 시스템 등, 발음 기반 이름 매칭이 필요한 다양한 분야에서 사용됩니다.