// NYSIIS - 專為姓名比對與去重設計的高精度語音編碼演算法
相較於 Soundex,在一般姓名比對情境中能提供更高的準確率。
產生固定長度的 6 位語音代碼,方便索引與比較。
已在紐約州刑事司法等政府系統中長期使用並驗證。
NYSIIS(New York State Identification and Intelligence System)是一種發表於 1970 年代的姓名語音編碼演算法。它以發音而非拼寫來表示姓名,相較於 Soundex 使用了更細緻的前綴、後綴與字母組合規則。透過一系列替換規則,將姓名轉換為長度 6 的語音代碼,適合用於資料去重與跨庫紀錄關聯。
姓名轉換示例:
Johnson → JANSAN
Jonsen → JANSAN
Jensen → JANSAN
Williams → WALAN
Wiliams → WALAN
Willems → WALAN
特殊情況:
MacDonald → MCDANALD
Knudsen → NNADSAN
Schmidt → SSNAT
Phillips → FFALAP
關鍵規則:
- MAC → MCC
- KN → NN
- PH → FF
- SCH → SSS
- 母音 → A
NYSIIS 是一種根據發音產生代碼的姓名編碼演算法,會根據讀音而非拼字來表示姓名。它最初是為紐約州的身分識別與情報系統設計,用來找出讀音相同但寫法不同的姓氏。
相較於 Soundex,NYSIIS 規則更豐富、涵蓋更多例外情況,在實際資料上通常具有更好的召回率與準確度,且採用 6 位代碼來降低碰撞機率。
改良版 NYSIIS 在原版演算法之上新增並調整了一些規則,特別針對母音與特定子音群組做優化,使其對某些姓名類型有更穩定的輸出。
NYSIIS 廣泛應用於司法、醫療、保險、家譜資料庫與各類 CRM 平台,用於大規模資料中的姓名比對、聚類與去重。