// NYSIIS - 面向姓名匹配与去重的高精度语音编码算法
相比 Soundex,在通用姓名匹配场景下具有更高的准确率。
生成长度固定的 6 位语音代码,便于比较与索引。
应用于纽约州刑事司法等政府系统,经过大规模实战验证。
NYSIIS(New York State Identification and Intelligence System)是 1970 年提出的一种姓名语音编码算法。它根据姓名的读音而不是拼写生成代码,相比 Soundex 使用了更细致的前缀、后缀和字母组合规则。通过依次应用一系列替换规则,将姓名转换为长度为 6 的语音代码,适用于去重和跨库记录关联。
姓名转换示例:
Johnson → JANSAN
Jonsen → JANSAN
Jensen → JANSAN
Williams → WALAN
Wiliams → WALAN
Willems → WALAN
特殊情况:
MacDonald → MCDANALD
Knudsen → NNADSAN
Schmidt → SSNAT
Phillips → FFALAP
关键规则:
- MAC → MCC
- KN → NN
- PH → FF
- SCH → SSS
- 元音 → A
NYSIIS 是一种基于读音的姓名编码算法,会根据发音而非拼写生成代码。它最初为纽约州的身份识别与情报系统设计,用于匹配读音相同但写法不同的姓氏。
与 Soundex 相比,NYSIIS 使用了更多规则并覆盖了更多边缘情况,通常在真实数据上具有更高的召回率和精确度。此外,NYSIIS 使用 6 位代码而非 4 位,有助于减少碰撞。
改进版 NYSIIS 在原始算法基础上,对部分元音和辅音组合的规则进行了调整与扩展,使其在某些姓名模式下能给出更稳定、更合理的编码结果。
NYSIIS 被用于司法、医疗、保险、家谱数据库以及各类 CRM 系统中,用来在大量记录中发现、聚类和去重读音相似的姓名。