> soundex | 语音编码 | 模糊匹配 <

// Soundex —— 按发音为姓名建立索引的语音算法

输入:

输出:

American Refined

[PHONETIC]

按姓名发音而不是拼写进行编码。

[FUZZY]

能找到发音相近但拼写不同的姓名。

[GENEALOGY]

适合家谱研究、人口普查与历史档案检索。

>> 技术说明

Soundex 保留姓名首字母，并把后续辅音根据语音分组映射为数字；发音相近的辅音使用相同数字，元音被忽略。American Soundex 结果固定为 4 位，而 Refined Soundex 使用更精细的分组和可变长度编码。

编码规则:

1 = B,F,P,V 2 = C,G,J,K,Q,S,X,Z 3 = D,T 4 = L 5 = M,N 6 = R Robert → R163 Rupert → R163 Rubin → R150

什么是 Soundex？

Soundex 是 1918 年提出的一种语音算法，用来根据发音为姓名建立索引。它最初用于美国人口普查，帮助在拼写不同的情况下找到发音相近的姓氏。

American 与 Refined Soundex 有什么区别？

American Soundex 生成 4 位编码（首字母 + 3 位数字）。Refined Soundex（如 SQL Server 中使用）采用更细的映射并生成可变长度编码，以提升匹配精度。

为什么不同拼写会得到同一个编码？

这正是 Soundex 的设计目标：把发音相近的姓名归为一组。例如 Smith 和 Schmidt 虽然写法不同，但读音接近，因此会获得相同或相似的 Soundex 编码，方便在数据库中检索变体。

Soundex 有哪些局限？

Soundex 主要针对英语姓名设计，对其它语言的姓名效果可能一般；而且同一姓名如果拼写差异过大，也可能得到不同的编码。