编码 | 解码 | 压缩

> soundex | 语音编码 | 模糊匹配 <

// Soundex —— 按发音为姓名建立索引的语音算法

[PHONETIC]

基于发音

按姓名发音而不是拼写进行编码。

[FUZZY]

模糊匹配

能找到发音相近但拼写不同的姓名。

[GENEALOGY]

家谱与档案

适合家谱研究、人口普查与历史档案检索。

>> 技术说明

Soundex 的工作原理:

Soundex 保留姓名首字母,并把后续辅音根据语音分组映射为数字;发音相近的辅音使用相同数字,元音被忽略。American Soundex 结果固定为 4 位,而 Refined Soundex 使用更精细的分组和可变长度编码。

编码规则:

1 = B,F,P,V 2 = C,G,J,K,Q,S,X,Z 3 = D,T 4 = L 5 = M,N 6 = R Robert → R163 Rupert → R163 Rubin → R150

为什么要使用 Soundex?:

  • >数据库去重与模糊搜索
  • >族谱/家谱研究
  • >人口普查数据分析
  • >客户信息匹配
  • >拼写错误的纠正

>> 常见问题

什么是 Soundex?

Soundex 是 1918 年提出的一种语音算法,用来根据发音为姓名建立索引。它最初用于美国人口普查,帮助在拼写不同的情况下找到发音相近的姓氏。

American 与 Refined Soundex 有什么区别?

American Soundex 生成 4 位编码(首字母 + 3 位数字)。Refined Soundex(如 SQL Server 中使用)采用更细的映射并生成可变长度编码,以提升匹配精度。

为什么不同拼写会得到同一个编码?

这正是 Soundex 的设计目标:把发音相近的姓名归为一组。例如 Smith 和 Schmidt 虽然写法不同,但读音接近,因此会获得相同或相似的 Soundex 编码,方便在数据库中检索变体。

Soundex 有哪些局限?

Soundex 主要针对英语姓名设计,对其它语言的姓名效果可能一般;而且同一姓名如果拼写差异过大,也可能得到不同的编码。

其他语言