// D-M Soundex —— 用于犹太和东欧姓名的增强型音素编码
为发音含糊的情况生成多个代码。
所有姓名都使用统一的 6 位数字编码。
针对意第绪语和希伯来语姓名模式进行了优化。
Daitch-Mokotoff Soundex 由 Gary Mokotoff 和 Randy Daitch 于 1985 年提出,是对美国 Soundex 的增强版本,专门面向犹太和东欧姓氏。与只生成单一代码的传统 Soundex 不同,D-M 可以为同一个姓名生成多个代码,以覆盖不同的可能读音,尤其适用于从希伯来语、意第绪语、波兰语、俄语和德语音译而来的姓名。
犹太姓氏的变体:
Cohen 系列:
Cohen → 560000
Cohn → 560000
Kohn → 560000
Kahn → 560000
Kagan → 556000
Moskowitz 系列:
Moskowitz → 645740
Moscowitz → 645740
Moskovitz → 645740
Moskovich → 645740
多重编码示例:
Auerbach → [097500, 097400]
AU → 0 或 7
因而得到两个代码
关键规则:
- CH → 5 或 4(取决于上下文)
- CK → 5 或 45
- 词首元音 → 0
- DZ、DZH、DZS → 4
- TSH、TZH → 4
Daitch-Mokotoff Soundex 是一种在 1985 年提出的音素编码系统,专门用于处理犹太和东欧姓氏。相比美国 Soundex,它能更好地处理来自希伯来语、意第绪语、波兰语、俄语和德语等语言在音译时产生的拼写差异。
D-M Soundex 会生成多个编码,是因为许多字母组合在不同来源语言中的读音不同。例如 “CH” 在德语单词 “Bach” 中和在英语单词 “Chair” 中的发音就完全不同。通过为同一个姓名生成多个代码,可以在不知道原始发音的情况下也能找到正确的匹配。
D-M Soundex 使用 6 位数字编码(而不是 4 个字符),能处理更多的字母组合,为含糊情况生成多组编码,并针对东欧和犹太姓名模式进行了专门优化,而这些正是传统美国 Soundex 不擅长的部分。
它广泛应用于犹太家谱数据库、大屠杀纪念项目、移民与入境记录、墓地记录,以及任何需要处理大量犹太或东欧姓名、且存在多种拼写与音译形式的系统中。