编码 | 犹太 | 家谱

> daitch | mokotoff | soundex <

// D-M Soundex —— 用于犹太和东欧姓名的增强型音素编码

0 字符
0 字符
[多重编码]

多种编码

为发音含糊的情况生成多个代码。

[6 位数字]

6 位代码

所有姓名都使用统一的 6 位数字编码。

[犹太姓名]

面向犹太姓名

针对意第绪语和希伯来语姓名模式进行了优化。

>> 技术信息

Daitch-Mokotoff 的工作原理

Daitch-Mokotoff Soundex 由 Gary Mokotoff 和 Randy Daitch 于 1985 年提出,是对美国 Soundex 的增强版本,专门面向犹太和东欧姓氏。与只生成单一代码的传统 Soundex 不同,D-M 可以为同一个姓名生成多个代码,以覆盖不同的可能读音,尤其适用于从希伯来语、意第绪语、波兰语、俄语和德语音译而来的姓名。

为什么使用 Daitch-Mokotoff

  • 犹太家谱研究
  • 东欧姓氏匹配
  • 大屠杀幸存者数据库
  • 移民记录与档案检索
  • 多语言转写姓名匹配

D-M Soundex 示例

犹太姓氏的变体:

Cohen 系列:
Cohen → 560000
Cohn → 560000
Kohn → 560000
Kahn → 560000
Kagan → 556000

Moskowitz 系列:
Moskowitz → 645740
Moscowitz → 645740
Moskovitz → 645740
Moskovich → 645740

多重编码示例:
Auerbach → [097500, 097400]
  AU → 0 或 7
  因而得到两个代码

关键规则:
- CH → 5 或 4(取决于上下文)
- CK → 5 或 45
- 词首元音 → 0
- DZ、DZH、DZS → 4
- TSH、TZH → 4

>> 常见问题

什么是 Daitch-Mokotoff Soundex?

Daitch-Mokotoff Soundex 是一种在 1985 年提出的音素编码系统,专门用于处理犹太和东欧姓氏。相比美国 Soundex,它能更好地处理来自希伯来语、意第绪语、波兰语、俄语和德语等语言在音译时产生的拼写差异。

为什么会生成多个编码?

D-M Soundex 会生成多个编码,是因为许多字母组合在不同来源语言中的读音不同。例如 “CH” 在德语单词 “Bach” 中和在英语单词 “Chair” 中的发音就完全不同。通过为同一个姓名生成多个代码,可以在不知道原始发音的情况下也能找到正确的匹配。

它与美国 Soundex 有何不同?

D-M Soundex 使用 6 位数字编码(而不是 4 个字符),能处理更多的字母组合,为含糊情况生成多组编码,并针对东欧和犹太姓名模式进行了专门优化,而这些正是传统美国 Soundex 不擅长的部分。

D-M Soundex 通常用于哪些场景?

它广泛应用于犹太家谱数据库、大屠杀纪念项目、移民与入境记录、墓地记录,以及任何需要处理大量犹太或东欧姓名、且存在多种拼写与音译形式的系统中。

已复制!