// D-M Soundex —— 適用於猶太與東歐姓名的進階語音編碼
為發音曖昧的情況產生多組代碼。
所有姓名皆使用一致的 6 位數字代碼。
特別針對意第緒語與希伯來語姓名模式做優化。
Daitch-Mokotoff Soundex 由 Gary Mokotoff 與 Randy Daitch 於 1985 年提出,是對美式 Soundex 的強化版本,專為猶太及東歐姓氏設計。與傳統只產生單一代碼的 Soundex 不同,D-M 可以為同一個姓名產生多組代碼,以涵蓋不同可能的發音,對於從希伯來語、意第緒語、波蘭語、俄語與德語音譯而來的姓名尤其重要。
猶太姓氏變體:
Cohen 系列:
Cohen → 560000
Cohn → 560000
Kohn → 560000
Kahn → 560000
Kagan → 556000
Moskowitz 系列:
Moskowitz → 645740
Moscowitz → 645740
Moskovitz → 645740
Moskovich → 645740
多組代碼範例:
Auerbach → [097500, 097400]
AU → 0 或 7
因此得到兩組代碼
關鍵規則:
- CH → 5 或 4(依語境而定)
- CK → 5 或 45
- 字首母音 → 0
- DZ、DZH、DZS → 4
- TSH、TZH → 4
Daitch-Mokotoff Soundex 是一種於 1985 年提出的語音編碼系統,專門用來處理猶太與東歐姓氏。相較於美式 Soundex,它能更好地處理從希伯來語、意第緒語、波蘭語、俄語與德語等語言音譯時產生的大量拼寫變體。
D-M Soundex 會產生多組代碼,是因為許多字母組合在不同來源語言中的發音並不相同。例如「CH」在德文單字「Bach」與英文單字「Chair」中的發音就完全不同。透過為一個姓名建立多組代碼,即使不知道原始發音,也能找出正確的比對結果。
D-M Soundex 使用 6 位數字代碼(而不是 4 個字元),可以處理更多字母組合,對於發音曖昧的情況會產生多組代碼,並針對東歐與猶太姓名模式做了專門調整,這些都是傳統美式 Soundex 較不擅長的部分。
它被廣泛應用於猶太家譜資料庫、大屠殺紀念計畫、移民與入境紀錄、墓園紀錄,以及其他需要處理大量猶太或東歐姓名並存在多種拼寫與轉寫形式的系統中。