// D-M Soundex - 유대인 및 동유럽 이름을 위한 고급 음성 인코딩
발음이 모호한 경우를 위해 여러 개의 코드를 생성합니다.
모든 이름에 대해 일관된 6자리 숫자 코드를 사용합니다.
이디시어 및 히브리어 이름 패턴에 맞게 최적화되어 있습니다.
Daitch-Mokotoff Soundex는 1985년 Gary Mokotoff와 Randy Daitch가 개발한 알고리즘으로, 유대인 및 동유럽 성씨를 위해 설계된 American Soundex의 확장판입니다. 기존 Soundex가 하나의 코드만 생성하는 것과 달리, D-M은 여러 가능한 발음을 고려하여 여러 개의 코드를 생성합니다. 이는 히브리어, 이디시어, 폴란드어, 러시아어, 독일어 등에서 전사된 이름을 다룰 때 특히 중요합니다.
유대인 성씨 변형:
Cohen 계열:
Cohen → 560000
Cohn → 560000
Kohn → 560000
Kahn → 560000
Kagan → 556000
Moskowitz 계열:
Moskowitz → 645740
Moscowitz → 645740
Moskovitz → 645740
Moskovich → 645740
다중 코드 예시:
Auerbach → [097500, 097400]
AU → 0 또는 7
두 개의 코드가 생성됩니다
주요 규칙:
- CH → 5 또는 4 (문맥에 따라)
- CK → 5 또는 45
- 단어 처음의 모음 → 0
- DZ, DZH, DZS → 4
- TSH, TZH → 4
Daitch-Mokotoff Soundex는 1985년에 개발된 음성 기반 코드 시스템으로, 유대인 및 동유럽 성씨를 위해 특별히 설계되었습니다. 히브리어, 이디시어, 폴란드어, 러시아어, 독일어 등에서 전사된 이름에 흔히 나타나는 다양한 철자 변형을, 기존 American Soundex보다 더 잘 처리할 수 있습니다.
D-M Soundex가 여러 코드를 생성하는 이유는 많은 문자 조합이 원래 언어에 따라 서로 다른 발음을 갖기 때문입니다. 예를 들어 "CH"는 독일어 "Bach"와 영어 "Chair"에서 전혀 다르게 발음됩니다. 여러 코드 덕분에 원래 발음을 정확히 모르더라도 올바른 이름을 매칭하기가 쉬워집니다.
D-M Soundex는 네 글자 코드 대신 6자리 숫자 코드를 사용하며, 훨씬 더 많은 문자 조합을 지원하고, 애매한 경우에는 여러 개의 코드를 생성합니다. 또한 유대인 및 동유럽 이름 패턴에 맞게 특별히 튜닝되어 있어, 이 부분에서 기존 American Soundex보다 뛰어납니다.
D-M Soundex는 유대인 계보 데이터베이스, 홀로코스트 추모 프로젝트, 이민 기록, 묘지 기록 등, 다양한 철자 및 전사 형태를 가진 많은 유대인 및 동유럽 이름을 다루는 시스템에서 널리 사용됩니다.