> soundex | 語音編碼 | 模糊比對 <
// Soundex —— 依發音為姓名建立索引的語音演算法
[PHONETIC]
以發音為基礎
依照姓名的發音而非拼寫進行編碼。
[FUZZY]
模糊比對
可以找出發音相近但寫法不同的姓名。
[GENEALOGY]
族譜與歷史
適用於族譜研究、人口普查與歷史檔案查詢。
>> 技術說明
Soundex 的運作原理:
Soundex 會保留姓名的第一個字母,並將其餘子音依照語音分組對應到數字;發音類似的子音會得到相同的數字,而母音則被忽略。American Soundex 產生固定 4 碼的編碼,Refined Soundex 則使用更細緻的分組與可變長度編碼。
編碼規則:
1 = B,F,P,V 2 = C,G,J,K,Q,S,X,Z 3 = D,T 4 = L 5 = M,N 6 = R Robert → R163 Rupert → R163 Rubin → R150
為什麼要用 Soundex?:
- >資料庫去重與模糊搜尋
- >族譜 / 家族史研究
- >人口普查資料分析
- >客戶資訊比對與合併
- >拼寫錯誤偵測與修正
>> 常見問題
什麼是 Soundex?
Soundex 是 1918 年提出的一種語音演算法,用來根據發音為姓名建立索引。最早是為了美國人口普查設計,讓使用者可以在拼寫不同的情況下,依照發音找到相近的姓氏。
American 與 Refined Soundex 有何不同?
American Soundex 產生 4 字元編碼(首字母 + 3 位數字)。Refined Soundex(例如 SQL Server 中採用)使用更細的對應表與可變長度編碼,以提高比對準確度。
為什麼不同的拼寫會出現相同的編碼?
這正是 Soundex 的目的:將發音接近的姓名視為同一群組。像 Smith 和 Schmidt 這樣的姓氏,發音相近,因此會獲得相同或相近的 Soundex 編碼,方便在資料庫中搜尋各種變體。
Soundex 有哪些限制?
Soundex 主要是為英語姓名設計的,對其他語言的姓名表現可能有限;而且若同一姓名的拼寫差異過大,也可能產生不同的編碼。