> soundex | 語音編碼 | 模糊比對 <

// Soundex —— 依發音為姓名建立索引的語音演算法

輸入:

輸出:

American Refined

[PHONETIC]

依照姓名的發音而非拼寫進行編碼。

[FUZZY]

可以找出發音相近但寫法不同的姓名。

[GENEALOGY]

適用於族譜研究、人口普查與歷史檔案查詢。

>> 技術說明

Soundex 會保留姓名的第一個字母，並將其餘子音依照語音分組對應到數字；發音類似的子音會得到相同的數字，而母音則被忽略。American Soundex 產生固定 4 碼的編碼，Refined Soundex 則使用更細緻的分組與可變長度編碼。

編碼規則:

1 = B,F,P,V 2 = C,G,J,K,Q,S,X,Z 3 = D,T 4 = L 5 = M,N 6 = R Robert → R163 Rupert → R163 Rubin → R150

什麼是 Soundex？

Soundex 是 1918 年提出的一種語音演算法，用來根據發音為姓名建立索引。最早是為了美國人口普查設計，讓使用者可以在拼寫不同的情況下，依照發音找到相近的姓氏。

American 與 Refined Soundex 有何不同？

American Soundex 產生 4 字元編碼（首字母 + 3 位數字）。Refined Soundex（例如 SQL Server 中採用）使用更細的對應表與可變長度編碼，以提高比對準確度。

為什麼不同的拼寫會出現相同的編碼？

這正是 Soundex 的目的：將發音接近的姓名視為同一群組。像 Smith 和 Schmidt 這樣的姓氏，發音相近，因此會獲得相同或相近的 Soundex 編碼，方便在資料庫中搜尋各種變體。

Soundex 有哪些限制？

Soundex 主要是為英語姓名設計的，對其他語言的姓名表現可能有限；而且若同一姓名的拼寫差異過大，也可能產生不同的編碼。