// Caverphone —— 為紐西蘭口音最佳化的語音比對演算法
依照紐西蘭英語的常見發音與姓名模式設計。
2.0 版產生長度為 10 的固定編碼,方便索引與比對。
對英聯邦各國的人名資料有良好的辨識與聚類效果。
Caverphone 是由紐西蘭 Otago 大學的 David Hood 所提出的語音比對演算法,最初用於選民名冊中的姓名對應。演算法特別考量紐西蘭英語的發音特性與常見姓名變體。1.0 版(2002 年)會產生 6 碼編碼,而 2.0 版(2004 年)改為 10 碼編碼,以提供更細緻的區分度。它會對特定字母組合套用一系列規則,使不同拼法但讀音相近的姓名能被映射到相同或相似的代碼。
2.0 版本(10 碼):
Thompson → TMPSN11111
Tomson → TMSN111111
Thomson → TMSN111111
Lee → LA11111111
Leigh → LA11111111
Lea → LA11111111
Stephens → STFNS11111
Stevens → STFNS11111
1.0 版本(6 碼):
Thompson → TMPSN1
Lee → LA1111
關鍵轉換規則:
- ough → ou2f
- ph → fh → f
- 結尾的 e 會被移除
- 母音 → A
Caverphone 是在紐西蘭 Otago 大學開發的一種語音比對演算法,專門用來處理紐西蘭英語的發音模式。它可以將讀音相近但拼法不同的姓名映射到同一類型的代碼,因此特別適合用在紐西蘭及其他英聯邦國家的姓名比對情境。
相較於較偏美式語境的 Soundex 或一般英語用途的 Metaphone,Caverphone 針對紐西蘭口音與姓名習慣做了最佳化處理,例如「wh」在當地的發音方式,以及部分母音合併等現象。
Caverphone 1.0 會產生 6 碼編碼,於 2002 年提出;2.0 版在 2004 年發表,改為 10 碼編碼,能更細緻地區分相似姓名,同時仍保持對同一姓名不同拼寫的良好聚類效果。
當你處理來自紐西蘭、澳洲或其他英聯邦國家的姓名資料時,都可以考慮使用 Caverphone,例如選民管理系統、詐欺偵測、客戶資料去重、家譜/族譜研究,以及任何需要依照發音進行模糊比對的人名應用。