> caverphone | kiwi | phonetic <

// Caverphone —— 为新西兰口音优化的语音匹配算法

0 字符
0 字符
[NZ-优化]

针对新西兰口音

专门根据新西兰英语的发音与姓名模式设计。

[10-字符]

10 位固定长度编码

2.0 版本生成长度固定为 10 的稳定编码,便于索引与比对。

[高准确率]

高匹配准确度

对来自英联邦国家的姓名提供更好的相似度匹配效果。

>> 技术细节

Caverphone 的工作原理

Caverphone 是由新西兰奥塔哥大学(University of Otago)的 David Hood 提出的语音匹配算法,用于在选民名单中对姓名进行模糊匹配。算法重点考虑新西兰英语的发音特点以及常见姓名模式。1.0 版(2002 年)生成 6 位编码,而 2.0 版(2004 年)则生成 10 位编码,以获得更高的区分度。算法会对特定字母组合进行规则替换,以接近实际发音。

为什么使用 Caverphone?

  • 匹配新西兰选民登记中的姓名记录
  • 英联邦国家的人名数据库去重与模糊搜索
  • 面向新西兰 / 澳大利亚家族的族谱与家谱研究
  • 服务于大洋洲地区的客户数据清洗与合并
  • 为新西兰口音优化的语音识别或检索系统

Caverphone 编码示例

2.0 版本(10 位编码):

Thompson → TMPSN11111
Tomson → TMSN111111
Thomson → TMSN111111

Lee → LA11111111
Leigh → LA11111111
Lea → LA11111111

Stephens → STFNS11111
Stevens → STFNS11111

1.0 版本(6 位编码):
Thompson → TMPSN1
Lee → LA1111

关键转换规则:
- ough → ou2f
- ph → fh → f
- 结尾的 e 会被移除
- 元音 → A

>> 常见问题

什么是 Caverphone?

Caverphone 是在新西兰奥塔哥大学开发的一种语音匹配算法。它专门针对新西兰英语的发音特点设计,可以更好地处理各种拼写不同但读音相近的姓名,非常适合用于新西兰及其他英联邦国家的姓名匹配场景。

Caverphone 与其他语音算法有何不同?

与偏向美国语境的 Soundex 或更通用的 Metaphone 不同,Caverphone 针对新西兰的口音和姓名模式进行了优化,例如对 “wh” 的当地读法以及部分元音合并现象都有专门的处理。

1.0 与 2.0 版本有什么区别?

Caverphone 1.0 生成 6 位编码,于 2002 年提出;Caverphone 2.0 则在 2004 年发布,生成 10 位编码,在区分相似姓名方面更加细致,同时仍然能很好地把同一姓名的不同写法聚类在一起。

在什么场景下应该考虑使用 Caverphone?

当你需要处理来自新西兰、澳大利亚或其他英联邦国家的姓名数据时,可以考虑使用 Caverphone。例如选民管理系统、欺诈检测、客户数据去重、家谱研究以及任何需要根据发音模糊匹配姓名的应用。

已复制!