> soundex | fonético | fuzzy <
// Soundex - algoritmo fonético para indexar nomes pelo som
Baseado em som
Codifica nomes com base na pronúncia, não apenas na grafia.
Correspondência aproximada
Encontra nomes com som parecido mesmo quando escritos de forma diferente.
Genealogia
Ferramenta essencial para pesquisa genealógica e arquivos históricos.
>> detalhes técnicos
Como o Soundex funciona:
O Soundex mantém a primeira letra e substitui as consoantes por dígitos de acordo com grupos fonéticos. Consoantes com sons semelhantes recebem o mesmo número, as vogais são ignoradas e o resultado é preenchido ou truncado para 4 caracteres (American) ou um comprimento variável (Refined).
Regras de codificação:
1 = B,F,P,V 2 = C,G,J,K,Q,S,X,Z 3 = D,T 4 = L 5 = M,N 6 = R Robert → R163 Rupert → R163 Rubin → R150
Por que usar o Soundex?:
- >Remoção de duplicatas em bancos de dados
- >Pesquisa genealógica
- >Análise de dados de censo
- >Correspondência de registros de clientes
- >Correção ortográfica
>> perguntas frequentes
O que é o Soundex?
Soundex é um algoritmo fonético criado em 1918 para indexar nomes pelo som. Ele foi projetado para o censo dos EUA a fim de localizar sobrenomes com pronúncias semelhantes, mesmo que a grafia seja diferente.
Qual a diferença entre American e Refined Soundex?
O American Soundex produz códigos com 4 caracteres (uma letra + 3 dígitos). O Refined Soundex (usado, por exemplo, no SQL Server) utiliza mapeamentos mais detalhados e códigos de comprimento variável para obter maior precisão.
Por que grafias diferentes recebem o mesmo código?
Esse é justamente o objetivo do Soundex. Ele agrupa nomes que soam parecidos – como Smith e Schmidt – facilitando a localização de variações do mesmo nome em um banco de dados.
Quais são as limitações do Soundex?
O Soundex foi pensado principalmente para nomes em inglês. Para outros idiomas a precisão pode ser menor e grafias muito diferentes de um mesmo nome podem gerar códigos distintos.