codificar | decodificar | comprimir

> soundex | fonético | fuzzy <

// Soundex - algoritmo fonético para indexar nomes pelo som

[PHONETIC]

Baseado em som

Codifica nomes com base na pronúncia, não apenas na grafia.

[FUZZY]

Correspondência aproximada

Encontra nomes com som parecido mesmo quando escritos de forma diferente.

[GENEALOGY]

Genealogia

Ferramenta essencial para pesquisa genealógica e arquivos históricos.

>> detalhes técnicos

Como o Soundex funciona:

O Soundex mantém a primeira letra e substitui as consoantes por dígitos de acordo com grupos fonéticos. Consoantes com sons semelhantes recebem o mesmo número, as vogais são ignoradas e o resultado é preenchido ou truncado para 4 caracteres (American) ou um comprimento variável (Refined).

Regras de codificação:

1 = B,F,P,V 2 = C,G,J,K,Q,S,X,Z 3 = D,T 4 = L 5 = M,N 6 = R Robert → R163 Rupert → R163 Rubin → R150

Por que usar o Soundex?:

  • >Remoção de duplicatas em bancos de dados
  • >Pesquisa genealógica
  • >Análise de dados de censo
  • >Correspondência de registros de clientes
  • >Correção ortográfica

>> perguntas frequentes

O que é o Soundex?

Soundex é um algoritmo fonético criado em 1918 para indexar nomes pelo som. Ele foi projetado para o censo dos EUA a fim de localizar sobrenomes com pronúncias semelhantes, mesmo que a grafia seja diferente.

Qual a diferença entre American e Refined Soundex?

O American Soundex produz códigos com 4 caracteres (uma letra + 3 dígitos). O Refined Soundex (usado, por exemplo, no SQL Server) utiliza mapeamentos mais detalhados e códigos de comprimento variável para obter maior precisão.

Por que grafias diferentes recebem o mesmo código?

Esse é justamente o objetivo do Soundex. Ele agrupa nomes que soam parecidos – como Smith e Schmidt – facilitando a localização de variações do mesmo nome em um banco de dados.

Quais são as limitações do Soundex?

O Soundex foi pensado principalmente para nomes em inglês. Para outros idiomas a precisão pode ser menor e grafias muito diferentes de um mesmo nome podem gerar códigos distintos.

Outros idiomas