// Codificação de nomes do censo Statistics Canada para vinculação de registros
Utilizado pelo Statistics Canada para dados de censo.
Códigos consistentes de 4 caracteres para todos os nomes.
Trata corretamente caracteres franceses acentuados.
O algoritmo de codificação de nomes do Statistics Canada é usado para vinculação de registros em dados de censo e estatísticas vitais. Ele cria um código de 4 caracteres a partir de sobrenomes e, opcionalmente, prenomes. O algoritmo pega a primeira letra do sobrenome mais as duas próximas consoantes (as vogais e a letra Y são removidas). Se o sobrenome fornecer menos de 3 caracteres utilizáveis, é usada a primeira letra do prenome. O código lida com caracteres franceses acentuados convertendo‑os em sua forma básica.
Etapas do algoritmo: 1. Primeira letra do sobrenome 2. Próximas 2 consoantes do sobrenome 3. Inicial do prenome, se necessário 4. Preencher com espaços até 4 caracteres Exemplos: SMITH → SMTH S + M + T + H MacDONALD → MCDL M + C + D + (N L) Tremblay, Marie → TRMB T + R + M + B Lee, David → LEED L + (sem consoantes) + D Tratamento do francês: Côté → COTE → CT Lépine → LEPINE → LPN Nomes curtos: Lo → LO (preenchido) Kim, Su → KMS
A codificação de nomes Statistics Canada é um algoritmo usado pelo governo canadense para vinculação de registros em dados de censo e estatísticas vitais. Ele cria um código padronizado de 4 caracteres a partir dos nomes para facilitar a correspondência de registros entre diferentes bases de dados.
O algoritmo converte automaticamente caracteres franceses acentuados (é, è, ê, ç, etc.) em suas formas básicas antes do processamento. Isso garante códigos consistentes independentemente de os acentos aparecerem ou não nos dados originais.
O prenome só é usado quando o sobrenome não fornece caracteres suficientes para o código. Se, após remover as vogais, o sobrenome tiver menos de 3 caracteres utilizáveis, a primeira letra do prenome é adicionada ao código.
Ao contrário de algoritmos fonéticos como Soundex ou Metaphone, a codificação Statistics Canada não é estritamente fonética. É um algoritmo simples de extração de caracteres projetado para consistência e fácil implementação em sistemas governamentais, especialmente adequado aos padrões de nomes canadenses.