// Codifica dei nomi del censimento di Statistics Canada per il collegamento dei record
Utilizzato da Statistics Canada per i dati del censimento.
Codici coerenti di 4 caratteri per tutti i nomi.
Gestisce correttamente i caratteri francesi accentati.
L’algoritmo di codifica dei nomi di Statistics Canada viene utilizzato per il collegamento dei record nei dati di censimento e nelle statistiche vitali. Crea un codice di 4 caratteri a partire dai cognomi e, se necessario, dai nomi. L’algoritmo prende la prima lettera del cognome più le due consonanti successive (le vocali e la lettera Y vengono rimosse). Se il cognome fornisce meno di 3 caratteri utilizzabili, viene utilizzata la prima lettera del nome. Il codice gestisce i caratteri francesi accentati convertendoli nelle loro forme di base.
Passaggi dell’algoritmo: 1. Prima lettera del cognome 2. Successive 2 consonanti del cognome 3. Iniziale del nome, se necessario 4. Riempire con spazi fino a 4 caratteri Esempi: SMITH → SMTH S + M + T + H MacDONALD → MCDL M + C + D + (N L) Tremblay, Marie → TRMB T + R + M + B Lee, David → LEED L + (nessuna consonante) + D Gestione del francese: Côté → COTE → CT Lépine → LEPINE → LPN Nomi brevi: Lo → LO (riempito) Kim, Su → KMS
La codifica dei nomi Statistics Canada è un algoritmo utilizzato dal governo canadese per il collegamento dei record nei dati di censimento e nelle statistiche vitali. Crea un codice standardizzato di 4 caratteri a partire dai nomi per facilitare l’abbinamento dei record tra diverse basi di dati.
L’algoritmo converte automaticamente i caratteri francesi accentati (é, è, ê, ç, ecc.) nelle loro forme di base prima dell’elaborazione. Ciò garantisce codici coerenti, indipendentemente dal fatto che gli accenti siano presenti o meno nei dati originali.
Il nome viene utilizzato solo quando il cognome non fornisce abbastanza caratteri per il codice. Se dopo aver rimosso le vocali il cognome contiene meno di 3 caratteri utilizzabili, la prima lettera del nome viene aggiunta al codice.
A differenza degli algoritmi fonetici come Soundex o Metaphone, la codifica Statistics Canada non è strettamente fonetica. È un semplice algoritmo di estrazione di caratteri progettato per la coerenza e la facilità di implementazione nei sistemi governativi, particolarmente adatto ai modelli di nomi canadesi.