// Codage des noms du recensement de Statistics Canada pour le rapprochement de dossiers
Utilisé par Statistique Canada pour les données de recensement.
Codes cohérents de 4 caractères pour tous les noms.
Gère correctement les caractères accentués en français.
L’algorithme de codage des noms de Statistics Canada est utilisé pour le rapprochement de dossiers dans les données de recensement et les statistiques de l’état civil. Il crée un code de 4 caractères à partir des noms de famille et éventuellement des prénoms. L’algorithme prend la première lettre du nom de famille et les deux consonnes suivantes (les voyelles et la lettre Y sont supprimées). Si le nom de famille fournit moins de 3 caractères utilisables, la première lettre du prénom est utilisée. Le code gère les caractères français accentués en les convertissant en leur forme de base.
Étapes de l’algorithme : 1. Première lettre du nom de famille 2. 2 consonnes suivantes du nom de famille 3. Initiale du prénom si nécessaire 4. Compléter avec des espaces jusqu’à 4 caractères Exemples : SMITH → SMTH S + M + T + H MacDONALD → MCDL M + C + D + (N L) Tremblay, Marie → TRMB T + R + M + B Lee, David → LEED L + (aucune consonne) + D Traitement du français : Côté → COTE → CT Lépine → LEPINE → LPN Noms courts : Lo → LO (rempli) Kim, Su → KMS
Le codage de noms Statistics Canada est un algorithme utilisé par le gouvernement canadien pour le rapprochement de dossiers dans les données de recensement et les statistiques de l’état civil. Il crée un code standardisé de 4 caractères à partir des noms afin de faciliter la mise en correspondance des enregistrements entre différentes bases de données.
L’algorithme convertit automatiquement les caractères français accentués (é, è, ê, ç, etc.) en leurs formes de base avant le traitement. Cela garantit des codes cohérents, que les accents soient présents ou non dans les données d’origine.
Le prénom n’est utilisé que lorsque le nom de famille ne fournit pas assez de caractères pour le code. Si le nom de famille contient moins de 3 caractères utilisables après suppression des voyelles, la première lettre du prénom est ajoutée au code.
Contrairement aux algorithmes phonétiques comme Soundex ou Metaphone, le codage Statistics Canada n’est pas strictement phonétique. Il s’agit d’un algorithme simple d’extraction de caractères conçu pour la cohérence et la facilité d’implémentation dans les systèmes gouvernementaux, particulièrement adapté aux schémas de noms canadiens.