// Statistics Canada Namenscodierung für Record Linkage
Wird von Statistics Canada für Volkszählungsdaten verwendet.
Einheitliche Codes mit 4 Zeichen für alle Namen.
Verarbeitet französische Zeichen mit Akzenten korrekt.
Der Namenscodierungs-Algorithmus von Statistics Canada wird zur Verknüpfung von Datensätzen in Volkszählungsdaten und Vitalstatistiken verwendet. Er erzeugt einen 4-stelligen Code aus Nachnamen und optional Vornamen. Der Algorithmus nimmt den ersten Buchstaben des Nachnamens plus die nächsten zwei Konsonanten (Vokale und der Buchstabe Y werden entfernt). Wenn der Nachname weniger als 3 verwendbare Zeichen liefert, wird der erste Buchstabe des Vornamens verwendet. Der Code verarbeitet französische Zeichen mit Akzenten, indem er sie in ihre Grundform umwandelt.
Algorithmus-Schritte: 1. Erster Buchstabe des Nachnamens 2. Die nächsten 2 Konsonanten aus dem Nachnamen 3. Initiale des Vornamens falls nötig 4. Mit Leerzeichen auf 4 Zeichen auffüllen Beispiele: SMITH → SMTH S + M + T + H MacDONALD → MCDL M + C + D + (N L) Tremblay, Marie → TRMB T + R + M + B Lee, David → LEED L + (keine Konsonanten) + D Umgang mit Französisch: Côté → COTE → CT Lépine → LEPINE → LPN Kurze Namen: Lo → LO (aufgefüllt) Kim, Su → KMS
Statistics Canada Namenscodierung ist ein Algorithmus, den die kanadische Regierung zur Verknüpfung von Datensätzen in Volkszählungsdaten und Vitalstatistiken verwendet. Er erzeugt einen standardisierten 4-Zeichen-Code aus Namen, um das Matching von Datensätzen über verschiedene Datenbanken hinweg zu erleichtern.
Der Algorithmus konvertiert französische Zeichen mit Akzenten (é, è, ê, ç usw.) automatisch in ihre Grundformen, bevor sie verarbeitet werden. So entstehen konsistente Codes, unabhängig davon, ob Akzente in den ursprünglichen Daten vorhanden sind.
Der Vorname wird nur verwendet, wenn der Nachname nicht genügend Zeichen für den Code liefert. Wenn der Nachname nach Entfernen der Vokale weniger als 3 verwendbare Zeichen enthält, wird der erste Buchstabe des Vornamens zum Code hinzugefügt.
Im Gegensatz zu phonetischen Algorithmen wie Soundex oder Metaphone ist die Statistics Canada Codierung nicht streng phonetisch. Sie ist ein einfacher Zeichen-Extraktionsalgorithmus, der auf Konsistenz und leichte Implementierung in Regierungssystemen ausgelegt ist und besonders gut für kanadische Namensmuster geeignet ist.