// Kodowanie nazw ze spisów Statistics Canada do łączenia rekordów
Używany przez Statistics Canada dla danych ze spisów powszechnych.
Spójne 4‑znakowe kody dla wszystkich nazw.
Poprawnie obsługuje francuskie znaki diakrytyczne.
Algorytm kodowania nazwisk Statistics Canada jest używany do łączenia rekordów w danych ze spisów powszechnych i statystykach ludnościowych. Tworzy 4‑znakowy kod z nazwisk i opcjonalnie z imion. Algorytm pobiera pierwszą literę nazwiska oraz kolejne dwie spółgłoski (samogłoski i litera Y są usuwane). Jeśli nazwisko dostarcza mniej niż 3 użyteczne znaki, używana jest pierwsza litera imienia. Kod obsługuje francuskie znaki diakrytyczne, konwertując je do form podstawowych.
Kroki algorytmu: 1. Pierwsza litera nazwiska 2. Kolejne 2 spółgłoski z nazwiska 3. Inicjał imienia, jeśli to konieczne 4. Dopełnienie spacjami do 4 znaków Przykłady: SMITH → SMTH S + M + T + H MacDONALD → MCDL M + C + D + (N L) Tremblay, Marie → TRMB T + R + M + B Lee, David → LEED L + (brak spółgłosek) + D Obsługa języka francuskiego: Côté → COTE → CT Lépine → LEPINE → LPN Krótkie nazwy: Lo → LO (dopełnione) Kim, Su → KMS
Kodowanie nazwisk Statistics Canada to algorytm używany przez rząd Kanady do łączenia rekordów w danych ze spisów powszechnych i statystykach ludnościowych. Tworzy on z nazw standardowy 4‑znakowy kod, ułatwiający dopasowywanie rekordów między różnymi bazami danych.
Algorytm automatycznie konwertuje francuskie znaki diakrytyczne (é, è, ê, ç itd.) do ich form podstawowych przed przetworzeniem. Dzięki temu generowane kody są spójne, niezależnie od tego, czy w danych źródłowych występują znaki diakrytyczne.
Imię jest używane tylko wtedy, gdy nazwisko nie dostarcza wystarczającej liczby znaków do stworzenia kodu. Jeśli po usunięciu samogłosek w nazwisku pozostają mniej niż 3 użyteczne znaki, do kodu dodawana jest pierwsza litera imienia.
W przeciwieństwie do algorytmów fonetycznych, takich jak Soundex czy Metaphone, kodowanie Statistics Canada nie jest ściśle fonetyczne. To prosty algorytm ekstrakcji znaków zaprojektowany z myślą o spójności i łatwej implementacji w systemach administracji publicznej, szczególnie dostosowany do kanadyjskich wzorców nazwisk.