// Кодирование имён Statistics Canada для связи записей переписи
Используется Statistics Canada для данных переписи населения.
Единые 4‑символьные коды для всех имён.
Корректно обрабатывает французские символы с диакритикой.
Алгоритм кодирования имён Statistics Canada используется для связи записей (record linkage) в данных переписи и статистике естественного движения населения. Он формирует 4‑символьный код из фамилии и при необходимости имени. Алгоритм берёт первую букву фамилии и следующие две согласные (гласные и буква Y удаляются). Если фамилия даёт меньше 3 пригодных символов, используется первая буква имени. Для французских букв с диакритикой код преобразует их в базовую латинскую форму.
Шаги алгоритма: 1. Первая буква фамилии 2. Следующие 2 согласные из фамилии 3. Инициал имени при необходимости 4. Дополнение пробелами до 4 символов Примеры: SMITH → SMTH S + M + T + H MacDONALD → MCDL M + C + D + (N L) Tremblay, Marie → TRMB T + R + M + B Lee, David → LEED L + (нет согласных) + D Обработка французских имён: Côté → COTE → CT Lépine → LEPINE → LPN Короткие имена: Lo → LO (с дополнением) Kim, Su → KMS
Кодирование имён Statistics Canada — это алгоритм, который используется правительством Канады для связи записей в данных переписи и статистике естественного движения населения. Он создаёт стандартизированный 4‑символьный код из имён, упрощая сопоставление записей между различными базами данных.
Алгоритм автоматически преобразует французские буквы с диакритическими знаками (é, è, ê, ç и др.) в их базовые формы перед обработкой. Это обеспечивает единообразные коды независимо от того, указаны ли диакритические знаки в исходных данных.
Имя используется только тогда, когда фамилия не даёт достаточно символов для формирования кода. Если после удаления гласных в фамилии остаётся меньше 3 пригодных символов, коду добавляется первая буква имени.
В отличие от фонетических алгоритмов, таких как Soundex или Metaphone, кодирование Statistics Canada не является строго фонетическим. Это простой алгоритм извлечения символов, разработанный для обеспечения стабильности и лёгкой реализации в государственных системах, особенно хорошо подходящий для канадских именных паттернов.