// 레코드 연계를 위한 Statistics Canada 인구 조사 이름 코딩
Statistics Canada에서 인구 조사 데이터에 사용하는 알고리즘입니다.
모든 이름을 일관된 4자리 코드로 변환합니다.
프랑스어 악센트 문자를 올바르게 처리합니다.
Statistics Canada 이름 코딩 알고리즘은 인구 조사 데이터와 인구통계 통계에서 레코드 연계를 위해 사용됩니다. 성과 필요한 경우 이름에서 4자리 코드를 생성합니다. 알고리즘은 성의 첫 글자와 그 다음 두 개의 자음을 취하며(모음과 Y는 제거됩니다). 성에서 사용할 수 있는 문자가 3개보다 적으면 이름의 첫 글자를 사용합니다. 프랑스어 악센트 문자는 처리 전에 기본 라틴 문자로 변환하여 다룹니다.
알고리즘 단계: 1. 성의 첫 글자 2. 성에서 다음 두 개의 자음 3. 필요 시 이름의 첫 글자 4. 공백으로 채워 총 4자까지 패딩 예시: SMITH → SMTH S + M + T + H MacDONALD → MCDL M + C + D + (N L) Tremblay, Marie → TRMB T + R + M + B Lee, David → LEED L + (자음 없음) + D 프랑스어 처리: Côté → COTE → CT Lépine → LEPINE → LPN 짧은 이름: Lo → LO (패딩) Kim, Su → KMS
Statistics Canada 이름 코딩은 캐나다 정부가 인구 조사 데이터와 인구통계 통계에서 레코드 연계를 위해 사용하는 알고리즘입니다. 이름에서 표준화된 4자리 코드를 생성하여 서로 다른 데이터베이스 간의 레코드 매칭을 쉽게 합니다.
알고리즘은 é, è, ê, ç 등 프랑스어 악센트 문자를 처리 전에 자동으로 기본 문자(e, c 등)로 변환합니다. 이를 통해 원본 데이터에 악센트가 포함되어 있든 아니든 항상 일관된 코드가 생성됩니다.
성만으로는 코드에 필요한 충분한 문자를 제공하지 못할 때에만 이름이 사용됩니다. 모음을 제거한 뒤 사용할 수 있는 문자가 3개 미만이면 이름의 첫 글자가 코드에 추가됩니다.
Soundex나 Metaphone과 같은 음성 알고리즘과 달리 Statistics Canada 코딩은 엄밀한 음성 기반 알고리즘이 아닙니다. 정부 시스템에서의 일관성과 구현 용이성을 위해 설계된 단순한 문자 추출 알고리즘으로, 특히 캐나다 이름 패턴에 적합합니다.