// レコードリンクのための Statistics Canada 国勢調査氏名コーディング
Statistics Canada が国勢調査データに使用している方式です。
すべての名前を 4 文字の一貫したコードに変換します。
フランス語のアクセント付き文字を正しく処理します。
Statistics Canada の氏名コーディングアルゴリズムは、国勢調査データや人口動態統計におけるレコードリンク(記録の突合)に利用されます。姓と必要に応じて名から 4 文字のコードを生成します。アルゴリズムは、姓の最初の 1 文字と次の 2 つの子音を取り出します(母音と Y は除去されます)。姓から 3 文字分を取得できない場合は、名の最初の文字が利用されます。フランス語のアクセント付き文字は、処理の前に基本ラテン文字に正規化されます。
アルゴリズムの手順: 1. 姓の最初の文字 2. 姓から次の 2 つの子音 3. 必要に応じて名の頭文字 4. スペースで 4 文字になるようにパディング 例: SMITH → SMTH S + M + T + H MacDONALD → MCDL M + C + D + (N L) Tremblay, Marie → TRMB T + R + M + B Lee, David → LEED L +(子音なし)+ D フランス語の処理: Côté → COTE → CT Lépine → LEPINE → LPN 短い名前: Lo → LO (パディングあり) Kim, Su → KMS
Statistics Canada 氏名コーディングは、カナダ政府が国勢調査データや人口動態統計でレコードリンクに使用するアルゴリズムです。名前から標準化された 4 文字コードを生成し、異なるデータベース間でレコードを照合しやすくします。
アルゴリズムは、é、è、ê、ç などのフランス語のアクセント付き文字を処理前に自動的に基本形(e や c など)に変換します。これにより、元データにアクセントがあるかどうかに関係なく、一貫したコードが得られます。
名は、姓だけではコードを作るのに十分な文字が得られない場合にのみ使用されます。母音を取り除いたあと、姓に 3 文字未満しか残らない場合は、名の最初の文字がコードに追加されます。
Soundex や Metaphone のような音声アルゴリズムとは異なり、Statistics Canada コーディングは厳密な音声ベースではありません。政府システムでの一貫性と実装の容易さを重視したシンプルな文字抽出アルゴリズムであり、特にカナダの名前パターンに適しています。