エンコード | 国勢調査 | カナダ

> statistics | canada | coding <

// レコードリンクのための Statistics Canada 国勢調査氏名コーディング

0 文字

>> 特長

[CENSUS]

公式アルゴリズム

Statistics Canada が国勢調査データに使用している方式です。

[4-CHAR]

固定長コード

すべての名前を 4 文字の一貫したコードに変換します。

[BILINGUAL]

フランス語対応

フランス語のアクセント付き文字を正しく処理します。

>> 技術情報

Statistics Canada コーディングの仕組み

Statistics Canada の氏名コーディングアルゴリズムは、国勢調査データや人口動態統計におけるレコードリンク(記録の突合)に利用されます。姓と必要に応じて名から 4 文字のコードを生成します。アルゴリズムは、姓の最初の 1 文字と次の 2 つの子音を取り出します(母音と Y は除去されます)。姓から 3 文字分を取得できない場合は、名の最初の文字が利用されます。フランス語のアクセント付き文字は、処理の前に基本ラテン文字に正規化されます。

国勢調査氏名コーディングの例

アルゴリズムの手順:
1. 姓の最初の文字
2. 姓から次の 2 つの子音
3. 必要に応じて名の頭文字
4. スペースで 4 文字になるようにパディング

例:
SMITH → SMTH
  S + M + T + H

MacDONALD → MCDL
  M + C + D + (N L)

Tremblay, Marie → TRMB
  T + R + M + B

Lee, David → LEED
  L +(子音なし)+ D

フランス語の処理:
Côté → COTE → CT  
Lépine → LEPINE → LPN 

短い名前:
Lo → LO   (パディングあり)
Kim, Su → KMS

Statistics Canada コーディングを使う理由

  • > カナダ公式の国勢調査方式
  • > 政府データベース間のレコードリンク
  • > 人口動態統計の照合
  • > フランス語と英語の二言語サポート
  • > シンプルで一貫した 4 文字フォーマット

>> よくある質問

Statistics Canada 氏名コーディングとは何ですか?

Statistics Canada 氏名コーディングは、カナダ政府が国勢調査データや人口動態統計でレコードリンクに使用するアルゴリズムです。名前から標準化された 4 文字コードを生成し、異なるデータベース間でレコードを照合しやすくします。

フランス語の名前はどのように処理されますか?

アルゴリズムは、é、è、ê、ç などのフランス語のアクセント付き文字を処理前に自動的に基本形(e や c など)に変換します。これにより、元データにアクセントがあるかどうかに関係なく、一貫したコードが得られます。

名はいつ利用されますか?

名は、姓だけではコードを作るのに十分な文字が得られない場合にのみ使用されます。母音を取り除いたあと、姓に 3 文字未満しか残らない場合は、名の最初の文字がコードに追加されます。

他の音声アルゴリズムと何が違いますか?

Soundex や Metaphone のような音声アルゴリズムとは異なり、Statistics Canada コーディングは厳密な音声ベースではありません。政府システムでの一貫性と実装の容易さを重視したシンプルな文字抽出アルゴリズムであり、特にカナダの名前パターンに適しています。