> statistics | canada | coding <

// Statistics Canada codering van volkstellingsnamen voor recordkoppeling

INVOER 0 tekens

UITVOER

>> Analysis

>> functies

[CENSUS]

Officieel algoritme

Gebruikt door Statistics Canada voor volkstellingsgegevens.

[4-CHAR]

Vaste lengte

Consistente codes van 4 tekens voor alle namen.

[BILINGUAL]

Franstalige ondersteuning

Gaat correct om met Franse letters met accenten.

>> technische informatie

Hoe Statistics Canada-codering werkt

Het naamcoderingsalgoritme van Statistics Canada wordt gebruikt voor recordkoppeling in volkstellingsgegevens en vitale statistieken. Het maakt een code van 4 tekens van achternamen en eventueel voornamen. Het algoritme neemt de eerste letter van de achternaam plus de volgende twee medeklinkers (klinkers en de letter Y worden verwijderd). Als de achternaam minder dan 3 bruikbare tekens oplevert, wordt de eerste letter van de voornaam gebruikt. De code verwerkt Franse letters met accenten door ze om te zetten naar hun basisvorm.

Voorbeelden van codering van volkstellingsnamen

Stappen van het algoritme:
1. Eerste letter van de achternaam
2. De volgende 2 medeklinkers uit de achternaam
3. Initiaal van de voornaam indien nodig
4. Opvullen met spaties tot 4 tekens

Voorbeelden:
SMITH → SMTH
  S + M + T + H

MacDONALD → MCDL
  M + C + D + (N L)

Tremblay, Marie → TRMB
  T + R + M + B

Lee, David → LEED
  L + (geen medeklinkers) + D

Franse verwerking:
Côté → COTE → CT  
Lépine → LEPINE → LPN 

Korte namen:
Lo → LO   (opgevuld)
Kim, Su → KMS

Waarom Statistics Canada-codering gebruiken

> Officiële Canadese volkstellingsmethodologie
> Recordkoppeling in overheidsdatabanken
> Afstemming van vitale statistieken
> Tweetalige ondersteuning (Frans‑Engels)
> Eenvoudig en consistent formaat van 4 tekens

>> veelgestelde vragen

Wat is Statistics Canada naamcodering?

Statistics Canada naamcodering is een algoritme dat door de Canadese overheid wordt gebruikt voor recordkoppeling in volkstellingsgegevens en vitale statistieken. Het maakt een gestandaardiseerde code van 4 tekens uit namen, zodat records tussen verschillende databanken eenvoudiger kunnen worden gematcht.

Hoe worden Franse namen behandeld?

Het algoritme zet Franse letters met accenten (é, è, ê, ç, enz.) automatisch om in hun basisvorm voordat ze worden verwerkt. Daardoor ontstaan consistente codes, ongeacht of accenten in de oorspronkelijke gegevens zijn opgenomen.

Wanneer wordt de voornaam gebruikt?

De voornaam wordt alleen gebruikt wanneer de achternaam niet genoeg tekens voor de code oplevert. Als de achternaam na het verwijderen van de klinkers minder dan 3 bruikbare tekens bevat, wordt de eerste letter van de voornaam aan de code toegevoegd.

Hoe verschilt dit van andere fonetische algoritmen?

In tegenstelling tot fonetische algoritmen zoals Soundex of Metaphone is Statistics Canada‑codering niet strikt fonetisch. Het is een eenvoudig tekenextractie‑algoritme, ontworpen voor consistentie en eenvoudige implementatie in overheidssystemen, en het is bijzonder geschikt voor Canadese naampatronen.