> statistics | canada | coding <
// Statistics Canada codering van volkstellingsnamen voor recordkoppeling
>> functies
Officieel algoritme
Gebruikt door Statistics Canada voor volkstellingsgegevens.
Vaste lengte
Consistente codes van 4 tekens voor alle namen.
Franstalige ondersteuning
Gaat correct om met Franse letters met accenten.
>> technische informatie
Hoe Statistics Canada-codering werkt
Het naamcoderingsalgoritme van Statistics Canada wordt gebruikt voor recordkoppeling in volkstellingsgegevens en vitale statistieken. Het maakt een code van 4 tekens van achternamen en eventueel voornamen. Het algoritme neemt de eerste letter van de achternaam plus de volgende twee medeklinkers (klinkers en de letter Y worden verwijderd). Als de achternaam minder dan 3 bruikbare tekens oplevert, wordt de eerste letter van de voornaam gebruikt. De code verwerkt Franse letters met accenten door ze om te zetten naar hun basisvorm.
Voorbeelden van codering van volkstellingsnamen
Stappen van het algoritme: 1. Eerste letter van de achternaam 2. De volgende 2 medeklinkers uit de achternaam 3. Initiaal van de voornaam indien nodig 4. Opvullen met spaties tot 4 tekens Voorbeelden: SMITH → SMTH S + M + T + H MacDONALD → MCDL M + C + D + (N L) Tremblay, Marie → TRMB T + R + M + B Lee, David → LEED L + (geen medeklinkers) + D Franse verwerking: Côté → COTE → CT Lépine → LEPINE → LPN Korte namen: Lo → LO (opgevuld) Kim, Su → KMS
Waarom Statistics Canada-codering gebruiken
- > Officiële Canadese volkstellingsmethodologie
- > Recordkoppeling in overheidsdatabanken
- > Afstemming van vitale statistieken
- > Tweetalige ondersteuning (Frans‑Engels)
- > Eenvoudig en consistent formaat van 4 tekens
>> veelgestelde vragen
Wat is Statistics Canada naamcodering?
Statistics Canada naamcodering is een algoritme dat door de Canadese overheid wordt gebruikt voor recordkoppeling in volkstellingsgegevens en vitale statistieken. Het maakt een gestandaardiseerde code van 4 tekens uit namen, zodat records tussen verschillende databanken eenvoudiger kunnen worden gematcht.
Hoe worden Franse namen behandeld?
Het algoritme zet Franse letters met accenten (é, è, ê, ç, enz.) automatisch om in hun basisvorm voordat ze worden verwerkt. Daardoor ontstaan consistente codes, ongeacht of accenten in de oorspronkelijke gegevens zijn opgenomen.
Wanneer wordt de voornaam gebruikt?
De voornaam wordt alleen gebruikt wanneer de achternaam niet genoeg tekens voor de code oplevert. Als de achternaam na het verwijderen van de klinkers minder dan 3 bruikbare tekens bevat, wordt de eerste letter van de voornaam aan de code toegevoegd.
Hoe verschilt dit van andere fonetische algoritmen?
In tegenstelling tot fonetische algoritmen zoals Soundex of Metaphone is Statistics Canada‑codering niet strikt fonetisch. Het is een eenvoudig tekenextractie‑algoritme, ontworpen voor consistentie en eenvoudige implementatie in overheidssystemen, en het is bijzonder geschikt voor Canadese naampatronen.