// Statistics Canada codering van volkstellingsnamen voor recordkoppeling
Gebruikt door Statistics Canada voor volkstellingsgegevens.
Consistente codes van 4 tekens voor alle namen.
Gaat correct om met Franse letters met accenten.
Het naamcoderingsalgoritme van Statistics Canada wordt gebruikt voor recordkoppeling in volkstellingsgegevens en vitale statistieken. Het maakt een code van 4 tekens van achternamen en eventueel voornamen. Het algoritme neemt de eerste letter van de achternaam plus de volgende twee medeklinkers (klinkers en de letter Y worden verwijderd). Als de achternaam minder dan 3 bruikbare tekens oplevert, wordt de eerste letter van de voornaam gebruikt. De code verwerkt Franse letters met accenten door ze om te zetten naar hun basisvorm.
Stappen van het algoritme: 1. Eerste letter van de achternaam 2. De volgende 2 medeklinkers uit de achternaam 3. Initiaal van de voornaam indien nodig 4. Opvullen met spaties tot 4 tekens Voorbeelden: SMITH → SMTH S + M + T + H MacDONALD → MCDL M + C + D + (N L) Tremblay, Marie → TRMB T + R + M + B Lee, David → LEED L + (geen medeklinkers) + D Franse verwerking: Côté → COTE → CT Lépine → LEPINE → LPN Korte namen: Lo → LO (opgevuld) Kim, Su → KMS
Statistics Canada naamcodering is een algoritme dat door de Canadese overheid wordt gebruikt voor recordkoppeling in volkstellingsgegevens en vitale statistieken. Het maakt een gestandaardiseerde code van 4 tekens uit namen, zodat records tussen verschillende databanken eenvoudiger kunnen worden gematcht.
Het algoritme zet Franse letters met accenten (é, è, ê, ç, enz.) automatisch om in hun basisvorm voordat ze worden verwerkt. Daardoor ontstaan consistente codes, ongeacht of accenten in de oorspronkelijke gegevens zijn opgenomen.
De voornaam wordt alleen gebruikt wanneer de achternaam niet genoeg tekens voor de code oplevert. Als de achternaam na het verwijderen van de klinkers minder dan 3 bruikbare tekens bevat, wordt de eerste letter van de voornaam aan de code toegevoegd.
In tegenstelling tot fonetische algoritmen zoals Soundex of Metaphone is Statistics Canada‑codering niet strikt fonetisch. Het is een eenvoudig tekenextractie‑algoritme, ontworpen voor consistentie en eenvoudige implementatie in overheidssystemen, en het is bijzonder geschikt voor Canadese naampatronen.