> soundex | fonetisk | fuzzy <
// Soundex – fonetisk algoritme for å indeksere navn etter lyd
Lyd‑basert
Koder navn basert på uttale i stedet for stavemåte.
Fuzzy‑matching
Finner navn som høres like ut selv om de staves forskjellig.
Slektsforskning
Nyttig verktøy for slektsgransking og historiske arkiver.
>> teknisk info
Hvordan Soundex fungerer:
Soundex beholder første bokstav og erstatter konsonanter med tall basert på fonetiske grupper. Konsonanter som høres like ut får samme tall; vokaler ignoreres, og resultatet fylles ut eller kuttes ned til 4 tegn (American) eller variabel lengde (Refined).
Koderregler:
1 = B,F,P,V 2 = C,G,J,K,Q,S,X,Z 3 = D,T 4 = L 5 = M,N 6 = R Robert → R163 Rupert → R163 Rubin → R150
Hvorfor bruke Soundex?:
- >Fjerne duplikater i databaser
- >Slekts‑ og familiehistorie
- >Analyse av folketelling
- >Kundematching
- >Stavekontroll og retting
>> ofte stilte spørsmål
Hva er Soundex?
Soundex er en fonetisk algoritme fra 1918 som brukes til å indeksere navn etter hvordan de uttales. Den ble laget for den amerikanske folketellingen for å kunne finne etternavn med lignende uttale selv om de staves forskjellig.
American vs. Refined Soundex?
American Soundex lager koder med fire tegn (en bokstav + tre tall). Refined Soundex (blant annet i SQL Server) bruker flere kodegrupper og variable lengder for mer presis matching.
Hvorfor får ulike stavemåter samme kode?
Det er hele poenget med Soundex! Algoritmen grupperer navn som høres like ut, som Smith og Schmidt, slik at du lettere finner variasjoner av samme navn i databaser.
Hvilke begrensninger har Soundex?
Soundex fungerer best for engelske navn. For andre språk kan nøyaktigheten bli dårligere, og svært ulike stavemåter av samme navn kan få forskjellige koder.