kodieren | dekodieren | komprimieren

> soundex | phonetisch | fuzzy <

// Soundex – phonetischer Algorithmus zum Indizieren von Namen nach Klang

[PHONETIC]

Klangbasiert

Kodiert Namen anhand der Aussprache statt der Schreibweise.

[FUZZY]

Unscharfe Suche

Findet ähnlich klingende Namen trotz unterschiedlicher Schreibweise.

[GENEALOGY]

Ahnenforschung

Unverzichtbares Werkzeug für Genealogie und historische Register.

>> technische details

Wie Soundex funktioniert:

Soundex behält den ersten Buchstaben und ersetzt Konsonanten durch Ziffern, die phonetischen Gruppen entsprechen. Ähnlich klingende Konsonanten erhalten denselben Code, Vokale werden ignoriert und das Ergebnis wird auf 4 Zeichen aufgefüllt oder gekürzt (American) bzw. variabel lang (Refined).

Kodierregeln:

1 = B,F,P,V 2 = C,G,J,K,Q,S,X,Z 3 = D,T 4 = L 5 = M,N 6 = R Robert → R163 Rupert → R163 Rubin → R150

Warum Soundex verwenden?:

  • >Dublettenerkennung in Datenbanken
  • >Genealogische Forschung
  • >Auswertung von Volkszählungen
  • >Kunden‑ und Kontakten‑Matching
  • >Rechtschreibkorrektur

>> häufige fragen

Was ist Soundex?

Soundex ist ein phonetischer Algorithmus aus dem Jahr 1918, der Namen nach ihrem Klang indexiert. Er wurde für die US‑Volkszählung entwickelt, damit sich Familiennamen mit ähnlicher Aussprache trotz verschiedener Schreibweise leichter finden lassen.

American vs. Refined Soundex?

American Soundex erzeugt Codes mit vier Zeichen (Buchstabe + 3 Ziffern). Refined Soundex (u.a. in SQL Server) verwendet feinere Gruppen und Codes variabler Länge für höhere Genauigkeit.

Warum erhalten verschiedene Schreibweisen denselben Code?

Das ist genau der Zweck von Soundex! Der Algorithmus gruppiert ähnlich klingende Namen zusammen. Smith und Schmidt klingen ähnlich und erhalten daher ähnliche Codes – so finden Sie Varianten eines Namens leichter.

Welche Grenzen hat Soundex?

Soundex funktioniert am besten mit englischen Namen. Für andere Sprachen kann die Qualität variieren, und sehr unterschiedliche Schreibweisen desselben Namens können unterschiedliche Codes erzeugen.

Weitere Sprachen