> soundex | foniczny | fuzzy <

// Soundex – algorytm foniczny do indeksowania nazwisk według brzmienia

[PHONETIC]

Oparte na brzmieniu

Koduje nazwiska na podstawie wymowy, a nie pisowni.

[FUZZY]

Dopasowanie rozmyte

Odnajduje nazwiska o podobnym brzmieniu mimo różnic w zapisie.

[GENEALOGY]

Genealogia

Niezbędne narzędzie do badań genealogicznych i archiwów historycznych.

>> informacje techniczne

Jak działa Soundex:

Soundex zachowuje pierwszą literę i zastępuje spółgłoski cyframi według grup fonicznych. Spółgłoski o podobnym brzmieniu mają ten sam numer, samogłoski są ignorowane, a wynik jest dopełniany lub skracany do 4 znaków (American) lub ma zmienną długość (Refined).

Reguły kodowania:

1 = B,F,P,V 2 = C,G,J,K,Q,S,X,Z 3 = D,T 4 = L 5 = M,N 6 = R Robert → R163 Rupert → R163 Rubin → R150

Dlaczego warto używać Soundex?:

  • >Usuwanie duplikatów w bazach danych
  • >Badania genealogiczne
  • >Analiza danych spisów ludności
  • >Dopasowywanie klientów/rekordów
  • >Korekta pisowni

>> najczęstsze pytania

Czym jest Soundex?

Soundex to foniczny algorytm opracowany w 1918 roku do indeksowania nazwisk według ich brzmienia. Został stworzony na potrzeby spisu ludności w USA, aby łatwiej znajdować nazwiska o podobnej wymowie mimo różnej pisowni.

American vs Refined Soundex?

American Soundex generuje kody złożone z 4 znaków (litera + 3 cyfry). Refined Soundex (np. w SQL Server) używa bardziej szczegółowych mapowań i kodów o zmiennej długości, dzięki czemu dopasowanie jest dokładniejsze.

Dlaczego różne pisownie mają ten sam kod?

Taki jest cel Soundex. Algorytm grupuje nazwiska, które brzmią podobnie – np. Smith i Schmidt – aby łatwiej było znaleźć warianty tego samego nazwiska w bazie danych.

Jakie są ograniczenia Soundex?

Soundex najlepiej sprawdza się dla nazw angielskich. Dla innych języków jakość może być niższa, a znacznie różniące się zapisy tego samego nazwiska mogą dawać odmienne kody.

Inne języki