> soundex | foniczny | fuzzy <

// Soundex – algorytm foniczny do indeksowania nazwisk według brzmienia

WEJŚCIE:

WYJŚCIE:

American Refined

[PHONETIC]

Oparte na brzmieniu

Koduje nazwiska na podstawie wymowy, a nie pisowni.

[FUZZY]

Dopasowanie rozmyte

Odnajduje nazwiska o podobnym brzmieniu mimo różnic w zapisie.

[GENEALOGY]

Genealogia

Niezbędne narzędzie do badań genealogicznych i archiwów historycznych.

>> informacje techniczne

Jak działa Soundex:

Soundex zachowuje pierwszą literę i zastępuje spółgłoski cyframi według grup fonicznych. Spółgłoski o podobnym brzmieniu mają ten sam numer, samogłoski są ignorowane, a wynik jest dopełniany lub skracany do 4 znaków (American) lub ma zmienną długość (Refined).

Reguły kodowania:

1 = B,F,P,V 2 = C,G,J,K,Q,S,X,Z 3 = D,T 4 = L 5 = M,N 6 = R Robert → R163 Rupert → R163 Rubin → R150

Dlaczego warto używać Soundex?:

>Usuwanie duplikatów w bazach danych
>Badania genealogiczne
>Analiza danych spisów ludności
>Dopasowywanie klientów/rekordów
>Korekta pisowni

>> najczęstsze pytania

Czym jest Soundex?

Soundex to foniczny algorytm opracowany w 1918 roku do indeksowania nazwisk według ich brzmienia. Został stworzony na potrzeby spisu ludności w USA, aby łatwiej znajdować nazwiska o podobnej wymowie mimo różnej pisowni.

American vs Refined Soundex?

American Soundex generuje kody złożone z 4 znaków (litera + 3 cyfry). Refined Soundex (np. w SQL Server) używa bardziej szczegółowych mapowań i kodów o zmiennej długości, dzięki czemu dopasowanie jest dokładniejsze.

Dlaczego różne pisownie mają ten sam kod?

Taki jest cel Soundex. Algorytm grupuje nazwiska, które brzmią podobnie – np. Smith i Schmidt – aby łatwiej było znaleźć warianty tego samego nazwiska w bazie danych.

Jakie są ograniczenia Soundex?

Soundex najlepiej sprawdza się dla nazw angielskich. Dla innych języków jakość może być niższa, a znacznie różniące się zapisy tego samego nazwiska mogą dawać odmienne kody.

Inne języki

🇺🇸 English 🇫🇷 Français 🇩🇪 Deutsch 🇪🇸 Español 🇵🇹 Português 🇮🇹 Italiano 🇳🇱 Nederlands 🇷🇺 Русский 🇯🇵 日本語 🇰🇷 한국어 🇨🇳 简体中文 🇹🇼 繁體中文 🇸🇦 العربية 🇮🇳 हिन्दी 🇵🇱 Polski 🇹🇷 Türkçe 🇸🇪 Svenska 🇩🇰 Dansk 🇳🇴 Norsk