// MRA - Match Rating Approach per il confronto intelligente dei nomi
Calcola la similarità numerica tra i nomi.
Codici ottimizzati usando i primi 3 e gli ultimi 3 caratteri.
Adatta la soglia in base alla lunghezza del nome.
Match Rating Approach (MRA) è un algoritmo fonetico sviluppato da Western Airlines nel 1977. Codifica i nomi rimuovendo le vocali (tranne la prima lettera), eliminando le consonanti duplicate e riducendo il risultato a 6 caratteri (primi 3 + ultimi 3 se il nome è più lungo). Nella fase di confronto calcola la similarità confrontando i caratteri dall'inizio e dalla fine, con una soglia regolata in base alla lunghezza combinata dei codici.
Passaggi di codifica:
1. Rimuovere le vocali (tranne la prima)
2. Rimuovere le consonanti duplicate
3. Tenere i primi 3 + gli ultimi 3 se la lunghezza > 6
Esempi:
CATHERINE → CTHRN
C[a]TH[e]R[i]N[e] → CTHRN
KATHERINE → KTHRN
K[a]TH[e]R[i]N[e] → KTHRN
SMITH → SMTH
SM[i]TH → SMTH
Soglie di matching:
Somma ≤ 4: servono 5 corrispondenze
Somma 5–7: servono 4 corrispondenze
Somma 8–11: servono 3 corrispondenze
Somma ≥ 12: servono 2 corrispondenze
CTHRN vs KTHRN:
Somma = 10, servono 3 corrispondenze
Risultato: 4 corrispondenze → MATCH!
Match Rating Approach (MRA) è un algoritmo fonetico sviluppato da Western Airlines nel 1977 per il confronto dei nomi dei passeggeri. Combina fasi di codifica e confronto, fornendo sia un codice fonetico sia un punteggio di similarità tra i nomi.
A differenza di Soundex o Metaphone, che forniscono solo codici, MRA include un sofisticato algoritmo di confronto che calcola i punteggi di similarità. Regola la soglia di matching in base alla lunghezza del nome, risultando più flessibile e preciso per diversi tipi di nomi.
Il punteggio di similarità conta il numero di caratteri corrispondenti quando si confrontano due codici MRA dall'inizio e dalla fine. Il punteggio minimo richiesto varia in base alla lunghezza combinata dei codici: i nomi più corti richiedono una similarità maggiore per essere considerati un match.
MRA è ideale per applicazioni che richiedono un confronto accurato dei nomi: database clienti, ricerche genealogiche, rilevamento frodi e collegamento di record. È particolarmente efficace per identificare potenziali duplicati con grafie diverse.