кодирование | сопоставление | рейтинг

> match | rating | approach <

// MRA - Match Rating Approach для интеллектуального сравнения имён

0 символов
0 символов
[SCORING]

Оценка схожести

Вычисляет числовую степень схожести между именами.

[6-CHAR]

Ограничение в 6 символов

Оптимизированные коды, использующие первые 3 и последние 3 символа.

[INTELLIGENT]

Интеллектуальное сопоставление

Настраивает порог в зависимости от длины имени.

>> техническая информация

Как работает Match Rating Approach

Match Rating Approach (MRA) — фонетический алгоритм, разработанный компанией Western Airlines в 1977 году. Он кодирует имена, удаляя гласные (кроме первой буквы), устраняя повторяющиеся согласные и сокращая результат до 6 символов (первые 3 + последние 3, если имя длиннее). На этапе сравнения рассчитывается схожесть путём сопоставления символов с начала и конца, а порог совпадения корректируется в зависимости от суммарной длины кодов.

Зачем использовать MRA

  • Точнее, чем Soundex, при работе с вариациями имён
  • Встроенная система оценки схожести
  • Обрабатывает как фонетические, так и орфографические вариации
  • Полезен для удаления дубликатов в базах данных
  • Эффективен для генеалогических исследований и связывания записей

Кодирование и сопоставление MRA

Шаги кодирования:
1. Удалить гласные (кроме первой)
2. Удалить повторяющиеся согласные
3. Оставить первые 3 + последние 3, если длина > 6

Примеры:
CATHERINE → CTHRN
  C[a]TH[e]R[i]N[e] → CTHRN

KATHERINE → KTHRN
  K[a]TH[e]R[i]N[e] → KTHRN

SMITH → SMTH
  SM[i]TH → SMTH

Пороги совпадения:
Сумма ≤ 4: нужно 5 совпадений
Сумма 5–7: нужно 4 совпадения
Сумма 8–11: нужно 3 совпадения
Сумма ≥ 12: нужно 2 совпадения

CTHRN vs KTHRN:
Сумма = 10, нужно 3 совпадения
Фактически: 4 совпадения → MATCH!

>> часто задаваемые вопросы

Что такое Match Rating Approach?

Match Rating Approach (MRA) — фонетический алгоритм, разработанный Western Airlines в 1977 году для сопоставления имён пассажиров. Он объединяет этапы кодирования и сравнения и предоставляет как фонетический код, так и оценку схожести между именами.

Чем MRA отличается от других фонетических алгоритмов?

В отличие от Soundex или Metaphone, которые выдают только коды, MRA включает сложный алгоритм сравнения, вычисляющий оценки схожести. Порог совпадения регулируется в зависимости от длины имени, что делает алгоритм более гибким и точным.

Что означает оценка схожести?

Оценка схожести — это количество совпадающих символов при сравнении двух кодов MRA с начала и конца. Минимально необходимое значение зависит от суммарной длины кодов — для коротких имён требуется более высокая степень схожести, чтобы считать их совпадением.

Когда стоит использовать MRA?

MRA подходит для задач, требующих тонкого сопоставления имён: клиентские базы данных, генеалогические исследования, обнаружение мошенничества и связывание записей. Особенно полезен при поиске потенциальных дубликатов с разным написанием.

СКОПИРОВАНО!