Бизнес-приложение: Оценка достоверности анкеты заемщика

Недостоверная информация на входе системы – ошибочное решение на выходе.

Примеры:

ПолеЗначениеОшибка
ИмяCергейПервая буква - латинская
ФамилияПетровичЗначение из другого поля
ГородМскваОпечатка
Доходы100 руб.Слишком маленькая цифра

Для решения проблемы вводятся логические правила оценки информации, современные методы очистки данных. Бизнес-приложение позволяет решить проблему качества клиентских данных и включает несколько блоков, покрывающих все задачи системы проверки качества данных:
    • Стандартизация
    • Очистка
    • Обогащение
    • Дедупликация

Очистке подвергаются такие данные физических лиц как:
    • Фамилия, Имя, Отечество
    • Даты рождения
    • Телефонные номера
    • Почтовые адреса
    • E-mail
    • Web-сайты
    • Документы, удостоверяющие личность
    • ИНН
Решение также включает в себя настроенное хранилище данных, готовые сценарии очистки данных и заполненные справочники адресов, телефонов, фамилий и прочее.


Стандартизация
Модуль обеспечивает приведение данных к единому формату:

    • парсинг полей (разбиение ФИО на фамилию, имя, отчество; разбиение адреса на адресные составляющие…);
    • выделение нескольких компонентов из одного поля (организационно-правовой формы и наименования организации из организации…);
    • стандартизация формы записей полей (e-mail к формату X@X.X, адреса к формату КЛАДР....).


Очистка
Модуль обеспечивает очистку данных от ошибок:
    • выявление посторонних «мусорных» данных или символов;
    • проверка соответствия заполнения полей;
    • обработка ошибок, связанных со сменой раскладки на клавиатуре (C–английская, С – русская), неправильным распознаванием отсканированных данных (цифра 0 вместо О);
    • проверка данных по справочно-нормативным базам (справочнику имен, фамилий, кодов телефонных номеров, КЛАДР, перечня организационно-правовых форм);
    • верификация дат, ИНН, КПП и других числовых банковских реквизитов;
    • поиск и устранение противоречий во взаимосвязанных полях (ФИО и пол, индекс и адрес, телефон и адрес);
    • отслеживание допустимых диапазонов значений, правильных типов данных.


Обогащение
Модуль обеспечивает обогащение данных:
    • восстановление пропусков по взаимосвязанным полям (заполнение телефонного кода города, если указан город ...);
    • восстановление пропусков по справочникам (заполнение индексов по обнаруженным адресам в КЛАДР…).


Дедупликация
Модуль обеспечивает поиск дублей:
    • поиск дубликатов с использованием стратегий полного совпадения (например, должны полностью совпадать ФИО, номер и серия паспорта)
    • поиск дубликатов с использованием стратегий нечеткого поиска, допускающего различного рода опечатки в данных и некорректной трактовки звучания слова при его написании.

На выходе системы формируется единый мастер-данных (таблица или база данных), содержащий стандартизированную, очищенную, непротиворечивую, неповторяющуюся информацию о клиентах.

Записи с полями, которая система автоматически не смогла очистить и распознать, помечаются сообщениями об ошибках. Неочищенные данные передаются на ручную обработку операторов с перечнем конкретных ошибок, которые требуют актуализации и корректировки.

1989-2017 © ПрограмБанк
тел.: +7(495) 651-84-84
info@programbank.ru
Мы в соцсетях facebook Карта сайта