Как эффективно разработать современную модель кредитного скоринга на R

Можно ли выстроить эффективную систему оценки кредитоспособности на языке программирования R, опираясь не на анкетные данные клиентов банка, а на историю банковских транзакций, данные социальных сетей и другую доступную информацию? Легко! О том, как с этой задачей справились в одной из наших лабораторий, рассказал сотрудник Центра Николай Никитин, выступив с докладом на 16 meet-up'е St.Petersburg R User Group.

Кредитный скоринг — чрезвычайно важный инструмент в банковском деле. Именно благодаря ему, финансовые организации получают возможность увеличивать доходы, продолжая контролировать риски. Скоринг позволяет спрогнозировать, насколько проблематичным может быть тот или иной клиент, и, соответственно, сможет ли кредитор вернуть свои деньги.

К сожалению, традиционная скоринговая система анализа анкет не способна учитывать тех, у кого пока нет кредитной истории, и подходит лишь в тех случаях, когда человек проявил инициативу и сам предложил данные о себе для анализа. А что делать в случаях, когда банк готов предложить заем до того, как в него обратились с соответствующей просьбой? Можно ли анализировать и учитывать, например, поведенческие показатели потенциальных клиентов, анализируя доступную о них информацию?

Да. Если вы можете построить модель, которая составляет цифровой образ заемщика на основе, например, истории его транзакций и информативности социальных сетей, на геопространственных данных, психологических метриках и других характеристиках, к которым обычно банки имеют доступ. В таком случае кредитор получает вероятностную оценку своевременного возврата кредита от каждого потенциального клиента и может предложить взаимовыгодное сотрудничество до того, как человек самостоятельно к нему обратился.

Выступление Николая начинается с 49 минуты. Во время встречи он рассказал о применении R для создания кредитного скоринга, о том, почему сотрудники нашей лаборатории использовали именно этот язык программирования, об этапах построения системы, методах обучения, а также оптимизации ансамбля моделей и трудностях, с которыми команда столкнулась при разработке.

На meet-up'е также проходил круглый стол, посвящённый проблемам интерпретируемости, в котором Николай принял участие. R-профессионалы обсудили не только общие вопросы воспроизводимости (сохранение зависимостей в docker, версионирование кода и данных), но и специфику воспроизводимости для композитных моделей, полученных с помощью генеративного машинного обучения.