Скорингові моделі для оцінки кредитоспроможності позичальників банку

Автор:

Анотація: Дослідження присвячено питанню визначення ймовірності неповернення кредиту позичальником банку. Мета даної роботи — аналіз та порівняння скорингових моделей на основі методів дерев рішень та логістичної регресії для оцінки кредитоспроможності позичальників банку та побудова скорингової карти на основі кращої моделі. Отримані результати підтверджують ефективність використання скорингових моделей з метою зменшення ризику при видачі кредитів та збільшення прибутку.

Бібліографічний опис статті:

. Скорингові моделі для оцінки кредитоспроможності позичальників банку//Наука онлайн: Міжнародний електронний науковий журнал - 2018. - №7. - https://nauka-online.com/publications/technical-sciences/2018/7/skoringovi-modeli-dlya-otsinki-kreditospromozhnosti-pozichalnikiv-banku/

Стаття опублікована у: : Наука Онлайн No7 июль 2018

Технічні науки

УДК 519.237

Куца Каріна Володимирівна

студентка

Навчально-наукового комплексу

«Інститут прикладного системного аналізу»

Національного технічного університету України

«Київський політехнічний інститут імені Ігоря Сікорського»

СКОРИНГОВІ МОДЕЛІ ДЛЯ ОЦІНКИ КРЕДИТОСПРОМОЖНОСТІ ПОЗИЧАЛЬНИКІВ БАНКУ

Анотація. Дослідження присвячено питанню визначення ймовірності неповернення кредиту позичальником банку. Мета даної роботи аналіз та порівняння скорингових моделей на основі методів дерев рішень та логістичної регресії для оцінки кредитоспроможності позичальників банку та побудова скорингової карти на основі кращої моделі. Отримані результати підтверджують ефективність використання скорингових моделей з метою зменшення ризику при видачі кредитів та збільшення прибутку.

Ключові слова: кредитний скоринг, кредитоспроможність, прогнозування, дерева рішень, регресійний аналіз, скорингова карта, машинне навчання.

Проблема і актуальність дослідження. Банк є найважливішим фінансовим закладом в економіці та відіграє важливу роль в ній, надаючи важливий капітал у вигляді позик і авансів, які підлягають негайному погашенню, яке називається кредитним ризиком. Мета діяльності банку це отримання максимального прибутку при мінімально можливому рівні ризику. Найбільший прибуток банкам приносять саме кредити. Але у той же час кредитні операції одні з найбільш ризикових операцій у діяльності банку. Проблема управління кредитним ризиком, а також проведення кількісної оцінки і аналізу кредитного ризику і рейтингу позичальників є актуальною для всіх банків, що займаються кредитуванням фізичних та юридичних осіб.

Аналіз досліджень та публікацій з проблеми. У статистиці ідеї класифікації популяції на окремі групи були створені Фішером в 1936 році на прикладі рослин. 1941 року Д. Дюран перший, хто застосував даний прийом для задачі класифікації кредитів на «погані» та «хороші» кредити. У наш час існує велика кількість різних методів, що дозволяють оцінити и спрогнозувати фінансовий стан і кредитоспроможність позичальників банку, наприклад, використовуючи методи машинного навчання [1].

Виклад основного матеріалу. Кредитний скоринг – це набір моделей рішень та їх основоположних методів, які допомагають кредиторам у наданні споживчого кредиту. Ці методи описують, хто повинен отримати кредит, скільки кредитів вони повинні отримати і які операційні стратегії підвищать прибутковість позичальників кредиторам [2]. Для управління кредитним ризиком необхідно розрахувати кредитний рейтинг позичальника. Розглянемо побудову скорингових моделей на основі методів дерев рішень та логістичної регресії.

Логістична регресія

Головна ідея логістичної регресії полягає у тому, що вихідні величини можуть розділятися прямою на два класи у тому випадку, коли вихідна змінна приймає два значення.

Множинна лінійна регресія має такий вигляд [3]:

Множинна лінійна регресія має недолік – вона не враховує, що змінна відклику може бути бінарною, це призводить до виходу передбачених значень за межі інтервалу . Такі значення є недопустимими для задач, у яких змінна відклику має бінарний характер. Множинна регресія не буде враховувати обмеження на можливі значення для цільової змінної. Тоді сформулюємо задачу так: прогнозувати потрібно неперервну змінну, яка приймає значення з інтервалу  для яких завгодно значень вхідних змінних. Застосувавши логіт–перетворення, можна досягнути поставленої мети:

де p – ймовірність того, що відбудеться подія, яка нас цікавить;

y – регресійне рівняння.

Логістична регресія використовується для оцінки ймовірності того, що вихідна змінна прийме задане значення. Для знаходження коефіцієнтів логістичної регресії найчастіше використовується метод максимальної правдоподібності.

Дерева рішень

Метод дерев рішень – один з автоматизованих методів багатовимірного аналізу, що входять в технологію Data Mining, що який має таку особливість, як наглядність і зручність подання закономірностей. Дерево рішень являє собою деревовидний граф – структуру даних, що складається з вузлів прийняття рішень, які з’єднуються один з одним за допомогою ребер. Дерево прийняття рішень – кореневий, орієнтований граф. Кожний внутрішній вузол дерева відповідає рішенню про розбиття, а кожний вузол листа відповідає прогнозованій мітці класу. На сьогоднішній день існує значна кількість алгоритмів, що реалізують дерева рішень, наприклад CART, C4.5, CHAID та інші. Приклад дерева рішень зображено на рис. 1.

Рис. 1. Приклад дерева класифікації

Скорингова карта

Скорингова карта – це набір певних атрибутів (наприклад, одружений чи ні, кількість дітей, стать) клієнта і вагових коефіцієнтів, які виражаються в балах. Кожному позичальника банка відповідає значення в балах, яке розраховується в залежності від його атрибутів, які клієнт повідомляє банку, коли заповнює анкету на запит кредиту. В залежності від того, який у клієнта фінальний бал, банк буде розмірковувати скільки він готовий надати грошей тому чи іншому клієнту.

Логістична регресія широко застосовується для побудови скорингової карти у випадку, коли маємо вихідну змінну, яка може приймати тільки два значення. Оцінка коефіцієнтів цієї моделі як скорингових балів – найголовніший етап при розробці скорингової карти. Сумарний скоринговий бал у шкалі натуральних логарифмів визначається так: це сума оцінок коефіцієнтів, які помножені на значення предикторів:

де  – оцінки коефіцієнтів логістичної регресії;

– значення предикторів го клієнта.

Для переведення скорбалів до лінійної шкали застосовують масштабування. Скоринговий бал в лінійній шкалі є відношенням шансів «хороших клієнтів» банку до «поганих клієнтів».

Розробка скорингових моделей та скорингової карти

Для аналізу були обрані дані одного з банків України. Вибірка містить 30440 спостережень по видачі кредитів фізичним особам та 13 характеристик, одна з яких – відповідь на питання повернув позичальник кредит чи ні. Характеристики наведено у табл. 1. Для розробки скорингових моделей використовується програмне забезпечення SAS Enterprise Miner.

Таблиця 1

Змінні, що характеризують позичальника банку

Змінна Опис
ID ID позичальника
Work_experience Стаж роботи у місяцях
Childrens Кількість дітей в сім’ї
Num_workers Кількість співробітників у компанії, в котрій працює позичальник
Education Рівень освіти
Living_Region Регіон, в якому проживає позичальник
Number_of_add_phones Кількість вказаних номерів телефону
Gender Стать
income1 Дохід
Family_status Статус одруження
Time_Activation Дата видачі кредиту
Time_Deactivation Дата виплати кредиту
Bad Статус дефолт/не дефолт

Після відкриття системи SAS Enterprise Miner створюється робоча діаграма. Після цього необхідно створити бібліотеку та загрузити файл з даними. Після переносу блоку даних на робочу діаграму подивимося на змінні, які є в наборі даних (рис. 2). Предикторна змінна Time_Deactivation має 56,7 відсотків пропусків, вона була видалена з подальшого розгляду.  Також можна побачити тип шкали кожної змінної.

Рис. 2. Змінні вхідного набору даних

Зменшення тренувального набору даних за допомогою компоненту Sample (рис. 3) потрібно для того, щоб домогтися нормальної побудови моделі, коли кількість значень одного класу превалює над кількістю значень іншого класу.

Рис. 3. Налаштування компоненту Sample

У модель входять змінні з найбільшим IV. IV – це показник, який використовують для оцінки взаємозв’язку між незалежними змінними і бінарною залежною. Поділ вибірки на тренувальну та валідаційну у співвідношенні 70/30 представлено на рис. 4.

Рис. 4. Поділ вибірки на тренувальну та валідаційну

Технологічний процес побудови обраних моделей зображено на рис. 5.

Рис. 5. Технологічний процес

Змінні, які увійшли в структуру дерева рішень, з індексами важливості (Importance) для моделі наведено у табл. 2.

Таблиця 2

Значення важливості змінних в топології дерева рішень

NAME IMPORTANCE
Family_status 1.0000
Work_experience 0.4696
Num_workers 0.4305
Number_of_add_phones 0.3182
Education 0.2560
Living_Region 0.2320
income1 0.2242
Childrens 0.1813
Gender 0.0473

Топологію дерева рішень зображено на рис. 6.

Рис. 6. Дерево рішень

Існують різні критерії інформативності, за допомогою яких можна вибирати оптимальне розбиття при побудові вирішального дерева. Ентропія використовується з категоріальними результатами – вона вимірює однорідність у листях, які утворюються в результаті розщеплення. Сумарна ентропія всіх листів розщеплення розраховується за формулою:

де   доля конкретного класу  в наборі категорій, які містяться в листі.

Оцінки коефіцієнтів моделі логістичної регресії, побудованої в системі SAS Enterprise Miner наведені у табл. 3.

Таблиця 3

Параметри, що увійшли до моделі логістичної регресії

Entered Score ChiSquare
Family_status 780,85
Work_experience 156,47
Num_workers 130,08
Number_of_add_phones 75,25
Education 73,20
Childrens 53,67
income1 37,82
Living_Region 31,30

Порівняльний аналіз моделей на основі статистичних характеристик

Для оцінювання якості прогнозуючих моделей в роботі використано такі статистичні характеристики як акуратність моделі та AUC-ROC [4], що означає площу під рок-кривою. Чим більше значення AUC-ROC, тим краща якість прогнозування моделі. Точність – це відношення вірно спрогнозованих значень до загальної кількості значень.

ROC–криві обраних моделей зображено на рис. 7.

Рис. 7. ROC–криві моделей на навчальній і валідаційній вибірках

Результати моделювання на навчальній та валідаційній вибірках наведено у табл. 4.

Таблиця 4

Порівняння результатів моделювання на тренувальній вибірці та валідаційних вибірках

  Logistic Regression Decision Tree Logistic Regression Decision Tree
Accuracy 0,813 0,817 0,811 0,817
AUC–ROC 0,741 0,701 0,725 0,672

 Кращий результат показала модель логістичної регресії за показником AUC–ROC. Побудуємо скорингову карту на її основі (рис. 8).

Рис. 8.  Скорингова карта

Рекомендації по впроваджуванню скорингової карти

Перед тим як приступити до впровадження розробленої скорингової карти, необхідно на зовнішніх даних перевірити точність розрахунку балів і адекватність карти [5]. Задача полягає у тому, щоб підтвердити, що розроблена скорингова карта придатна для поточної популяції заявників.

Висновки. Дана робота присвячена аналізу, побудові та порівнянню прогнозуючих моделей для оцінки кредитоспроможності позичальників банку. Були розроблені скорингові моделі на основі дерев рішень та логістичної регресії, а також скорингова карта на основі кращої моделі. Для вибору кращої моделі використовувалися такі критерії:  ROC–крива та точність моделі. За показником AUC-ROC кращою виявилась модель на основі логістичної регресії, а за показником точності – модель у вигляді дерев рішень для навчальної та тестової вибірок. Також були дані рекомендації щодо впровадження розробленої скорингової карти.

Використання моделі логістичної регресії, як і інших методів та моделей інтелектуального аналізу даних, є ефективним методом оцінювання кредитоспроможності позичальників, який дасть можливість банкам знизити ризик неповернення виданих кредитів.

Література

  1. Jacky C. K. Chow. Analysis of Financial Credit Risk Using Machine Learning, Masters dissertation / Aston University. United Kingdom, Birmingham, 2017. – 61 p.
  2. Lyn C. Thomas, David B. Edelman, Jonathan N. Crook. Credit Scoring and Its Applications: monographs. New Zealand: SIAM, 2002. – 245 p.
  3. Загальна лінійна модель. URL: https://uk.wikipedia.org/wiki/Загальна_лінійна_модель (дата звернення: 21.06.2018).
  4. ROC-крива. URL: http://www.machinelearning.ru/wiki/index.php?title=ROC%D0%BA%D1%80%D0%B8%D0%B2%D0%B0%D1%8F (дата звернення: 02.05.2018).
  5. Сиддики, Наим. Скоринговые карты для оценки кредитных рисков. Разработка и внедрение интеллектуальных методов кредитного скоринга/пер.: Е. Ильичев. Москва: Манн, Иванов и Фербер, 2014. – 268 с.

Перегляди: 1221

Коментарі закрито.

To comment on the article - you need to download the candidate degree and / or doctor of Science

Підготуйте

наукову статтю на актуальну тему, відповідно до роздлів журналу

Відправте

наукову статтю на e-mail: editor@inter-nauka.com

Читайте

Вашу статтю на сайті нашого журналу та отримайте сертифікат