ідні відношенню числа «поганих» клієнтів з даними ознакою до «хороших» клієнтів з цим же ознакою. Більш ускладнений варіант - взяти логарифм цього відношення. Таким чином, кожна ознака отримує числову величину, відповідну рівню його «ризикованості».
Методи власне класифікації дуже різноманітні і включають в себе:
статистичні методи, засновані на дискримінантному аналізі (лінійна регресія, логістична регресія);
різні варіанти лінійного програмування;
дерево класифікації або рекурсіонно-партіціонний алгоритм;
нейронні мережі;
генетичний алгоритм;
метод найближчих сусідів.
Традиційними і найбільш поширеними є регресійні методи, насамперед лінійна багатофакторна регресія :
,
де р - ймовірність дефолту, w - вагові коефіцієнти, x - характеристики клієнта. Недолік даної моделі полягає в тому, що в лівій частині рівняння знаходиться імовірність, яка приймає значення від 0 до 1, а змінні в правій частині можуть приймати будь-які значення
від-Г до + Г.. Цей недолік дозволяє подолати логістична регресія :
.
Для застосування логістичної регресії необхідні набагато більш складні розрахунки для отримання вагових коефіцієнтів і, отже, більш потужна комп'ютерна база й удосконалене комп'ютерне забезпечення. Але при сучасному рівні розвитку комп'ютерної техніки це не є проблемою, і в даний час логістична регресія є лідером скорингових систем. Перевага логістичної регресії ще й у тому, що вона може поділяти клієнтів як на дві групи (0 - поганий, 1 - хороший), так і на кілька груп (1, 2, 3, 4 групи ризику).
Всі регресійні методи чутливі до кореляції між характеристиками, тому в моделі не повинно бути сильно корельованих незалежних змінних.
Лінійне програмування також призводить до лінійної скорингової моделі. Провести абсолютно точну класифікацію на поганих і хороших клієнтів неможливо, але бажано звести помилку до мінімуму. Завдання можна сформулювати як пошук вагових коефіцієнтів, для яких помилка і буде мінімальною.
Дерева класифікації - це метод, що дозволяє передбачати приналежність спостережень або об'єктів до того чи іншого класу категоріальної залежною змінною залежно від відповідних значень однієї або декількох предікторних змінних. Побудова дерев класифікації - один з найбільш важливих методів, використовуваних при проведенні «здобичі даних». Дерева класифікації ідеально пристосовані для графічного представлення, і тому зроблені на їх основі висновки набагато легше інтерпретувати, ніж якби вони були представлені тільки в числовій формі.
Генетичний алгоритм заснований на аналогії з біологічним процесом природного відбору. У сфері кредитування це виглядає наступним чином: є набір класифікаційних моделей, які піддаються «мутації», «схрещуються», і в результаті відбирається «найсильніший», тобто модель, яка дає найбільш точну класифікацію.
При використанні методу найближчих сусідів вибирається одиниця виміру для визначення відстані між клієнтами. Всі клієнти у вибірці отримують ...