/p>
зарплата, вік, кількість дітей і т. д.;
частота певних слів;
значення кольору пікселів матриці.
Залежними змінними в цих же прикладах були:
кредитоспроможність клієнта (можливі значення цієї змінної "так" і "ні");
тип повідомлення (можливі значення цієї змінної "spam" і "mail");
цифра образу (можливі значення цієї змінної 0, 1, ..., 9).
Необхідно звернути увагу, що у всіх розглянутих прикладах незалежна змінна приймала значення з кінцевого безлічі значень: {так, ні}, {spam, mail}, {0, 1, ..., 9}. Якщо значеннями незалежних і залежною змінних є дійсні числа, то завдання називається завданням регресії. Прикладом завдання регресії може служити завдання визначення суми кредиту, яка може бути видана банком клієнту. p align="justify"> Задача класифікації і регресії вирішується в два етапи. На першому виділяється навчальна вибірка. У неї входять об'єкти, для яких відомі значення як незалежних, так і залежних змінних. В описаних раніше прикладах такими навчальними вибірками можуть бути:
інформація про клієнтів, яким раніше видавалися кредити на різні суми, і інформація про їх погашення;
повідомлення, класифіковані вручну як спам або як лист;
розпізнані раніше матриці образів цифр.
На підставі навчальної вибірки будується модель визначення значення залежної змінної. Її часто називають функцією класифікації або регресії. Для отримання максимально точної функції до навчальної вибірки пред'являються такі основні вимоги:
кількість об'єктів, що входять у вибірку, має бути достатньо великим. Чим більше об'єктів, тим побудована на її основі функція класифікації або регресії буде точніше;
у вибірку повинні входити об'єкти, що представляють всі можливі класи в разі завдання класифікації або всю область значень у разі завдання регресії;
для кожного класу в задачі класифікації чи кожного інтервалу області значень в задачі регресії вибірка повинна містити достатню кількість об'єктів.
На другому етапі побудовану модель застосовують до аналізованих об'єктів (до об'єктів з невизначеним значенням залежної змінної).
Задача класифікації і регресії має геометричну інтерпретацію. p align="justify"> Основні проблеми, з якими стикаються при вирішенні задач класифікації і регресії, - це незадовільна якість вихідних даних, в яких зустрічаються як помилкові дані, так і пропущені значення, різні типи атрибутів - числові і категоричні, різна значимість атрибутів, а також так звані проблеми overfitting і underfilling. Суть першої з них полягає в тому, що класифікаційна функція при побудові "занадто добре" адаптується до дани...