е всі методи.
Класичною завданням класифікації вважається двухклассовая класифікація, тобто завдання визначення належить об'єкт лише одного з двох класів, яка служить основою для вирішення більш складних завдань.
.2 Multiclass класифікація
Multiclass classification (многоклассовая класифікація) - окремий випадок задачі класифікації при якій потрібно класифікувати об'єкти в більш ніж один з двох класів. Коли число класів досягає багатьох тисяч завдання істотно виростає в складності.
У той час як деякі алгоритми класифікації за визначенням допускають використання декількох класів інші можуть не мати такої можливості, в той же час вони можуть бути використані в задачах многоклассовой класифікації за допомогою різних стратегій. Класичною вважається стратегія One-vs.-rest (один-проти-всіх, OvA або OvR).
.2.1 Стратегія One-vs.-rest
Стратегія One-vs.-rest включає в себе тренування одного класифікатора для кожного класу, при якому ми вважаємо приклади з потрібним класом позитивними прикладами, а всі інші приклади - негативними. Стратегія вимагає щоб базові класифікатори повертали міру впевненості (confidence score) свого рішення, а не просто мітку класу. Дискретні мітки класу можуть призвести до двозначності, так як кілька класів можуть бути передбачити для одного прикладу.
Зразкове опис алгоритму для стратегії OvA, яка використовує бінарний класифікатор L представлено нижче:
Вхід:
· L, алгоритм навчання для бінарного класифікатора
· Приклади
· Мітки де є влучною для прикладу
Вихід:
· Набір навчених класифікаторів для
Процес:
· Для кожного з
o Створити новий вектор міток де, 0 - в іншому випадку
o Застосувати до щоб отримати
Для ухвалення рішення необхідно застосувати всі класифікатори до нового прикладу і призначити йому мітку для якої відповідний класифікатор демонструє найбільшу міру впевненості:
Дана стратегія є надзвичайно популярною але багато в чому є евристикою, яка страждає від декількох проблем. По-перше, масштаб міри впевненості може значно відрізнятися між різними бінарними класифікаторами. По-друге, навіть якщо розподіл різних класів збалансовано у всьому тренувальному наборі даних, алгоритми навчання бінарних класифікаторів спостерігають незбалансований розподіл, оскільки, як правило, кількість негативних прикладів набагато перевищує кількість позитивних прикладів. У процесі вивчення даного класу завдань були створені методи для вирішення завдання Multi - label класифікації, мова про яку піде нижче.
.3 Multi-label класифікація
Multi-label класифікація (приблизний переклад - «многотемной класифікація») - один з видів задач класифікації, де кожному прикладу необхідно привласнити відразу кілька міток належності до певного класу. Формально завдання може бути описана як знаходження моделі, яка ставитиме у відповідність вхідні приклади бінарним векторах, а не скалярним значенням, як у класичній задачі класифікації.
Існує два основні підходи для вирішення даного завдання - методи трансформації проблеми і методи адаптації алгоритмів. Методи трансформації проблеми перетворять проблему до набору проблем бінарної класифікації, які можуть бути вирішені за допомогою класифікаторів, здатних вирішувати бінарні задачі класифікації. Методи адаптації алгоритмів, у свою чергу, модифікують алгоритми класифікації так, щоб вони могли безпосередньо вирішувати задачу multi - label класифікації. Таким чином, замість того, щоб спрощувати проблему вони намагаються безпосередньо вирішувати проблему multi - label класифікації.
В області machine learning класичними вважаються методи трансформації проблеми, які демонструють найкращу якість пророкувань. Серед них найпоширенішим і популярним вважається метод довічних відносин (binary relevance method). Даний метод передбачає створення і навчання одного бінарного класифікатора для кожної можливої ??мітки. Далі, коли моделі подається новий приклад, вона привласнює даному прикладу всі мітки для яких відповідні класифікатори дали позитивну відповідь. Метод перетворення завдання в набір бінарних задач класифікації має багато спільного з методом one-vs.-all мультіклассовой класифікації. Тим не менше, треба враховувати що це не ідеально той же метод - він тренує готельний класифікатор для кожної мітки, але не для кожного можливого значення цієї мітки.
Мірою «многотемной» даного ...