набору даних можна оцінити за допомогою двох статистичних формул:
· кардинально міток (label cardinality) - середня кількість міток, присвоєних кожному прикладу в наборі даних:
· Щільність міток - кількість міток на кожний приклад з набору даних поділене на загальну кількість різних міток, усереднене по всіх прикладів:
,
де
Методи оцінки продуктивності multi-label класифікації в корені відрізняються від використовуваних в многоклассовой або бінарної класифікації, у зв'язку з природними відмінностями даної задачі класифікації. Якщо - правильний набір міток для даного прикладу, а - набір передвіщених міток, то можна визначити наступні метрики для такого прикладу:
· Hamming loss - частка помилкових міток у всьому наборі міток. Є функцією втрат, тому її оптимальне значення дорівнює 0. Тісно пов'язана з нею метрика Hamming Score, також іменована «точність у многотемной завданню» (accuracy in the multi-label setting), визначається як кількість правильних міток поділене на об'єднання передвіщених і правильних міток:
· Precision, recall і F1-метрика (F1-score). Precision (точність) дорівнює частці правильно передвіщених міток від загальної кількості передвіщених міток -. Recall (повнота) характеризує чи всі правильні відповіді повернув класифікатор, дорівнює частці правильно передвіщених міток від загальної кількості правильних міток -. Метрика F1 - фактично є гармонійним середнім від Precision і Recall,
· Метрика точної відповідності (Exact Match Metric). Найкоректніша метрика, являє собою частку прикладів для яких класифікатор зміг вірно вказати всі мітки.
Висновки
Підсумовуючи все вищесказане ми можемо вказати, що завдання, яке стоїть перед нами є гібридом multi-label і multiclass класифікації. Для кожного прикладу нам потрібно передбачати один або декілька тегів (наприклад, країна, в якій сталася подія, або індустрія, з якою пов'язано подія, що відбулася), кожній мітці може бути присвоєно кілька різних значень. Подібні завдання мають назву multi-task класифікація або multiclass - multi-output класифікація. Завдання, подібні до цієї відносно успішно вирішуються в такій області як Document classification (класифікація документів), що дозволяє припустити, що її методи можуть бути успішно адаптовані рішення що стоїть перед нами завдання. Розглянемо деякі методи застосовуються в рамках класифікації документів, а також застосовуються в цій галузі класифікатори.
2. Методи та алгоритми, реалізовані в програмній системі
.1 TF-IDF
TF-IDF (TF - term frequency, IDF - inverse document frequency) - статистична міра, використовувана для оцінки важливості слова в контексті документа, що є частиною колекції документів або корпусу. Вага деякого слова пропорційний кількості вживання цього слова в документі, і обернено пропорційний частоті вживання слова в інших документах колекції.
Міра TF-IDF часто використовується в задачах аналізу текстів та інформаційного пошуку, наприклад, як один з критеріїв релевантності документа пошуковому запиту, при розрахунку міри близькості документів при кластеризації.
TF (term frequency - частота слова) - відношення числа входження деякого слова до загальної кількості слів документа. Таким чином, оцінюється важливість слова в межах окремого документа.
де є число входжень слова в документ, а в знаменнику - загальне число слів у даному документі.
IDF (inverse document frequency - зворотна частота документа) - інверсія частоти, з якою деяке слово зустрічається в документах колекції. Основоположником даної концепції є Карен Спарк Джонс. Облік IDF зменшує вагу широковживаних слів. Для кожного унікального слова в межах конкретної колекції документів існує тільки одне значення IDF.
Де:
· - кількість документів в корпусі
· - кількість документів, в яких зустрічається (коли
Вибір підстави логарифма у формулі не має значення, оскільки зміна підстави призводить до зміни ваги кожного слова на постійний множник, що не впливає на співвідношення ваг.
Таким чином, міра TF-IDF є твором двох співмножників:
Велика вага в TF-IDF отримають слова з високою частотою в межах конкретного документа і з низькою частотою вживань в інших документах. Міра TF-IDF часто використовується для подання документів колекції у вигляді числових векторів, що відображают...