an align="justify"> Помилка (error) - обчислюється як відношення неправильно прийнятих системою рішень до загального числа рішень
Важливим питанням побудови метрик в задачі класифікації є метод усереднення результатів. У разі побудови усередненою по безлічі завдань тієї чи іншої множинної метрики можливі дві послідовності дій [3]:
. Спочатку обчислити метрики для кожної категорії окремо, і потім їх усереднити. Цей спосіб називають мікроусредненіем.
. Отримати передбачення для всіх категорій і вже на їх основі обчислити шукану метрику. Цей спосіб називають макроусредненіем.
5.2 Оцінка автоматичної класифікації з погляду особливостей реалізації
Традиційні метрики інформаційного пошуку дають деяке уявлення про порівняльну оцінку методів класифікації і проте, по-перше, залишаються повністю об'єктивними, а по друге, охоплюють далеко не всі аспекти використання алгоритмів. У реальних задачах автоматичної класифікації вибір алгоритму доцільно проводити виходячи з конкретних умов завдання, тому бувають необхідні й інші оцінки виконання алгоритмів. Ось найбільш суттєві [3]:
В· Спосіб поділу зразків. Більшість NLP-проблем (NLP - обробка природної мови) не є лінійно разделімого, це відноситься і до багатьох навчальних множин документів в задачі автоматичної класифікації (мається на увазі, що позитивні і негативні приклади для заданої категорії можуть бути не роздільні лінійно). У таких завданнях найбільш переважними методами є методи на основі дерев, методи на основі правил прийняття рішень, здатні розділити безліч зразків нелінійно. А у випадку лінійного поділу для бінарної класифікації переважніше застосовувати лінійну регресію або метод наївного класифікатора Байєса. p> В· Час виконання. Існує ряд завдань, у яких, особливо актуальним є час навчання або виконання алгоритму класифікації, наприклад, завдання он-лайн класифікації при якій документ класифікується В«на льотуВ». У багатьох додатках особливо важливим є показник швидкості класифікації нових об'єктів. p> В· Можливості обліку семантики документів на природній мові. Модифікація методів подання документів і тематик (наприклад, використання в якості термінів словосполучень замість одиночних слів) допомагають значно точніше відобразити семантику тексту. Однак не всі методи класифікації здатні підтримувати модифікації такого роду. Наприклад, припущення незалежності на якому грунтується класичний метод наївної класифікації Байєса, що не відповідає природі текстових даних на природній мові. Нейронні мережі потенційно здатні враховувати ознаки документа довільної природи (слова, словосполучення, метаконструкціі, гіперпосилання і т.д.), крім того, нейронні мережі можуть неявно враховувати спільну асоціативність слів, що позитивно позначається на...