для якого треба вирішити завдання класифікації. Тому такі методи ще називають В«лінивимиВ» навчаються системами. p> Найбільш поширеним варіантом В«ледачоюВ» класифікації є метод - (k nearest neighbors, k найближчих сусідів). Алгоритм методу складається з трьох послідовних кроків:
В· Обчислюється відстань між оброблюваним документом і усіма документами навчальної множини. Для цих цілей може бути використана будь-яка функція подібності (наприклад косинус кута між векторами документів)
В· Далі вибирають документів, відстань яких до оброблюваного документа мінімально. Зазвичай обирають. p> В· Документу присвоюється та категорія, до якої належить більшість з документів
Ряд різних експериментів показав, що метод найближчих сусідів досить ефективний. Проте його істотним недоліком є ​​низька швидкість виконання, через необхідність порівнювати тестовий документ з навчальними даними. Крім того, ефективність класифікатора безпосередньо залежить від вибору методу розрахунку подібності між документами. br/>
5. Оцінка якості класифікації
5.1 Оцінка автоматичної класифікації в традиціях інформаційного пошуку
Перед будь-яким дослідником в області текстової класифікації рано чи пізно постають питання: який метод побудови класифікаторів є найбільш ефективним, який метод застосувати до поставленого завдання? Відповісти на ці запитання - завдання нетривіальне, тому що існує ряд труднощів на шляху отримання об'єктивної оцінки методів класифікації. Ці труднощі пов'язані в першу чергу до таких вимог: необхідність тестування в однакових умовах, а отже. на одних і тих же стандартних колекціях документів і тематик, на яких заздалегідь відомий коректний результат класифікації, та за умови наявності порівнянних заходів ефективність виконання методів, не кажучи вже про те, що метод може не виправдати очікувань авторів тільки через помилки реалізації [3 ].
В даний час проводяться роботи по створенню загальнодоступних колекцій документів. Прикладом може служити В«ReutersВ», що складається з безлічі новинних статей, що належать категоріям економічної тематики [3]. p align="justify"> Друга важлива проблема оцінки ефективності побудованого класифікатора - вибір заходів ефективності [3]:
В· Повнота (recall) - обчислюється як відношення кількості коректних позитивних передбачень до загального числа позитивних прикладів
В· Точність (precision) - обчислюється як відношення кількості коректних позитивних передбачень до загального числа позитивних передбачень
В· Акуратність (accuracy) - обчислюється як відношення правильно прийнятих системою рішень до загального числа рішень
В·