Реферат Аналіз методів автоматичної класифікації документів

Тема: Курсовые обзорные

для якого треба вирішити завдання класифікації. Тому такі методи ще називають В«лінивимиВ» навчаються системами. p> Найбільш поширеним варіантом В«ледачоюВ» класифікації є метод - (k nearest neighbors, k найближчих сусідів). Алгоритм методу складається з трьох послідовних кроків:

В· Обчислюється відстань між оброблюваним документом і усіма документами навчальної множини. Для цих цілей може бути використана будь-яка функція подібності (наприклад косинус кута між векторами документів)

В· Далі вибирають документів, відстань яких до оброблюваного документа мінімально. Зазвичай обирають. p> В· Документу присвоюється та категорія, до якої належить більшість з документів

Ряд різних експериментів показав, що метод найближчих сусідів досить ефективний. Проте його істотним недоліком є вЂ‹вЂ‹низька швидкість виконання, через необхідність порівнювати тестовий документ з навчальними даними. Крім того, ефективність класифікатора безпосередньо залежить від вибору методу розрахунку подібності між документами. br/>

5. Оцінка якості класифікації

5.1 Оцінка автоматичної класифікації в традиціях інформаційного пошуку

Перед будь-яким дослідником в області текстової класифікації рано чи пізно постають питання: який метод побудови класифікаторів є найбільш ефективним, який метод застосувати до поставленого завдання? Відповісти на ці запитання - завдання нетривіальне, тому що існує ряд труднощів на шляху отримання об'єктивної оцінки методів класифікації. Ці труднощі пов'язані в першу чергу до таких вимог: необхідність тестування в однакових умовах, а отже. на одних і тих же стандартних колекціях документів і тематик, на яких заздалегідь відомий коректний результат класифікації, та за умови наявності порівнянних заходів ефективність виконання методів, не кажучи вже про те, що метод може не виправдати очікувань авторів тільки через помилки реалізації [3 ].

В даний час проводяться роботи по створенню загальнодоступних колекцій документів. Прикладом може служити В«ReutersВ», що складається з безлічі новинних статей, що належать категоріям економічної тематики [3]. p align="justify"> Друга важлива проблема оцінки ефективності побудованого класифікатора - вибір заходів ефективності [3]:

В· Повнота (recall) - обчислюється як відношення кількості коректних позитивних передбачень до загального числа позитивних прикладів

В· Точність (precision) - обчислюється як відношення кількості коректних позитивних передбачень до загального числа позитивних передбачень

В· Акуратність (accuracy) - обчислюється як відношення правильно прийнятих системою рішень до загального числа рішень

В·

Назад | сторінка 13 з 16 | Наступна сторінка

Схожі реферати:

Реферат на тему: Метод оптимальної класифікації одновимірного впорядкованої множини на основ ...

Реферат на тему: Аналіз можливості застосування методів багатовимірного аналізу для класифік ...

Реферат на тему: Аудит методів і класифікації обліку витрат

Реферат на тему: Оцінка впливу на навколишнє середовище. Оцінка якості та класифікації земе ...

Реферат на тему: Порівняння ефективності різних методів розв'язання систем лінійних алге ...

Український реферат переглянуто разів: | Коментарів до українського реферату:

Коментарів до українського реферату: 0