Федеральне державне бюджетне освітня установа
вищої професійної освіти
В«тольяттінській державний університетВ»
Курсова робота
Тема
Аналіз методів автоматичної класифікації документів
Студент Сидякин Антон Валерійович
р. Тольятті
р.
Зміст
Ведення
1.Постановка завдання
. Загальні підходи до вирішення задачі класифікації
. Індексація документа
3.1Построеніе вектора термінів і зменшення його розмірності
.2 Розрахунок ваг термінів
4.Методи побудови класифікаторів
4.1Метод Rocchio
.2 Метод ймовірнісної класифікації (метод Байєса)
.3 Метод дозвільних дерев (дерева рішень)
.4 Правила прийняття рішень
.5 Моделі регресії
.6 Штучні нейронні мережі
.7 Класифікатори на основі прикладів. Метод k найближчих сусідів
5.Оценка якості класифікації
5.1Оценка автоматичної класифікації в традиціях інформаційного пошуку
.2 Оцінка автоматичної класифікації з точки зору особливостей реалізації
Висновок
Список літератури
автоматична класифікація документ пошук
Ведення
У наш час класифікація документів використовується для вирішення таких завдань інформаційного пошуку як: фільтрація документів, розпізнавання спаму, автоматичне анотування, автоматичний переклад (проблема зняття неоднозначності), складання інтернет-каталогів, класифікація новин, розподіл реклами. Бурхливими темпами розвиваються системи персональних агрегаторів інформації, автоматично підбирають новини та статті, які можуть зацікавити конкретного користувача. Таким чином, актуальність проблеми автоматичної класифікації з часом тільки зростає. p align="justify"> Метою даної курсової роботи є аналіз методів автоматичної класифікації документів, з особливою увагою до найперспективніших підходам, які засновані на машинному навчанні.
У завдання курсової роботи входить:
В· Розгляд підходів до індексації документів
В· Розгляд підходів до побудови класифікаторів
В· Розгляд підходів до оцінки роботи класифікаторів
1. Постановка завдання
Класифікація документів (класифікація текстів, text categorization, text classification або topic spotting) є одним з основних завдань інформаційного пошуку.
У випадку завдання формулюється так:
Є безліч доку...