класифікації. Методи класифікації, засновані на векторній моделі, в загальному випадку не мають обмежень на методи формування термінів документів
В· Обчислювальна складність і надійність. При виборі алгоритму також необхідно мати уявлення про обчислювальних витратах, які, по-перше, закладені в сам алгоритм, а по-друге, можуть бути підтримані обчислювальною системою, на якій буде проводитися класифікація. Так наприклад, незважаючи на те, що символьні (нечисельні) техніки є концептуально надійними, і елегантними, доведено, що виконання даних методів є обчислювально складною проблемою для великомасштабних ділових і промислових наборів даних. Тому застосування таких методів як дозволяють дерева, є кращим тільки в тих випадках, якщо класифікаційна проблема носить складний характер, наприклад, якщо навчальне безліч разделімого нелінійно. p> В· Складність реалізації. Існує багато методів побудови класифікаторів, які вважаються виключно простими у плані реалізації - метод Rocchio, наївний класифікатор Байєса, персептрон. p> В· Обмеження на розмір навчальної колекції документів і вимоги до її якості форматування. Очевидно, що всі методи навчання є залежними від розміру і якості навчальних даних, однак можна виділити і найбільш вимогливі з даного ознакою, тобто ті, на акуратність яких найбільш суттєво впливає якість навчальної множини документів. Серед них - класифікатори за методом дозвільних дерев, для яких обмеження знизу на розмір і якість навчальної множини продиктовано тим обставиною, що чим менше навчальне безліч, тим вище ймовірність при побудові класифікатора прийняти випадковість за закономірність. Побудова нейронних мереж також дуже вимогливий процес по відношенню до якості й розміру навчає і перевірочного безлічі документів, тому що нейронні мережі мають низьку стійкістю до шуму в навчальній вибірці. А ось метод Rocchio, навпаки, має деяку перевагу у разі мізерного навчальної множини, оскільки даний метод враховує так само і негативні приклади. p> В· Наочність, або складність інтерпретації людиною. Наявність властивості наочності, легкої інтерпретації є гідністю будь-якого алгоритму і буває корисним і при програмній реалізації методу, і при поясненні роботи класифікатора неспеціалістам в даній області. Найбільш інтуїтивно зрозумілими алгоритмами є метод дозвільних дерев, метод правил прийняття рішень і наївний класифікатор Байєса. p align="justify"> Висновок
У рамках курсової роботи були розглянуті методи автоматичної класифікації документів і основні етапи побудови классифицирующей системи: індексація документа, методи побудови класифікаторів на основі навчальних даних, оцінка роботи класифікатора.
Список літератури
автоматична класифікація документ пошук
1.Lewis, DD, An evaluation of phrasal and clustered representations on a text categorization task. In Proceedings of SIGIR-92, 15th ACM International Conference on Researcha...