вчальні дані - це безліч документів, беруть участь в навчанні класифікатора, для яких відомо значення цільової функції. Тобто це деяка кількість хороших зразків документів, які розділені на категорії людиною (назвемо розміткою цей процес присвоєння категорій документам навчальної множини). p> Документ називається позитивним або негативним прикладом для категорії, якщо значення цільової функції дорівнює або відповідно. Очевидно, що для документа необхідно дозволити завдання класифікації. p> Незважаючи на те, що для розмітки і раніше потрібна присутність фахівця, даний метод набагато більш простий в реалізації за рахунок того, що процес розмітки набагато простішим процесу написання правил. У міру необхідності, фахівець додає нові навчальні дані в систему і, тим самим, підтримує актуальність критерію класифікації. p> Найчастіше, при використанні методу машинного навчання, безліч навчальних даних ділиться на три непересічних безлічі:
В· - навчальна множина текстів (training set)
В· - перевірочне безліч текстів (validation set)
В· - Тестове безліч текстів (test set)
Процес навчання класифікатора ділиться, відповідно, на три фази: Фаза машинного навчання класифікатора
В· Фаза перевірки та настроювання класифікатора
В· Фаза фінального тестування класифікатора
Як вже було сказано, навчальна множина текстів використовується у фазі машинного навчання для автоматичного вироблення критерію прийняття рішення. Після того, як такий критерій побудований, його налаштовують на перевірочному безлічі текстів. Класифікатор обробляє дане безліч і видає результати, дані результати перевіряється, вносяться корективи в класифікатор. Потім процес повторюють заново, запускаючи класифікатор для того ж самого перевірочного безлічі текстів. Після того як параметри класифікатора виявляються налаштованими оптимальним чином, проводиться одне єдине фінальне тестування класифікатора на тестовому безлічі текстів, в ході якого класифікатор так само повинен побудувати оптимальне рішення. Якщо цього не відбувається, процес налаштування починають заново. Для нового тестування вибирається нове тестове безліч текстів. p align="justify"> У загальному випадку можна виділити три основні фази вирішення завдання класифікації документів:
. Індексація (побудова індексу) документа
. Побудова класифікатора
. Оцінка якості класифікації
Індексацією називається процес приведення документів до єдиного формату, зручного для подальшої обробки. Найчастіше доводиться мати справу з великими обсягами інформації, тому з індексу документа намагаються викидати все зайве. Так, деякі слова (прийменники, спілки тощо) можуть д...