Реферат Аналіз методів автоматичної класифікації документів

Тема: Курсовые обзорные

значає присутність терміна, відповідного вузлу, в документі) . Найчастіше, такі дерева з'ясовують, чи належить даний документ категорії, або її доповненню (тобто дерево має тільки два різних види листя). У такому випадку, в системі може бути побудовано не одне дерево, а окремих дерев для пар. Втім, цілком припустимо, потім, об'єднати ці дерева в одне. p> Одним з можливих алгоритмів побудови двійкового дерева прийняття рішень для категорії, за допомогою навчальної множини, може служити стратегія В«розділяй і володарюйВ»:

В· Для поточного вузла з'ясовується, чи належать документи, відповідні даному вузлу, до однієї категорії

В· якщо ні, вибирається термін, який розбиває навчальне безліч на дві підмножини, в яких вага категорії постійний (або). Ці підмножини відносять до різних піддерев, а поточна вершина позначається даним терміном. p align="justify"> Цей процес повторюється до тих пір, поки в кожному аркуші дерева всі навчальні документи не будуть належати до однієї категорії, значення якої і присвоюється даному листу. Ключовим моментом у цьому процесі є визначення відповідного терміна, по якому проходить розбиття. Вибір такого терміну можна робити, наприклад, аналізуючи коефіцієнт корисності терміна. p> Інший метод - присвоєння дуг умов перевірки значень ваг виду, де порогове значення для-го вузла, - кількість дуг, що виходять з даного вузла. У загальному випадку це допускає можливість побудови n-арних дерев рішень. p> Дерева рішень можуть також різнитися видом листя: з ними можуть бути асоційовані як конкретні категорії, так і речові числа, що відображають ступінь приналежності до будь-якої категорії, або булеві значення true (належить категорії) і false (не належить категорії).

Навчання алгоритму побудови дерева прийняття рішень включає в себе два основних етапи:

1. Побудова дерева

. Скорочення розмірності дерева, для усунення проблеми надмірної підгонки класифікатора під навчальне безліч, тобто перенавчання дерева. Дана проблема призводить до погіршення якості роботи дерева на даних, що не входять в навчальне безліч документів.

Існує цілий ряд стандартних алгоритмів побудови дерева прийняття рішень: C4.5, CART, CHAID, MARS

4.4 Правила прийняття рішень

Класифікатор, побудований за методом правил прийняття рішень, складається з діз'юнктівних нормальних форм (ДНФ), тобто логічних конструкцій (тверджень), які з посилки і укладання і з'єднаних логічними В«ІВ» та В«АБОВ». У посилці затверджується наявність або відсутність терміна в документі, а у висновку міститься рішення про класифікацію документи з даної категорії. З теорії машинного навчання відомо, що методи на основі ДНФ еквівалентні методам на основі дерев прийняття рішень. Однак, однією з переваг ДНФ ...

Назад | сторінка 10 з 16 | Наступна сторінка

Схожі реферати:

Реферат на тему: Функції приналежності. Нечіткі дерева рішень

Реферат на тему: Побудова та аналіз взаємодії дерева цілей і дерева систем організації

Реферат на тему: Застосування методу аналізу даних - дерева рішень

Реферат на тему: Розрахунок надійності електричної мережі на основі побудови дерева відмов

Реферат на тему: Дерева подій і принципи їх побудови

Український реферат переглянуто разів: | Коментарів до українського реферату:

Коментарів до українського реферату: 0