значає присутність терміна, відповідного вузлу, в документі) . Найчастіше, такі дерева з'ясовують, чи належить даний документ категорії, або її доповненню (тобто дерево має тільки два різних види листя). У такому випадку, в системі може бути побудовано не одне дерево, а окремих дерев для пар. Втім, цілком припустимо, потім, об'єднати ці дерева в одне. p> Одним з можливих алгоритмів побудови двійкового дерева прийняття рішень для категорії, за допомогою навчальної множини, може служити стратегія В«розділяй і володарюйВ»:
В· Для поточного вузла з'ясовується, чи належать документи, відповідні даному вузлу, до однієї категорії
В· якщо ні, вибирається термін, який розбиває навчальне безліч на дві підмножини, в яких вага категорії постійний (або). Ці підмножини відносять до різних піддерев, а поточна вершина позначається даним терміном. p align="justify"> Цей процес повторюється до тих пір, поки в кожному аркуші дерева всі навчальні документи не будуть належати до однієї категорії, значення якої і присвоюється даному листу. Ключовим моментом у цьому процесі є визначення відповідного терміна, по якому проходить розбиття. Вибір такого терміну можна робити, наприклад, аналізуючи коефіцієнт корисності терміна. p> Інший метод - присвоєння дуг умов перевірки значень ваг виду, де порогове значення для-го вузла, - кількість дуг, що виходять з даного вузла. У загальному випадку це допускає можливість побудови n-арних дерев рішень. p> Дерева рішень можуть також різнитися видом листя: з ними можуть бути асоційовані як конкретні категорії, так і речові числа, що відображають ступінь приналежності до будь-якої категорії, або булеві значення true (належить категорії) і false (не належить категорії).
Навчання алгоритму побудови дерева прийняття рішень включає в себе два основних етапи:
1. Побудова дерева
. Скорочення розмірності дерева, для усунення проблеми надмірної підгонки класифікатора під навчальне безліч, тобто перенавчання дерева. Дана проблема призводить до погіршення якості роботи дерева на даних, що не входять в навчальне безліч документів.
Існує цілий ряд стандартних алгоритмів побудови дерева прийняття рішень: C4.5, CART, CHAID, MARS
4.4 Правила прийняття рішень
Класифікатор, побудований за методом правил прийняття рішень, складається з діз'юнктівних нормальних форм (ДНФ), тобто логічних конструкцій (тверджень), які з посилки і укладання і з'єднаних логічними В«ІВ» та В«АБОВ». У посилці затверджується наявність або відсутність терміна в документі, а у висновку міститься рішення про класифікацію документи з даної категорії. З теорії машинного навчання відомо, що методи на основі ДНФ еквівалентні методам на основі дерев прийняття рішень. Однак, однією з переваг ДНФ ...