у
, (6)
е) зважене середнє арифметичне числа батьків, тобто відношення добутку кількості характеристик на кількість батьків до загальної кількості характеристик гіпотез одного класу
. (7)
Значення, що повертається цією функцією, визначає категорію оброблюваного тексту.
1.2.3 Алгоритм пошуку перетинань
На етапі індукції для того, щоб встановити подібності об'єктів, здійснюється пошук всіх спільних фрагментів об'єктів. Доведено, що для бінарного представлення характеристик така задача є NР-повній [2]. Для пошуку всіх спільних фрагментів ми будемо використовувати алгоритм Норріса, який має лінійну складність від числа спільних фрагментів, є інкрементного і одним з найефективніших серед аналогічних методів [9].
Наведемо опис алгоритму Норріса відповідно до [8]. Нехай у нас є набір множин (об'єктів). Введемо на цьому наборі множин небудь лінійний порядок і зафіксуємо його. На-ном кроці для-ного об'єкта алгоритм доповнює набір пересічний, побудованих для попередніх множин, перетинами кожного безлічі цього набору з-ним об'єктом.
Позначимо через номер безлічі (самі множини і їх перетину будемо позначати маленькими літерами, а підмножина номерів множин - великими літерами).
Нехай - безліч понять, отриманих при обробці першого множин. Очевидно, що порожньо.
Нижче наведено псевдокод алгоритму пошуку максимальних пересічний підмножин.
:=порожній безліч;
For i:=1 To < кількість множин> Do Begin
:=<чергове безліч>;
For j:=1 To < розмір множини> Do Begin
/ / - поняття з безлічі
:=чергове перетин з;
:=номера множин, складових перетин;
/ / якщо є підмножиною
If Then
/ / додаємо до номерів, що входять в, номер
/ / інакше, якщо не є підмножиною
Else Begin
/ / знайдемо перетин множин і
;
f:=false;// Прапор збіги з одним з множин в
;// Номер батька перетину
k:=1;
While (k <= <розмір множини>) And (not f) Do Begin
:=чергове перетин з;
:=номера множин, складових перетин;
If Then Begin
;:=true;; Begin
; (k);;; not f Then
;// Додаємо нове поняття в
End;
End;
f:=false;// Прапор, що показує, чи є підмножиною
/ / деякого безлічі з
q:=1;
While (q <=) And (not f) Do Begin
:=чергове безліч;
If Then
f:=true
Else (q);; not f Then
;
End;
1.3 N-кратний ковзний контроль
автоматичний тональність текст програмний
Наведемо опис методу перехресної перевірки згідно з довідником [4]. Перехресна перевірка (крос-валідація) - це статистичний метод оцінки і порівняння навчальних алгоритмів шляхом ділення даних на два сегменти: один сегмент використовується для навчання системи, інший - для її перевірки. Базовою формою перехресної перевірки є N-кратний ковзний контроль (N-fold cross-validation ).
При проведенні N-кратного ковзаючого контролю всі наявні дані розбивають на N рівних (або приблизно рівних) за розміром частин (блоків). Зазвичай N задають рівним 5 або 10. Кожен з N блоків по черзі оголошується...