частини мови в нормальній формі, окрім прийменників, спілок, займенників, часток і вигуків.
. Побудова безлічі релевантних лексем
На цьому етапі програма формує з наборів {relevanceTextLexem [i]} кожного i-го релевантного тексту, безліч унікальних релевантних лексем (relevanceLexemSet) із статистикою зустрічальності в релевантних текстах.
. Побудова безлічі нерелевантних лексем
На цьому етапі програма формує з наборів {IrrelevanceTextLexem [j]} кожного j-го нерелевантного тексту, безліч унікальних релевантних лексем (IrrelevanceLexemSet) із статистикою зустрічальності в нерелевантних текстах.
. Побудова кон'юнкцій
Для опису алгоритму побудови кон'юнкцій введемо наступні твердження:
Кон'юнкція Con - це набір лексем Lexem [i] (Con = Lexem [1] & Lexem [2] & ... Lexem [m])
Кон'юнкція Con істинна на безлічі лексем LexemSet, якщо всі лексеми кон'юнкції {Lexem [i]} містяться в безлічі лексем LexemSet. (Тобто Con істинна на безлічі LexemSet, якщо для будь-якого i | Lexem [i] Є Con, виконується Lexem [i] Є LexemSet)
Кон'юнкція Con помилкова на безлічі лексем LexemSet, якщо хоча б одна лексема з безлічі лексем кон'юнкції {Lexem [i]} не міститься у безлічі LexemSet.
Розглянемо алгоритм побудови кон'юнкцій:
Нехай relevanceConjunction - шукане безліч кон'юнкцій. Спочатку воно порожньо. p align="justify"> Програма починає складати всі можливі унікальні кон'юнкції Con [m] розміру від 1-го слова до максимальної кількості слів, заданого експертом, з безлічі relevanceLexemSet. При цьому програма перевіряє, істинність отриманої кон'юнкції на безлічі IrrelevanceLexemSet. Якщо Con [m] помилкова на безлічі IrrelevanceLexemSet, то Con [m] додається в relevanceConjunction. В іншому випадку така кон'юнкція відкидається. p align="justify"> Таким чином, ми отримуємо шукану ДНФ (безліч relevanceConjunction), в якій кожна кон'юнкція істинна на безлічі relevanceLexemSet і помилкова на безлічі IrrelevanceLexemSet. Тобто отримує система ДНФ, справжню на безлічі релевантних текстів і помилкову на безлічі нерелевантних текстів. Використання отриманої ДНФ в якості набору евристик - очевидно: кожна знайдена кон'юнкція є евристикою. p align="justify"> Приклад:
Нехай:
В§ Безліч relevanceLexemSet = {A, B, C, D}
В§ Безліч IrrelevanceLexemSet = {B, D}
В§ Максимальна кількість лексем у кон'юнкції = 2.
Тоді:
Искомое безліч rel...