gn="justify"> Експертна система надсилає запит інформаційно-пошуковій системі (Google, Яндекс) і відображає результати пошуку експерту
. Експерт на підставі суб'єктивних критеріїв вибирає з результатів пошуку релевантні і нерелевантні тексти і зберігає їх у системі
При необхідності, експерт може необмежену кількість разів повторити процес навчання. Система зберігає всі відібрані експертом тексти і дозволяє при необхідності редагувати і видаляти їх. p align="justify"> Як тільки експерт вирішить, що навчальна вибірка текстів, на його погляд сповнена, то він може запустити автоматичний підбір евристик.
3.4 Логічні методи автоматичного підбору евристик
Автоматичний підбір евристик заснований на логічних методах витягу з навчальної вибірки текстів формули логіки висловлювань. Головним завданням даної формули є відділення безлічі релевантних текстів від безлічі нерелевантних текстів. p align="justify"> В якості формули, що розділяє два безлічі текстів, вирішено було використовувати діз'юнктівную нормальну форму (ДНФ).
Диз'юнктивна Нормальна Форма (ДНФ) - це диз'юнкція елементарних кон'юнкція і їх заперечень [14].
Теорема: Будь-яка формула логіки висловлювань може бути представлена ​​у вигляді діз'юнктівной нормальної форми [14].
Відповідно до даної теоремою, можна стверджувати, що будь-який набір формул логіки висловлювань можна перетворити в ДНФ.
Пропозіціональние змінної в ДНФ є твердження про те, що послідовність символів зустрічається в релевантному тексті. А кожна кон'юнкція побудована таким чином, що вона буде істинна на безлічі релевантних текстів і помилкова на безлічі нерелевантних текстів. Слід зауважити, що неможливо знайти єдину кон'юнкцію, яка б розділяла два безлічі текстів. Саме тому в якості формули логіки висловлювань була обрана ДНФ. p align="justify"> Розглянемо алгоритм побудови ДНФ:
. Аналіз релевантних і нерелевантних текстів
Нехай {relevanceText [i]} - набір релевантних текстів для пари (рубрика, ресурс), а {IrrelevanceText [j]} - набір нерелевантних текстів для пари (рубрика, ресурс).
У процесі аналізу текстів для кожного тексту (релевантного і нерелевантного) система отримує набір лексем із статистикою зустрічальності в тексті:
{relevanceTextLexem [i]} - набір лексем для i-го релевантного тексту зі статистикою зустрічальності лексеми в i-му релевантному тексті.
{IrrelevanceTextLexem [j]} - набір лексем для j-го нерелевантного тексту зі статистикою зустрічальності лексеми в j-му нерелевантні тексті.
В якості лексем можуть виступати всі ...