ку.
Клас TextNormalizer відповідає за нормалізацію текстів. Методи класу:
o CreateProcess - створює новий процес (запускає морфологічний аналізатор Mystem від Яndex);
o Normalize - виробляє нормалізацію текстів в заданій директорії.
Клас CrossValidator відповідає за перехресну перевірку навчальної моделі. Методи класу:
o CalcKoeff - розраховує метрики якості аналізу тональності;
o ProcessTexts - здійснює перехресну перевірку (ділить безліч текстів на рівніші частини; черзі одну з частин вибирає як контрольної, решта - в якості навчальних);
Клас JsmProcessor відповідає за етапи ДСМ-методу. Методи класу:
o Analogy - виконує процедуру аналогії;
o Classification - визначає клас тональності тексту;
o ConflictResolution, ..., ConflictResolution6 - функції вирішення конфліктів на основі різних критеріїв;
o Induction - виконує процедуру індукції (алгоритм Норріса пошуку перетинань текстів).
2.2 Текстова колекція
Перед проведенням експерименту була складена колекція відгуків користувачів мережі Інтернет про фільми з використанням сайту <# «justify"> 2.3 Експерименти і результати
Для тестування ДСМ-методу автоматичного породження гіпотез використовувався комп'ютер з наступними характеристиками:
? CPU AMD Athlon тм XP 2500 + Barton (Socket 462, 1,833 MHz, L2 512Kb, 333MHz);
? RAM DDR 512 Mb (pc - 3200) 200MHz/400Mbps;
? OS Windows XP Professional SP3 x32.
2.3.1 Оцінка якості аналізу тональності
Дослідження якості розпізнавання тональності текстів проводилося в залежності від:
· словника (автоматичний, ручний);
· частин мови, що входять в словник (прикметників, іменників, дієслів, а також їх різних комбінацій);
· функції вирішення конфліктів.
Оцінка якості проводилася за допомогою процедури крос-валідації. Весь набір навчальних текстів розбивався на 5 рівних за обсягом частин. По черзі кожна з цих частин приймалася в якості контрольної, решта - в якості навчальних. Значення метрик, отримані в кожному циклі процедури крос-валідації, в підсумку усереднювалися за допомогою середнього арифметичного позитивних чисел.
. Результати тестування залежно від словника і частин мови
Тестування проводилося при коефіцієнті природного дисбалансу. Отримані результати представлені в табл. 2 і табл. 3.
Таблиця 2 - Результати тестування ДСМ-методу в залежності від словника і частин мови при використанні функції вирішення конфліктів на основі кількості гіпотез
ПараметриМетрікі качестваЧасть речиСловарьPrecisionRecallF1-measureAccuracyПрил.Авт.0,9150,8900,9020,896Ручной0,9180,8920,9040,898Сущ.Авт.0,4330,8680,5730,711Ручной0,7690,8590,8050,885Гл.Авт.0,7750,8410,8060,816Ручной0,7040,8080,7490,779Прил. + Сущ.Авт.0, 7160,9660,8220,850 Ручний 0,956 0,9270,9400,941 Дод. + Гл.Авт.0, 9160,8980,9060,902 Ручной0, 9270,9290,9280,925 Сущ. ...