Реферат Аналіз тональності текстів на основі ДСМ-методу

Тема: Новые рефераты

ку.

Клас TextNormalizer відповідає за нормалізацію текстів. Методи класу:

o CreateProcess - створює новий процес (запускає морфологічний аналізатор Mystem від Яndex);

o Normalize - виробляє нормалізацію текстів в заданій директорії.

Клас CrossValidator відповідає за перехресну перевірку навчальної моделі. Методи класу:

o CalcKoeff - розраховує метрики якості аналізу тональності;

o ProcessTexts - здійснює перехресну перевірку (ділить безліч текстів на рівніші частини; черзі одну з частин вибирає як контрольної, решта - в якості навчальних);

Клас JsmProcessor відповідає за етапи ДСМ-методу. Методи класу:

o Analogy - виконує процедуру аналогії;

o Classification - визначає клас тональності тексту;

o ConflictResolution, ..., ConflictResolution6 - функції вирішення конфліктів на основі різних критеріїв;

o Induction - виконує процедуру індукції (алгоритм Норріса пошуку перетинань текстів).

2.2 Текстова колекція

Перед проведенням експерименту була складена колекція відгуків користувачів мережі Інтернет про фільми з використанням сайту <# «justify"> 2.3 Експерименти і результати

Для тестування ДСМ-методу автоматичного породження гіпотез використовувався комп'ютер з наступними характеристиками:

? CPU AMD Athlon тм XP 2500 + Barton (Socket 462, 1,833 MHz, L2 512Kb, 333MHz);

? RAM DDR 512 Mb (pc - 3200) 200MHz/400Mbps;

? OS Windows XP Professional SP3 x32.

2.3.1 Оцінка якості аналізу тональності

Дослідження якості розпізнавання тональності текстів проводилося в залежності від:

· словника (автоматичний, ручний);

· частин мови, що входять в словник (прикметників, іменників, дієслів, а також їх різних комбінацій);

· функції вирішення конфліктів.

Оцінка якості проводилася за допомогою процедури крос-валідації. Весь набір навчальних текстів розбивався на 5 рівних за обсягом частин. По черзі кожна з цих частин приймалася в якості контрольної, решта - в якості навчальних. Значення метрик, отримані в кожному циклі процедури крос-валідації, в підсумку усереднювалися за допомогою середнього арифметичного позитивних чисел.

. Результати тестування залежно від словника і частин мови

Тестування проводилося при коефіцієнті природного дисбалансу. Отримані результати представлені в табл. 2 і табл. 3.

Таблиця 2 - Результати тестування ДСМ-методу в залежності від словника і частин мови при використанні функції вирішення конфліктів на основі кількості гіпотез

ПараметриМетрікі качестваЧасть речиСловарьPrecisionRecallF1-measureAccuracyПрил.Авт.0,9150,8900,9020,896Ручной0,9180,8920,9040,898Сущ.Авт.0,4330,8680,5730,711Ручной0,7690,8590,8050,885Гл.Авт.0,7750,8410,8060,816Ручной0,7040,8080,7490,779Прил. + Сущ.Авт.0, 7160,9660,8220,850 Ручний 0,956 0,9270,9400,941 Дод. + Гл.Авт.0, 9160,8980,9060,902 Ручной0, 9270,9290,9280,925 Сущ. ...

Назад | сторінка 10 з 23 | Наступна сторінка

Схожі реферати:

Реферат на тему: Навчання переглядовому читанню англійських текстів учнів 7 класу середньої ...

Реферат на тему: Статистичний аналіз текстів різних авторів на основі їх морфологічних харак ...

Реферат на тему: Клас птахи, загальна характеристика класу

Реферат на тему: Особливості PR-текстів у мережі Інтернет

Реферат на тему: Особливості перекладу термінів (на основі англійських економічних текстів)

Український реферат переглянуто разів: | Коментарів до українського реферату:

Коментарів до українського реферату: 0