+ Гл.Авт.0, 6160,9400,7410,801 Ручной0, 8090,9030,8520,888 Дод. + Сущ. + Гл.Авт.0, 7780,9640,8600,876 Ручной0, 918
0,9720,9440,945 Всі частини речіАвт.0, 7680,9210,8330,850 Ручной0, 9070 , 9440,9240,925
Таблиця 3 - Результати тестування ДСМ-методу в залежності від словника і частини?? мови при використанні функції вирішення конфліктів на основі твору кількості характеристик на кількість батьків
ПараметриМетрікі качестваЧасть речиСловарьPrecisionRecallF1-measureAccuracyПрил.Авт.0,8820,8610,8710,868Ручной0,9310,8550,8900,881Сущ.Авт.0,6850,7230,6990,706Ручной0,6920,7890,7350,813Гл.Авт.0,7620,7680,7640,766Ручной0,8350,7680,7950,800Прил. + Сущ.Авт.0, 7870,8430,8140,820 Ручной0, 933 0,893 0,912 0,911 Дод. + Гл.Авт.0, 8720,8450,8580,855 Ручной0, 9350,8400,8840,875 Сущ. + Гл.Авт.0, 7710,7900,7790,781 Ручной0, 8390,8730,8550,862 Дод. + Сущ. + Гл.Авт.0, 8480,8570,8520,854 Ручной0, 9470,8780,9110,907 Всі частини речіАвт.0, 6840,8890,7700,798 Ручний 0,952 0,880 0,914 0,909
На підставі цієї інформації, проведемо аналіз впливу окремих складових ДСМ-методу на якість розпізнавання тональності текстів.
а) Вплив словника
У табл. 4 наведені розміри словника з кожної частини мови, а на рис. 5 ці дані представлені у вигляді діаграми. Автоматичний словник формувався шляхом додавання з текстів навчальної колекції всіх слів без винятку. Ручний словник складався з автоматичної шляхом видалення слів з нейтральною забарвленням.
Таблиця 4 - Розмір словника
ПараметриРазмер словаряПараметриРазмер словаряЧасть речіСловарьЧасть речіСловарьПріл.Авт.1280Пріл. + Гл.Авт.2014Ручной757Ручной1041Сущ.Авт.1142Сущ. + Гл.Авт.1876Ручной294Ручной578Гл.Авт.734Прил. + Сущ. + Гл.Авт.3156Ручной284Ручной1335Прил. + Сущ.Авт.2422Все частини речиАвт.3409Ручной1050Ручной1379
Рис. 5 - Розмір словника
Використання ручного словника в більшості випадків дозволило отримати більш високі оцінки. Поліпшення оцінок склало від 1% до 77% за табл. 2 та від 1% до 39% за табл. 3. Середнє поліпшення показників представлено в табл. 5. Незначне погіршення спостерігається по метриці повноти. Поліпшення пов'язано з тим, що словник, складений вручну, містить слова з найбільш яскраво вираженою емоційним забарвленням, і практично не містить слів з нейтральною забарвленням. Завдяки відсутності нейтрально забарвлених слів формуються гіпотези більш точно характеризують тональність.
Таблиця 5 - Середнє поліпшення оцінок при використанні ручного словника в порівнянні з автоматичним
Джерело усереднює даннихМетрікаPrecisionRecallF1-measureAccuracyТабл. 211,4% - 0,39% 5,7% 4,1% Табл. 311,6% 3% 7,4% 7,6%
Таблиця 6 - Кількість сформованих гіпотез (при використанні функції вирішення конфліктів на основі кількості гіпотез)
ПараметриКолічество гіпотезЧасть речиСловарьПоложительныеОтрицательныеПрил.Авт.29583046Ручной21611932Сущ.Авт.52909758Ручной7181234Гл.Авт.36634155Ручной12041378Прил. + Сущ.Авт.1214618907Ручной29883307Прил. + Гл.Авт.91939828Ручной37543601Сущ. + Гл.Авт.1366022201Ручной18502676Пріл. + Сущ. + Гл.Ав...