х текстів.
Одним з логічних методів аналізу тональності текстів є ДСМ-метод автоматичного породження гіпотез. В [9] зазначається, що перевагою ДСМ-методу в порівнянні зі статистичними методами є прозорість і коректність процесу логічного висновку, хороша интерпретованість генеруються гіпотез, відсутність необхідності більшого числа прикладів для навчання.
Метою цієї курсової роботи є застосування ДСМ-методу для визначення тональності текстів. Означена мета досягається за рахунок вирішення наступних завдань:
· вивчення галузі аналізу тональності текстів;
· опис ДСМ-методу автоматичного породження гіпотез;
· програмна реалізація ДСМ-методу;
· проведення експериментів з визначення тональності текстів;
· аналіз результатів впливу компонентів ДСМ-методу на якість визначення тональності.
У першому розділі наводиться постановка завдання аналізу тональності текстів і приклади областей діяльності, в яких застосовується аналіз тональності, розглядаються теоретичні аспекти ДСМ-методу автоматичного породження гіпотез, дається опис показників, на основі яких буде зроблено висновок про якість роботи методу.
У другому розділі дається опис практичної реалізації ДСМ-методу, наводяться результати тестування розробленої програми-аналізатора у вигляді таблиць і графіків.
На закінчення роботи наводиться загальний висновок за отриманими результатами і список використаної літератури.
Глава 1. Завдання аналізу тональності текстів
.1 Поняття аналізу тональності тексту
1.1.1 Визначення
Аналіз тональності тексту (англ. sentiment analysis, opinion mining, sentiment classification) - це область комп'ютерної лінгвістики, яка займається вивченням думок та емоцій в текстових документах. Аналіз тональності являє собою текстову класифікацію, тобто процес присвоєння природно-язичним текстам тематичної категорії з певного набору.
Під думкою (тональністю) розуміють виражене в тексті емоційне ставлення деякого суб'єкта до певного об'єкту [9]. Тональність може мати одномірне або багатовимірне емотивно простір. У одновимірному просторі існує один вимір (одна шкала), в якому може бути кілька значень - класів (двухбалльной, трибальна, n-бальна шкали). У багатовимірному просторі кілька ортогональних вимірювань, наприклад, базові емоції - радість, щастя, страх, гнів і т.д.
1.1.2 Історія
В [5] зазначається, що автоматична класифікація текстів має тривалу історію, що йде в початок 1960-х рр.. Аж до кінця 1980-х рр.. найбільш популярним підходом до класифікації документів була інженерія знань (knowledge engineering), що полягає в ручному визначенні правил, що містять знання експертів про те, як визначити, до якої категорії відноситься документ. У 1990-х рр.. з бурхливим розвитком виробництва та доступності онлайн документів інтерес до автоматичної класифікації посилився. Нова тенденція, заснована на машинному навчанні, витіснила попередній підхід. Ця тенденція полягала в тому, що на основі індуктивного процесу автоматично створюється класифікатор шляхом навчання за допо...