Реферат Аналіз тональності текстів на основі ДСМ-методу

Тема: Новые рефераты

ься при оцінці більшої частини систем аналізу інформації. Іноді вони використовуються самі по собі, іноді в якості базису для похідних метрик, таких як F1-міра.

Точність системи в межах класу - це частка об'єктів дійсно належать даному класу щодо всіх об'єктів, які система віднесла до цього класу. Ця метрику можна представити як ступінь «розумності» системи. Повнота системи - це частка знайдених класифікатором об'єктів, що належать класу, щодо всіх об'єктів цього класу в тестовій вибірці. Дану метрику можна представити як ступінь повноти системи.

Метрика точності визначається формулою

. (10)

Метрика точності характеризує, скільки отриманих від класифікатора позитивних відповідей є правильними. Чим більше точність, тим менше число помилкових влучень. Але ця метрика не дає уявлення про те, чи всі правильні відповіді повернув класифікатор. Для цього існує метрика повноти, обумовлена ??формулою

. (11)

Метрика повноти характеризує здатність класифікатора «вгадувати» позитивні відповіді в тестовій вибірці. Відзначимо, що помилково-позитивні відповіді ніяк не впливають на цю метрику.

1.4.3 F1-міра

Метрики точності і повноти дають досить вичерпну характеристику класифікатора. Зрозуміло, що чим вище точність і повнота, тим краще. Якщо підвищувати повноту, роблячи класифікатор більш «оптимістичним», це призведе до зниження точності через збільшення числа помилково-позитивних відповідей. Якщо ж робити класифікатор більш «песимістичним», то при зростанні точності станеться одночасне падіння повноти через відбракування якогось числа правильних відповідей.

У реальному житті максимальна точність і повнота недосяжні одночасно, тому доводиться шукати певний баланс. З цією метою вводиться метрика, яка об'єднує в собі інформацію про точність та повноту класифікатора. Вона отримала назву F1-міра і фактично є середнім гармонійним величин P і R:

. (12)

В даній формулі надається однакову вагу точності і повноти, тому F1-захід буде знижуватися однаково при зменшенні точності.

Глава 2. Практичне дослідження ДСМ-методу

2.1 Програмна реалізація

Для написання програми-аналізатора був використаний мова програмування C #.

2.1.1 Інтерфейс користувача

Програма реалізована у вигляді консольного застосування. Запуск здійснюється з командного рядка Windows. Синтаксис команди запуску виконуваного файлу представлений на рис. 3.

Рис. 3 - Синтаксис команди запуску програми

За замовчуванням коефіцієнт дисбалансу, кількість блоків для перехресної перевірки.

2.1.2 Вхідні дані

Словник зберігається в текстовому файлі Dictionary.txt.

Вихідні тексти для навчання та класифікації розташовуються в наступних директоріях:

/ SourceTexts / MinusSamples - навчальні негативні тексти,

/ SourceTexts / PlusSamples - навчальні позитивні тексти,

/ SourceTexts / TauSamples - тексти, тональність яких потрібно визначити.

Назад | сторінка 8 з 23 | Наступна сторінка

Схожі реферати:

Реферат на тему: Медико-біологічна характеристика штучного освітлення з урахуванням класу то ...

Реферат на тему: Просторово-часова метрика, рівняння геодезичних. Ньютоново наближення

Реферат на тему: Психічні особливості прийняття образу тіла у схильних до повноти людей

Реферат на тему: Вплив точності виготовлення заготовки деталі &Кронштейн Ж7-УДН-20в.00.025& ...

Реферат на тему: Розробка програми чисельного інтегрування звичайного диференціального рівня ...

Український реферат переглянуто разів: | Коментарів до українського реферату:

Коментарів до українського реферату: 0