ься при оцінці більшої частини систем аналізу інформації. Іноді вони використовуються самі по собі, іноді в якості базису для похідних метрик, таких як F1-міра.
Точність системи в межах класу - це частка об'єктів дійсно належать даному класу щодо всіх об'єктів, які система віднесла до цього класу. Ця метрику можна представити як ступінь «розумності» системи. Повнота системи - це частка знайдених класифікатором об'єктів, що належать класу, щодо всіх об'єктів цього класу в тестовій вибірці. Дану метрику можна представити як ступінь повноти системи.
Метрика точності визначається формулою
. (10)
Метрика точності характеризує, скільки отриманих від класифікатора позитивних відповідей є правильними. Чим більше точність, тим менше число помилкових влучень. Але ця метрика не дає уявлення про те, чи всі правильні відповіді повернув класифікатор. Для цього існує метрика повноти, обумовлена ??формулою
. (11)
Метрика повноти характеризує здатність класифікатора «вгадувати» позитивні відповіді в тестовій вибірці. Відзначимо, що помилково-позитивні відповіді ніяк не впливають на цю метрику.
1.4.3 F1-міра
Метрики точності і повноти дають досить вичерпну характеристику класифікатора. Зрозуміло, що чим вище точність і повнота, тим краще. Якщо підвищувати повноту, роблячи класифікатор більш «оптимістичним», це призведе до зниження точності через збільшення числа помилково-позитивних відповідей. Якщо ж робити класифікатор більш «песимістичним», то при зростанні точності станеться одночасне падіння повноти через відбракування якогось числа правильних відповідей.
У реальному житті максимальна точність і повнота недосяжні одночасно, тому доводиться шукати певний баланс. З цією метою вводиться метрика, яка об'єднує в собі інформацію про точність та повноту класифікатора. Вона отримала назву F1-міра і фактично є середнім гармонійним величин P і R:
. (12)
В даній формулі надається однакову вагу точності і повноти, тому F1-захід буде знижуватися однаково при зменшенні точності.
Глава 2. Практичне дослідження ДСМ-методу
2.1 Програмна реалізація
Для написання програми-аналізатора був використаний мова програмування C #.
2.1.1 Інтерфейс користувача
Програма реалізована у вигляді консольного застосування. Запуск здійснюється з командного рядка Windows. Синтаксис команди запуску виконуваного файлу представлений на рис. 3.
Рис. 3 - Синтаксис команди запуску програми
За замовчуванням коефіцієнт дисбалансу, кількість блоків для перехресної перевірки.
2.1.2 Вхідні дані
Словник зберігається в текстовому файлі Dictionary.txt.
Вихідні тексти для навчання та класифікації розташовуються в наступних директоріях:
/ SourceTexts / MinusSamples - навчальні негативні тексти,
/ SourceTexts / PlusSamples - навчальні позитивні тексти,
/ SourceTexts / TauSamples - тексти, тональність яких потрібно визначити.