есічних підмножини:
об'єкти, про які відомо, що вони володіють даними ознакою,
об'єкти, про які відомо, що вони не володіють даними ознакою,
об'єкти, для яких існують аргументи як за, так і проти того, що вони володіють даними ознакою,
об'єкти, про які невідомо, володіють вони цим ознакою чи ні.
У задачі визначення тональності тексту з двома емоційними категоріями безліч Про містить досліджувані тексти; безліч Р складається з одного елемента (властивості), що позначає позитивну тональність тексту (відсутність цієї властивості означає, що тональність тексту негативна); безліч С включає характеристики, що відповідають за подання текстів, наприклад характеристика може бути окремим словом або словосполученням; безліч
,
де +1 означає, що об'єкт має властивість, - 1 означає, що об'єкт не має властивість, 0 - наявність протиріччя (тобто маються аргументи як за, так і проти того, що об'єкт має властивість), - відсутність інформації про властивість) [9].
Безліч текстів Про складається з трьох підмножин: тексти позитивної тональності (+1), тексти негативною тональності (- 1) і тексти, тональність яких потрібно визначити (-тексти). Перші дві підмножини утворюють навчальну колекцію текстів, третій підмножина - тестову колекцію.
Ідея ДСМ-методу полягає в наступному. Спочатку складається колекція текстів, для яких точно відома емоційне забарвлення. На основі наявної колекції проводиться навчання класифікатора. Воно полягає у формуванні гіпотез (етап індукції). Гіпотеза являє собою перетин текстів колекції. За допомогою відповідного алгоритму знаходять всілякі перетину текстів. Для кожної емоційної категорії формується окреме безліч гіпотез.
Далі йде етап аналогії. Сформовані гіпотези по черзі порівнюються в-текстами. Якщо гіпотеза містяться в оброблюваному тексті, то вона позначається будь-яким чином. Після того, як всі гіпотези перевірені на збіг з текстом, можна назвати безліч помічених гіпотез. Така безліч виділяється в кожній емоційної категорії. На останньому етапі залишається зробити висновок, до якого класу віднести-текст. У задачі визначення тональності тексту використовується досить велика кількість характеристик об'єктів (порядку 104) і породжених гіпотез (порядку 104-106) [9]. Внаслідок цього відбуваються численні збіги характеристик як позитивних гіпотез, так і негативних с-текстами, тобто мають місце множинні конфлікти. Для виходу з цієї ситуації використовується функція вирішення конфліктів. В якості критеріїв, що дозволяють присвоїти тональність-текстам, можна розглядати:
а) сумарна кількість гіпотез
,,(2)
де, - позитивні і негативні гіпотези відповідно;- Коефіцієнт, що враховує дисбаланс кількості позитивних і негативних текстів,
б) сумарна кількість характеристик у всіх гіпотезах,
, (3)
де - кількість характеристик гіпотези,
в) сумарна кількість батьків всіх гіпотез
, (4)
де - кількість батьків гіпотези,
г) добуток кількості характеристик на кількість батьків
, (5)
д) зважене середнє арифметичне числа характеристик, тобто відношення добутку кількості характеристик на кількість батьків до загальної кількості батьків гіпотез одного клас...