постійний множник, що не впливає на співвідношення ваг [7].
Таким чином, міра TF-IDF є твором двох співмножників: Велика вага в TF-IDF отримають слова з високою частотою в межах конкретного документа і з низькою частотою вживань в інших документах.
Існують різні формули, засновані на методі TF-IDF. Вони відрізняються коефіцієнтами, нормировка, використанням логаріфміровать шкал. Зокрема, пошукова система Яндекс довгий час використовувала нормировку по самому частотному терміну в документі [7].
У даній роботі міра TF-IDF використовується для представлення документів колекції у вигляді числових векторів, що відображають важливість використання кожного слова з деякого набору слів (кількість слів набору визначає розмірність вектора) в кожному документі. Така модель називається векторною моделлю (en: Vector space model) і дає можливість порівнювати тексти, порівнюючи їх представляють вектора в якій або метриці (евклідова відстань, косинусна міра, Манхеттенський відстань, відстань Чебишева та ін.), Т. Е. Виробляючи кластерний аналіз.
3.3 Нейронні мережі
3.3.1 Кластерний аналіз
Кластерний аналіз (англ. cluster analysis) - багатовимірна статистична процедура, що виконує збір даних, що містять інформацію про вибірку об'єктів, і потім впорядковує об'єкти в порівняно однорідні групи. Завдання кластеризації відноситься до статистичної обробки, а також до широкого класу задач навчання без учителя.
Кластерний аналіз виконує такі основні завдання:
· Розробка типології або класифікації.
· Дослідження корисних концептуальних схем групування об'єктів.
· Породження гіпотез на основі дослідження даних.
· Перевірка гіпотез або дослідження для визначення, чи дійсно типи (групи), виділені тим чи іншим способом, присутні в наявних даних.
Незалежно від предмета вивчення застосування кластерного аналізу припускає наступні етапи:
· Відбір вибірки для кластеризації. Мається на увазі, що має сенс кластеризувати тільки кількісні дані.
· Визначення безлічі змінних, за якими будуть оцінюватися об'єкти у вибірці, тобто простору ознак.
· Обчислення значень тієї чи іншої міри подібності (або відмінності) між об'єктами.
· Застосування методу кластерного аналізу для створення груп схожих об'єктів.
· Перевірка достовірності результатів кластерного рішення.
В якості цілей кластеризації виділяють:
· Розуміння даних шляхом виявлення кластерної структури. Розбиття вибірки на групи схожих об'єктів дозволяє спростити подальшу обробку даних і прийняття рішень, застосовуючи до кожного кластеру свій метод аналізу (стратегія «розділяй і володарюй»).
· Стиснення даних. Якщо вихідна вибірка надлишково велика, то можна скоротити її, залишивши по одному найбільш типовому представникові від кожного кластера. У даній роботі використовується як основний механізм прискорення процесу пошуку, що дозволяє уникнути великої обчислювальної складності процесу обробки пошукового запиту.
У всіх цих випадках може застосовуватися ієрархічна кластеризація, коли великі кластери дробляться на більш дрібні, ті в свою чергу дробляться ще дрібніші, і т. д. Такі завдання називаються завданнями таксономії. Результатом таксономії є древообразная ієрархічна структура. При цьому кожен об'єкт характеризується перерахуванням всіх кластерів, яким він належить, звичайно від великого до дрібного [7].
Загальноприйнятою класифікації методів кластеризації не існує, але можна виділити ряд груп підходів [7]:
1. Імовірнісний підхід. Передбачається, що кожен даний об'єкт відноситься до одного з k класів. Виділяють такі методи як:
o K-середніх (K-means)
o K-medians
o EM-алгоритм
o Алгоритми сімейства FOREL
o Дискримінантний аналіз
2. Підходи на основі систем штучного інтелекту: вельми умовна група, так як методів дуже багато і методично вони досить різні:
o Метод нечіткої кластеризації C-середніх (C-means)
o Нейронна мережа Кохонена
o Генетичний алгоритм
3. Інші методи. Не ввійшли в попередні групи.
o Статистичні алгоритми кластеризації
Незважаючи на значні відмінності між перерахованими методами всі вони спираються на вихідну «гіпотезу компакт...