Теми рефератів
> Реферати > Курсові роботи > Звіти з практики > Курсові проекти > Питання та відповіді > Ессе > Доклади > Учбові матеріали > Контрольні роботи > Методички > Лекції > Твори > Підручники > Статті Контакти
Реферати, твори, дипломи, практика » Курсовые проекты » Розробка та реалізація нейросетевого пошуку в рамках проекту &AIST&

Реферат Розробка та реалізація нейросетевого пошуку в рамках проекту &AIST&





постійний множник, що не впливає на співвідношення ваг [7].

Таким чином, міра TF-IDF є твором двох співмножників: Велика вага в TF-IDF отримають слова з високою частотою в межах конкретного документа і з низькою частотою вживань в інших документах.

Існують різні формули, засновані на методі TF-IDF. Вони відрізняються коефіцієнтами, нормировка, використанням логаріфміровать шкал. Зокрема, пошукова система Яндекс довгий час використовувала нормировку по самому частотному терміну в документі [7].

У даній роботі міра TF-IDF використовується для представлення документів колекції у вигляді числових векторів, що відображають важливість використання кожного слова з деякого набору слів (кількість слів набору визначає розмірність вектора) в кожному документі. Така модель називається векторною моделлю (en: Vector space model) і дає можливість порівнювати тексти, порівнюючи їх представляють вектора в якій або метриці (евклідова відстань, косинусна міра, Манхеттенський відстань, відстань Чебишева та ін.), Т. Е. Виробляючи кластерний аналіз.


3.3 Нейронні мережі


3.3.1 Кластерний аналіз

Кластерний аналіз (англ. cluster analysis) - багатовимірна статистична процедура, що виконує збір даних, що містять інформацію про вибірку об'єктів, і потім впорядковує об'єкти в порівняно однорідні групи. Завдання кластеризації відноситься до статистичної обробки, а також до широкого класу задач навчання без учителя.

Кластерний аналіз виконує такі основні завдання:

· Розробка типології або класифікації.

· Дослідження корисних концептуальних схем групування об'єктів.

· Породження гіпотез на основі дослідження даних.

· Перевірка гіпотез або дослідження для визначення, чи дійсно типи (групи), виділені тим чи іншим способом, присутні в наявних даних.

Незалежно від предмета вивчення застосування кластерного аналізу припускає наступні етапи:

· Відбір вибірки для кластеризації. Мається на увазі, що має сенс кластеризувати тільки кількісні дані.

· Визначення безлічі змінних, за якими будуть оцінюватися об'єкти у вибірці, тобто простору ознак.

· Обчислення значень тієї чи іншої міри подібності (або відмінності) між об'єктами.

· Застосування методу кластерного аналізу для створення груп схожих об'єктів.

· Перевірка достовірності результатів кластерного рішення.

В якості цілей кластеризації виділяють:

· Розуміння даних шляхом виявлення кластерної структури. Розбиття вибірки на групи схожих об'єктів дозволяє спростити подальшу обробку даних і прийняття рішень, застосовуючи до кожного кластеру свій метод аналізу (стратегія «розділяй і володарюй»).

· Стиснення даних. Якщо вихідна вибірка надлишково велика, то можна скоротити її, залишивши по одному найбільш типовому представникові від кожного кластера. У даній роботі використовується як основний механізм прискорення процесу пошуку, що дозволяє уникнути великої обчислювальної складності процесу обробки пошукового запиту.

У всіх цих випадках може застосовуватися ієрархічна кластеризація, коли великі кластери дробляться на більш дрібні, ті в свою чергу дробляться ще дрібніші, і т. д. Такі завдання називаються завданнями таксономії. Результатом таксономії є древообразная ієрархічна структура. При цьому кожен об'єкт характеризується перерахуванням всіх кластерів, яким він належить, звичайно від великого до дрібного [7].

Загальноприйнятою класифікації методів кластеризації не існує, але можна виділити ряд груп підходів [7]:

1. Імовірнісний підхід. Передбачається, що кожен даний об'єкт відноситься до одного з k класів. Виділяють такі методи як:

o K-середніх (K-means)

o K-medians

o EM-алгоритм

o Алгоритми сімейства FOREL

o Дискримінантний аналіз

2. Підходи на основі систем штучного інтелекту: вельми умовна група, так як методів дуже багато і методично вони досить різні:

o Метод нечіткої кластеризації C-середніх (C-means)

o Нейронна мережа Кохонена

o Генетичний алгоритм

3. Інші методи. Не ввійшли в попередні групи.

o Статистичні алгоритми кластеризації

Незважаючи на значні відмінності між перерахованими методами всі вони спираються на вихідну «гіпотезу компакт...


Назад | сторінка 3 з 12 | Наступна сторінка





Схожі реферати:

  • Реферат на тему: Кластерний аналіз і метод гірської кластеризації
  • Реферат на тему: Вивчення методів інтелектуального аналізу даних у середовищі Statgraphics: ...
  • Реферат на тему: Користувальницький інтерфейс програми кластеризації даних
  • Реферат на тему: Розробка методики аналізу аномальності мережевого трафіку на основі статист ...
  • Реферат на тему: Ієрархічна модель даних. Структури даних