Теми рефератів
> Реферати > Курсові роботи > Звіти з практики > Курсові проекти > Питання та відповіді > Ессе > Доклади > Учбові матеріали > Контрольні роботи > Методички > Лекції > Твори > Підручники > Статті Контакти
Реферати, твори, дипломи, практика » Новые рефераты » Організація пошуку інформації

Реферат Організація пошуку інформації





окумент нерелевантним для більшості запитів, оскільки запити зазвичай мають коротку довжину. Довгі документи будуть схожі один на одного через довжини, а не через теми. Косинусное подобу - це косинус кута між двома векторами. Воно показує схожість, а не дистанцію. Для косинусного подоби не виконується нерівність трикутника. br/>


косинусний міра нормалізує результати з урахуванням довжини вектора документа. Для двох векторів схожість визначається їх напрямками. Для нормалізованих векторів косинусное подобу одно їх скалярному твору. p align="justify"> Заходи подібності визначаються для двох довільних множин A і B:

Міра Жаккар:

Коефіцієнт Дайса:

Міра Шимкевіча-Сімпсона:

Вони можуть бути розширені для недвійковий векторів.

Розширена міра Жаккар.



.4 Визначення ваги індексних термінів


Нам потрібно розглянути два питання. По-перше, при двійковому призначення ваги схожі терміни розглядаються по-різному. По-друге, нормалізація може бути недостатньою для компенсації різниці в довжинах документів. Більш довгий документ має більше можливостей утримувати релевантні до запиту компоненти. Тому вага індексних термінів повинен бути пропорційний одночасно їх важливості у документі і у всій колекції документів. p align="justify"> Вага wi, j може бути розрахований за такою формулою:




- частота терміна ti в документі dj. Забезпечує міру того, як добре термін описує вміст документа.

- зворотна частота документа для терміна ti. Терміни, що з'являються в багатьох документах, які не дуже корисні для відмінності релевантних від нерелевантних документів.

Вага терміна збільшується із зростанням кількості його входжень в документ і з рідкістю появи терміна у всій колекції.

Частота терміна в документі:



Іноді, щоб запобігти зсуву в бік більш довгих документів, розраховується як:



Або просто:



Зворотний частота для терміна:



де N - кількість документів у колекції, ni - кількість документів, що містять ti.

Було проведено безліч поліпшень в схемі tf-idf. Наступна формула була визначена...


Назад | сторінка 6 з 13 | Наступна сторінка





Схожі реферати:

  • Реферат на тему: Пропаганда - витоки терміна і його сучасне значення
  • Реферат на тему: Структура терміна в англійській мові
  • Реферат на тему: Бланки документів, протоколи, експертиза цінності документів
  • Реферат на тему: Розробка і застосування класифікаційних довідників в діловодстві (номенклат ...
  • Реферат на тему: Штучний інтелект: чи може машина бути розумною?