Реферат Організація пошуку інформації

Тема: Новые рефераты

окумент нерелевантним для більшості запитів, оскільки запити зазвичай мають коротку довжину. Довгі документи будуть схожі один на одного через довжини, а не через теми. Косинусное подобу - це косинус кута між двома векторами. Воно показує схожість, а не дистанцію. Для косинусного подоби не виконується нерівність трикутника. br/>

косинусний міра нормалізує результати з урахуванням довжини вектора документа. Для двох векторів схожість визначається їх напрямками. Для нормалізованих векторів косинусное подобу одно їх скалярному твору. p align="justify"> Заходи подібності визначаються для двох довільних множин A і B:

Міра Жаккар:

Коефіцієнт Дайса:

Міра Шимкевіча-Сімпсона:

Вони можуть бути розширені для недвійковий векторів.

Розширена міра Жаккар.

.4 Визначення ваги індексних термінів

Нам потрібно розглянути два питання. По-перше, при двійковому призначення ваги схожі терміни розглядаються по-різному. По-друге, нормалізація може бути недостатньою для компенсації різниці в довжинах документів. Більш довгий документ має більше можливостей утримувати релевантні до запиту компоненти. Тому вага індексних термінів повинен бути пропорційний одночасно їх важливості у документі і у всій колекції документів. p align="justify"> Вага wi, j може бути розрахований за такою формулою:

- частота терміна ti в документі dj. Забезпечує міру того, як добре термін описує вміст документа.

- зворотна частота документа для терміна ti. Терміни, що з'являються в багатьох документах, які не дуже корисні для відмінності релевантних від нерелевантних документів.

Вага терміна збільшується із зростанням кількості його входжень в документ і з рідкістю появи терміна у всій колекції.

Частота терміна в документі:

Іноді, щоб запобігти зсуву в бік більш довгих документів, розраховується як:

Або просто:

Зворотний частота для терміна:

де N - кількість документів у колекції, ni - кількість документів, що містять ti.

Було проведено безліч поліпшень в схемі tf-idf. Наступна формула була визначена...

Назад | сторінка 6 з 13 | Наступна сторінка

Схожі реферати:

Реферат на тему: Пропаганда - витоки терміна і його сучасне значення

Реферат на тему: Структура терміна в англійській мові

Реферат на тему: Бланки документів, протоколи, експертиза цінності документів

Реферат на тему: Розробка і застосування класифікаційних довідників в діловодстві (номенклат ...

Реферат на тему: Штучний інтелект: чи може машина бути розумною?

Український реферат переглянуто разів: | Коментарів до українського реферату:

Коментарів до українського реферату: 0