и результат.
Релевантність оцінюється по відношенню до інформаційної потреби, а не до запиту. Документ є релевантним, якщо він ставиться до зазначеної інформаційної потреби, а не просто містить всі слова із запиту. br/>
.1 Оцінка неранжірованних наборів результату пошуку
Точність (P): частка релевантних документів з усіх знайдених.
P (релевантні | знайдені) =
= # (знайдені релевантні об'єкти)/# (знайдені об'єкти)
Дозволяє визначити "ступінь надійності" системи. Не враховує загальну кількість документів. p align="justify"> Повнота (R): частка знайдених релевантних документів з усіх релевантних в колекції.
P (знайдені | релевантні) =
= # (знайдені релевантні об'єкти)/# (релевантні об'єкти)
Дозволяє визначити "ступінь повноти" системи.
Таблиця 1. Позначення множин в колекції оброблюваних документів. p align="justify"> Relevant (релевантні) Non-relevant (нерелевантні) Retrieved (знайдені) true positive (TP) (вірно позитивні) false positive (FP) (хибно позитивні) Not retrieved (незнайдені) false negative (FN) (хибно негативні) true negative (TN) (вірно негативні)
В
Малюнок 2. Графічне подання оброблюваної колекції документів. br/>
Точність - частка правильних класифікацій.
Точність не підходить для використання в контексті ВП. У багатьох випадках дані вкрай спотворені, наприклад, 99,9% документів є нерелевантними. У цьому випадку система, налаштована на максимізацію точності буде майже завжди оголошувати кожен документ нерелевантним. p align="justify"> Можна отримувати високу повноту (але низьку точність), витягуючи всі документи для всіх запитів. Повнота є неубутною функцією від кількості знайдених документів. Точність зазвичай падає (в хороших системах). Точність може бути обчислена на різних рівнях повноти. Користувачі, орієнтовані на високу точність - веб-серфери, на високу повноту - професійні дослідники, юристи, аналітики. p align="justify"> F-захід є комбінованої заходом, що оцінює компроміс між точністю і повнотою (зважене середнє гармонійне):
При значенні ? <1 акцент робиться на точності, при ?> 1 - на повноті.
Зазвичай використовується збалансована F-міра, тобто ? = 1