на основі оцінок релевантності. p align="justify"> Розглянемо питання оцінки ефективності пошуку в професійних базах та інформаційних ресурсах Інтернету.
Аналіз вмісту професійних баз за останні 15 років показує неухильне зростання частки текстової інформації в загальному обсязі інформації у фахових базах. Якщо в 1985 р. частка текстової інформації становила 47%, то в 2000 р. ця частка становила вже 84%. Представляється, що основна інформація в Інтернеті також є текстової. Ці обставини дозволяють зробити висновок про те, що підходи до оцінки ефективності пошуку в документальних системах повною мірою поширюються і на професійні бази, і на інформаційні ресурси Інтернету. p align="justify"> Інформаційні ресурси Інтернету і наявні в середовищі Інтернет пошукові засоби володіють певною специфікою, яка робить істотний вплив на ефективність пошуку в цьому середовищі.
Основними пошуковими засобами в Інтернеті є пошукові системи і каталоги. Пошукові системи складаються з трьох частин:
робот - програма, яка відвідує web-сервери, зчитує і індексує повністю або частково їхній вміст і далі випливає по посиланнях, знайденим на сервері. Перегляди серверів здійснюються періодично, наприклад раз на місяць, раз на два тижні;
індексні масиви та копії текстів переглянутих сторінок, що зберігаються в пошуковій системі;
програма, яка, переглядаючи у відповідності до запиту користувача індексні масиви, відбирає і видає споживачеві знайдені документи.
У каталогах є ієрархічні тематичні рубрики. Віднесення серверів до тих чи інших рубриках каталогу здійснюється людиною. Користувач шукає інформацію в каталозі вручну, використовуючи рубрики. p align="justify"> У зв'язку з тим, що в засобах пошуку в Інтернеті не використовуються інформаційно-пошукові мови, на яких могли б бути описані вихідні документи та запити, повнота пошуку в Інтернеті з урахуванням зазначених вище пошукових засобів буде значно нижче , ніж в документальних системах, побудованих на базі інформаційно-пошукових мов.
У 2000 р. фахівці компаній AltaVista, IBM і Compag досліджували ресурси і гіперзв'язки існуючого інформаційного простору WWW. Переглянувши за допомогою пошукових засобів AltaVista понад 600 млн. web-сторінок і 1,5 млрд. посилань, розміщених на цих сторінках, вони дійшли висновку, що досліджуване простір складається з таких компонентів:
- центральне ядро ​​- тісно пов'язані між собою web-сторінки, з кожною з яких можна потрапити на будь-яку іншу (27%);
відправні сторінки. У них можуть бути посилання, що ведуть до ядра, але з ядра до відправним сторінкам потрапити не можна (22%);
кінцеві web-сторінки, до яких можна прийти за посиланнями з ядра, але до ядра від них ...