я в документі. Через їх природи вони можуть застрявати в циклах, тому, проходячи по посиланнях, їм потрібні значні ресурси Мережі. Проте, є методи, призначені для того, щоб заборонити роботам пошук по сайтах, власники яких не бажають, щоб вони були проіндексовані. p> Агенти витягують і індексують різні види інформації. Деякі, наприклад, індексують кожне окреме слово у встречающемся документі, в той час як інші індексують тільки найбільш важливих 100 слів у кожному, індексують розмір документа і кількість слів у ньому, назву, заголовки та підзаголовки і так далі. Вид побудованого індексу визначає, який пошук може бути зроблений пошуковим механізмом і як отримана інформація буде інтерпретована. p> Агенти можуть також переміщатися по Інтернет і знаходити інформацію, після чого поміщати її в базу даних пошукового механізму. Адміністратори пошукових систем можуть визначити, які сайти або типи сайтів агенти повинні відвідати і проіндексувати. Проіндексована інформація відсилається базі даних пошукового механізму так само, як було описано вище. p> Люди можуть поміщати інформацію прямо в індекс, заповнюючи особливу форму для того розділу, в який вони хотіли б помістити свою інформацію. Ці дані передаються базі даних. p> Коли хто-небудь хоче знайти інформацію, доступну в Інтернет, він відвідує сторінку пошукової системи і заповнює форму, що деталізує інформацію, яка йому необхідна. Тут можуть використовуватися ключові слова, дати та інші критерії. Критерії в формі пошуку повинні відповідати критеріям, використовуваним агентами при індексації інформації, яку вони знайшли при переміщенні по Мережі. p> База даних відшукує предмет запиту, заснований на інформації, зазначеної в заповненій формі, і виводить відповідні документи, підготовлені базою даних. Щоб визначити порядок, в якому список документів буде показаний, база даних застосовує алгоритм ранжування. В ідеальному випадку, документи, найбільш релевантні запиту користувача будуть поміщені першими в списку. Різні пошукові системи використовують різні алгоритми ранжирування, проте основні принципи визначення релевантності наступні:
1. Кількість слів запиту в текстовому вмісті документу (тобто в html-коді). p> 2. Теги, в яких ці слова розташовуються. p> 3. Розташування шуканих слів у документі. p> 4. Питома вага слів, відносно яких визначається релевантність, у загальній кількості слів документа. p> Ці принципи застосовуються всіма пошуковими системами. А представлені нижчою використовуються деякими, але достатньо відомими (на кшталт AltaVista, HotBot). p> 5. Час - Як довго сторінка знаходиться в базі пошукового сервера. Спочатку здається, що це досить безглуздий принцип. Але, якщо задуматися, як багато існує в Інтернеті сайтів, які живуть максимум місяць! Якщо ж сайт існує досить довго, це означає, що власник вельми досвідчений у даній темі і користувачеві більше підійде сайт, який пару років віщає світу про правила поведінки за столом, ніж той, який з'явився тиждень тому з цією ж тематикою. p> 6. Індекс цитованості - як багато посилань на дану сторінку веде з інших сторінок, зареєстрованих в базі пошуковика. p> База даних виводить ранжований подібним чином список документів з HTML і повертає його людині, зробив запит. Різні пошукові механізми також вибирають різні способи показу отриманого списку - деякі показують тільки посилання; інші виводять лінки c першими кількома пропозиціями, містяться в документі або заголовок документа разом з Посилання. p> Коли Ви клацаєте на посиланні до одного з документів, який вас цікавить, цей документ запитується у того сервера, на якому він знаходиться.
2. Порівняльний огляд довідково-пошукових систем
2.1 Gopher
В
Gopher - був широко поширений в інтернеті і був попередником World Wide Web. За деякими даними, до 1995 року Gopher був самої динамічно розвивається технологією інтернету. Темпи зростання числа відповідних серверів випереджали темпи зростання серверів всіх інших типів. У 1993 році в світі було понад півтори тисячі gopher-серверів. p> Gopher фактично був системою розподіленого пошуку та передачі документів одночасно. Причому ці можливості реалізовувалися не як додаткові сервіси-надбудови, подібно до сучасних пошукових машин, а були вбудовані в систему як її базові функції.
З допомогу спеціальної програми Veronica безпосередньо в системі Gopher здійснювався пошук з використанням спеціальної мови запитів, побудованого на ключових словах. Ця система працювала не тільки задовго до появи GOPHER (RFC-1436) являє собою систему для пошуку і доставки документів, що зберігаються в розподілених сховищах-депозитаріях. Система була розроблена в університеті штату Міннесота (на гербі цього штату зображений хом'як, по-англійськи gopher). Програма Gopher пропонує користувачеві послідовність меню, з яких він може вибрати потрібну йому тему чи статтю. Об'єктом пошуку може бути текст або двійковий файл...