кі повинні бути складовою частиною системи. До невідомих словами будуть віднесені в першу чергу багато спеціальні слова предметної області. Туди ж потраплять новостворені терміни та слова, що містять помилки. p> На основі індексу здійснюється побудова векторного подання документів, після чого СУД виробляє ієрархічну кластеризацію безлічі документів, в результаті чого виходить розбиття цієї множини на тематичні групи. У ході діалогу з користувачем відбувається вибір одного або декількох найбільш релевантних кластерів документів і завдання характеристик пошукового процесу. p> Пошуковий запит слід будувати на основі вектора центроїда обраного кластеру. Оптимальний розмір запиту становить від 8-12 до 25-30 термінів [7]. Остання підготовча операція, здійснювана СУД полягає в записі запиту на ІПМ. p>
Структура мережі. Як відомо, найбільш простий спосіб розширення інформаційного пошуку в мережі Інтернет застосований в метапоіскових системах і полягає у збільшенні кількості використовуваних первинних ІПС. Цей механізм повинен бути реалізований у будь розробляється. Завдання розподілу ресурсів пошукової системи по різних ІПС глобальної мережі повинна вирішуватися адаптивно, на підставі урахування частки посилань визнаних релевантними під час попередніх сеансів пошуку. p> Другий блок автоматизованої пошукової системи відправляє створений запит і здійснює сортування та відбір отриманих посилань, після чого звертається за обраними адресами і отримує з мережі деякий безліч документів, також містять гіперпосилання. p> У дослідженні [8] показано, що поширену думку про хаотичності інформаційного наповнення глобальної мережі та про відсутність будь-якої структури зв'язків є помилкою. Виявлено наявність так званих "спільнот" - добре пов'язаних груп сайтів, містять матеріали близької тематики. Виділяються "центральні" сторінки - містять великі списки посилань і сторінки, на які ведуть багато посилання, - "Авторитетні" сторінки. Таким чином, метою 8-го етапу пошуку є виявлення таких груп і виявлення серед їх членів найбільш "авторитетних". Як показано в [9], алгоритм вирішення цього завдання досить простий. p> Обробка результатів пошуку. p> Після отримання в результаті пошуку в мережі деякого безлічі документів, серед них необхідно виділити найбільш релевантні. Наявність "спільнот" не полегшує це завдання. Можна виділити наступні кілька класів найбільш частих ситуацій. p> 1. Відсутність в досліджуваному сегменті мережі шуканої інформації. Подібна ситуація описана в [10]. У цьому випадку слід перейти до іншого сегменту, тобто зазвичай досліджувати ресурси, створені на інших мовах. p> 2. Знайдені "Співтовариства" містять інформацію не за необхідної тематики, а головним чином по іншим, близьким до шуканої. p> 3. Виявлено занадто велика кількість інформаційних ресурсів.
В останніх двох випадках необхідно здійснити автоматичний перебір всіх знайдених документів і визначити ступінь близькості їх до вихідного запиту. Більше 20 метричних мір близькості, придатних для порівняння документів у векторному поданні, розглянуті в роботі [11]. Оптимальне рішення задачі ранжування досягається шляхом застосування системи, заснованої на агентно-орієнтованому підході. p> У багатьох випадках пошуку в новій області, коли загальний рівень користувача недостатньо високий, бажано здійснювати фільтрацію видаваної інформації за стилем тексту так, щоб початкове ознайомлення з матеріалом відбувалося з використанням популярних і науково-популярних текстів. p> Для зменшення обсягу розглянутих матеріалів слід також здійснити фільтрацію результатів пошуку по типу джерел. Так очевидно, що документи, розташовані на наукових сайтах, на комерційних, або на серверах ЗМІ будуть істотно відрізнятися за своїм характером. <В
Структура роботи пошукових систем.
Робота пошукового покажчика відбувається в три етапи, з яких два перших є підготовчими і непомітні для користувача. Спочатку пошуковий покажчик збирає інформацію з World Wide Web . Для цього використовують спеціальні програми, аналогічні браузери. Вони здатні Скоп'є-ровать задану Web-сторінки на сервер пошукового покажчика, переглянути її, знайти всі гіпетессилкі, які на ній імеютте ресурси, які знайдені там, знову розшукати наявні в них гіперпосилання і т.д. Подібні програми називають черв'яками, павуками, гусеницями, краулер, спайдерами та іншими подібними іменами. ' Кожен пошуковий покажчик експлуатує для цієї мети свою унікальну програму, яку нерідко сам і розробляє. Багато сучасні пошукові системи народилися з експериментальних проектів, пов'язаних з розробкою і впровадженням автоматичних програм, що займаються моніторингом Мережі. Теоретично, при вдалому вході спайдер здатний прочесати всі Web-простір за одне занурення, але на це треба дуже багато часу, а йому ще необхідно періодично повертатися до раніше відвіданим ресурсів, щоб ко...