Теми рефератів
> Реферати > Курсові роботи > Звіти з практики > Курсові проекти > Питання та відповіді > Ессе > Доклади > Учбові матеріали > Контрольні роботи > Методички > Лекції > Твори > Підручники > Статті Контакти
Реферати, твори, дипломи, практика » Новые рефераты » Пошук інформації в Інтернеті

Реферат Пошук інформації в Інтернеті





иному вузлу компанії (# "#"> рис.2), багато користувачів системи продовжують експлуатувати прозорий за своєю природою оператор image , дозволяє знаходити в індексі графічні файли. На цей рахунок довідка AltaVista вичерпується тим, що рекомендує ввести в шаблон запит, в якому слідом за зазначеним оператором має слідувати ім'я або частину імені шуканого файлу. Таким чином, для пошуку файлу із зображенням акрополя слід задати запит у вигляді image: acropolis .

Чи збільшить наші шанси на успіх знання того, як реально відпрацьовує оператор image? Якщо подивитися на відгукнулися документи, а потім на їх HTML-джерело, то легко переконатися, що в кожному з них у місці вставки графічного образу присутній елемент . Усередині нього в якості обов'язкового атрибуту варто URL, з якого, власне, і витягується сам файл:

рис.2, справа вгорі) - російська (Russian) або будь-який (any language), а також яка російське кодування встановлена ​​в меню браузера. Результати пошуку наведені в табл.1. Аналіз переліку відгуку показує, що, по-перше, при введенні запиту тільки в одному кодуванні неминуче втрачаються дані. По-друге, стає ясно, як система ідентифікує той чи інший мову документа. Виявляється, якщо деяка початкова частина документа написана мовою, відмінному від російської, то цей документ вже не описується ІПС як російськомовний. Результат цієї недокументованою особливості - максимальний відгук індексу при пошуку за російськомовному терміну досягається при установці пункту меню "any language", а не "Russian".

У шаблоні розширеного пошуку популярної бізнес-орієнтованої системи Open Text Livelink Pinstripe (OTLP) (рис.3) також приховані деякі проблеми, ніяк не висвітлені в довідковому матеріалі ІПС.

Як видно з малюнка, шаблон дозволяє задати своє поле пошуку для кожного терміна, а потім зв'язати терміни за допомогою логічних операторів. Однак як тільки термінів стає більше двох - виникає питання: у якій послідовності будуть відпрацьовувати оператори і, відповідно, що являтиме собою результат. Навіть для такого простого запиту, як term1 AND term2 OR term3 , розумно припустити двояку інтерпретацію, яку можна проілюструвати за допомогою виділення в дужки логічних одиниць (в самому шаблоні дужки не застосовуються). І варіант ( term1 AND term2) OR term3 , і варіант term1 AND (term2 OR term3) здаються прийнятними, даючи при цьому абсолютно різний відгук. Тестовий запит і подальший аналіз відгукнулися документів показують справедливість першого варіанту, тобто те, що оператори виконуються в міру їх появи в шаблоні і в документі будуть присутні або term1 і term2 одночасно, або тільки term3 . Як у такому шаблоні вводити запити з участю фраз (а це можливо) - автор пропонує з'ясувати читачам самостійно. У даному випадку доводиться констатувати очевидну недбалість розробника по відношенню до користувачів системи.

Переважна більшість ІПС Інтернету сьогодні активно працює з так званими стоп-словами (stop-words). До останніх відносять службові частини мови, які не несуть смислове навантаження, а також деякі найбільш загальновживані в Мережі слова, такі як information, Internet, Web, business, та інші. Відомо, що AltaVista, Excite, HotBot і Lycos застосовують у роботі техніку стоп-слів, а Infoseek і NorthernLight її НЕ практикують.

При появі стоп-слів у пошуковому запиті, не містить спеціальних хитрувань, ІПС може не враховувати їх при пошуку та ранжуванні результатів, при цьому іноді інформуючи про це користувача, а іноді - ні. У цілому неврахування стоп-слів при обробці запиту скорочує час пошуку і підвищує релевантність відгуку. Проте варто вам спробувати відшукати що-небудь на зразок класичної фрази Шекспіра "to be or not to be", складається тільки з стоп-слів, - і ви вже не володієте ситуацією.

Хоча стоп-слова та можуть ігноруватися в простих запитах, в індексі повнотекстової ІПС вони присутні поряд з іншими. Такою системою є, наприклад, AltaVista (Індексуються всі слова документа). HotBot, навпаки - індексує всі, крім стоп-слів.

Проте і HotBot виконує повнотекстове індексування окремих значущих полів документа, так що запити зі стоп-словами, оформлені у вигляді фрази, дають і на цій ІПС результативний відгук.

Перелік стоп-слів не стандартизований, так що він може бути оригінальним для кожного сервісу. Розробники рідко наводять відомості про цей аспект роботи ІПС, проте при необхідності пошук за ключовими словами stop, words плюс назву цікавить вас пошукової машини дозволяє виявити в Мережі версії відповідних переліків.

Найбільш загальні принципи виходу з проблемної ситуації наступні: по можливості уникати вживання стоп-слів у запитах, виключити застосування логічних операторів типу and, or, not та інших у тих шаблонах, в яких вони не підтримуються і будуть сприйняті як стоп-слова.

Якщо ж без стоп-с...


Назад | сторінка 2 з 4 | Наступна сторінка





Схожі реферати:

  • Реферат на тему: Структура команди мови запитів SQL. Простий запит. Багатотабличного запит
  • Реферат на тему: The positive image as are important component of being competitive on the t ...
  • Реферат на тему: Обробка набору даних, представленого у вигляді файлу
  • Реферат на тему: Практична обробка набору даних, представленого у вигляді файлу
  • Реферат на тему: Методи пошуку інформації в Інтернеті