ти результати експерименту у вигляді таблиці. Шляхом рознесення по предметних областях ми можемо визначити шуми, обумовлені наявністю неадекватних зв'язків термінів, і отримати результати, аналогічні за формою наведеними в табл. 4. З таблиці. 4 випливає, що шуми, які є наслідком неадекватності взаємин термінів, присутні більш ніж у половині пошуків по біологічних ефектів фізичних явищ. Цей результат не може не зацікавити нас. Для з'ясування причин подібної ситуації необхідно виконати подальший аналіз. При цьому ми виявимо, що більшість запитів, що відносяться до цієї широкої предметної області, стосується біологічного впливу радіації і що причиною шумів є недостатня специфічність мови індексування, що виявляється в неможливості встановлення ясного відмінності між шкідливою дією радіації та її терапевтичному використанні (радіотерапія). У зв'язку з цим, очевидно, необхідна доробка даного фрагмента словника.
Навпаки, там, де ми стикаємося з проблемами використання покажчиків ролі,
Подібне табулювання дозволить визначити, який покажчик ролі найважче застосувати в логічно послідовній формі при індексуванні і пошуку. У свою чергу це дає нам також можливість взяти відповідні коригувальні заходи.
Ми обговорили основні причини невдач при пошуку, обумовлені недосконалістю елементів мови індексування. Можливі й інші недоліки мови, однак вони, ймовірно, надають менш істотне вплив на характеристики системи. Дефекти або аномалії в ієрархічній структурі словника можуть призвести до втрат і шумів. Розглянемо, наприклад, пошук за темою «Процеси розвитку, регенерації та дегенерації нервової системи».
Одна зі стратегій включає пошук по терміну «Загоєння ран» і будь-якому терміну з ієрархічного дерева поняття «Хвороби нервової системи» (тобто родової пошук по хворобах нервової системи). Ця ієрархія включає, на жаль, термін «Біль», і комбінація «Біль» і «Загоєння ран» призводить до видачі ряду абсолютно нерелевантних документів, включаючи документи по геморою. Невдачі при пошуку можуть бути також наслідком недосконалості системи перехресних посилань у тезаурус. Наприклад, пошук ведеться за темою «Конструктивна стійкість стільникових стрижнів» з використанням термінів «Стійкість» і «Нестійкість». Але ці терміни не пов'язані в тезаурус з іншими термінами, що мають певне відношення до «стійкості» У текстах документів по будівельній техніці (наприклад, «Руйнування» і «Втома»). Результатом цього будуть втрати.
Існують два різних типи невдач, обумовлених недоліками процесу індексування: 1) невдачі, викликані помилками індексатора, і 2) невдачі, які є наслідком рішення щодо середнього числа термінів, приписуваних документу при індексуванні. У свою чергу помилки індексатора можуть бути також двох типів: а) пропуски терміна або термінів, необхідних для опису важливих тем, обговорюваних в документі, і 2) використання термінів, які не відповідають предметного змісту документа. Пропуски зазвичай призводять до втрат, в той час як використання невідповідних термінів (тобто абсолютно невірне індексування) може викликати як шуми (особа, яка здійснює пошук, використовує цей термін в пошуковій стратегії і знаходить нерелевантні документи), так і втрати (особа, здійснює пошук, використовує правильний термін, але потрібний документ не буде знайдений, так як він представлений в масиві невірним терміном).
...