Теми рефератів
> Реферати > Курсові роботи > Звіти з практики > Курсові проекти > Питання та відповіді > Ессе > Доклади > Учбові матеріали > Контрольні роботи > Методички > Лекції > Твори > Підручники > Статті Контакти
Реферати, твори, дипломи, практика » Новые рефераты » Розробка алгоритму та програми автоматичного оброблення матеріалів для інформаційного ресурсу

Реферат Розробка алгоритму та програми автоматичного оброблення матеріалів для інформаційного ресурсу





сь понятійної областю. Першим завданням тут є підбір достатньої кількості літератури для порівняння. Чим більше звіряльні текстів ми підберемо, тим більш достовірним буде список ключових слів. Але при підборі даних текстів слід враховувати їх тематику. Ні в якому разі не можна допускати перетину тематики з основним текстом, для недопущення видалення частини ключового кластера. Будемо вважати, що Але припустимо потрібну кількість літератури підібрано, в такому випадку необхідний інструмент звірки величезної кількості текстів за прийнятний час. Для здійснення методу «віднімання частот» скористаємося програмою WordTabulator.


Малюнок 4.3 Схема роботи модуля отримання ключових слів


В папку Безліч вхідних текстів виробляємо завантаження текстів. У папку Безліч винятків завантажуємо тексти для звірки (еталонні тексти). Рекомендується завантажувати текст у форматі. Txt, так цей формат не потребує перекодировке, а отже збільшується швидкість обробки. Файл Еталон включає в себе близько 10 Мб художньої літератури для звірки. Розглянемо приклад, виберемо файл тексту Революція у фізиці, автор Луї Де Бройль. Текст підходить нам, так, як є технічно спеціалізованим, і отриманий нами список ключових слів, буде більш адекватним розглянутій задачі. Звернемося до програми WordTabulator і відтворимо початковий фрейм.


Малюнок 4.4 Фрейм запуску програми WordTabulator


В меню Опції проекту вибираємо обробку винятків Віднімання, кодування Win - 1251 і задаємо файл вихідного результату.


Малюнок 4.5 Фрейм налаштування параметрів аналізу


Проведене дослідження програми показало, що порівняння текстів, загальним обсягом понад 11 Мб, відбувається за 12, 7 сек. Після відпрацювання програми, у файлі Вихідного індексу ми отримаємо список слів за алфавітом з частотою їх появи в тексті. Він і буде шуканим списком ключових слів даного тексту. Формат представлення даних у файлі, описаний в таблиці 4.1.


Таблиця 4.1 Приклад розрахунку частоти ключових слів

№ п / пЧастота вживання словавиделяемое Слово6903коэффициента6912коэффициентов

Малюнок 4.6 Фрейм позиціонування ключових слів


На цьому етап початкової обробки тексту, і зокрема отримання ключових слів, закінчується. Подальша обробка буде будуватися на їх сортування і угрупуванню.


4.3 Угруповання ключових слів


Угрупування ключових слів, один з найважливіших етапів обробки тексту, для подальшої побудови тесту. Але для повного поняття того, як слід проводити угруповання, необхідно зрозуміти, як зрештою, повинен виглядати наш тест. Для кінцевого виду була обрана форма, при якій з обраного пропозиції видаляється ключове слово, з позначенням пропуску, і на вибір надається чотири варіанти відповіді.


Таблиця 4.2 Структура одного питання тесту

Текст пропозиція - судження з виділеним місцем вставки словоформи [...] 1Словоформа (неправда) 2Словоформа (істина) 3Словоформа (неправда) 4Словоформа (неправда)

Одним з варіантів є істинне слово, три інших варіанти є також ключовими словами тексту, але вони, відповідно для цієї пропозиції помилкові. При та...


Назад | сторінка 31 з 44 | Наступна сторінка





Схожі реферати:

  • Реферат на тему: Розпізнавання ключових слів у потоці мовлення за допомогою фонетичного стен ...
  • Реферат на тему: Створення програми "Підрахунок частоти введених слів у текстовому файл ...
  • Реферат на тему: Практика виділення ключових знаків журналістського тексту
  • Реферат на тему: Методика розрахунку ключових фінансових показників
  • Реферат на тему: Сортування вводяться з клавіатури слів