Реферат Розробка алгоритму та програми автоматичного оброблення матеріалів для інформаційного ресурсу

Тема: Новые рефераты

юдини формується в процесі взаємодії з навколишнім світом. Людина живе у світі, який постійно, але відносно повільно, змінюється. Тому можна припустити, що статистичні характеристики Сло у міру накопичення досвіду стають все більш стійкими і все більш концентрують життєво важливу інформацію.

У математичній формулюванні накопичення Сло можна розглядати як стаціонарний випадковий процес, з частотами подій, які прагнуть до деяких переділів. Ці гіпотетичні межі визначають генеральну сукупність, що характеризує індивідуума, а Сло індивідуума в кожен момент часу можна розглядати як нагромаджувальний вибірковий матеріал. У першому наближенні зручно знехтувати дискурсом і припустити, що пропозиції і фрази слідують в Сло статистично незалежно. Тоді Сло представляє вибірку з безлічі незалежних реалізацій пропозицій або фраз ЕЯ.

В інформаційному підході до аналізу текстів абсолютно випадковий текст зв'язується з довільною нічого не значущою інформацією («статистичними шумом»). Значиму інформацію несуть закономірності в чергуванні букв і слів у тексті. За відсутності апріорної інформації єдиний спосіб ідентифікації цих закономірностей полягає в реєстрації повторень фрагментів тексту в Сло. Кожне апріорі досить малоймовірне повторення фрагмента тексту в корпусі несе інформацію про закономірності в текстах ЕЯ і про закономірності в досвіді взаємодії людини з оточенням. Для оцінки ймовірності повторення фрагментів тексту слід ввести Н0-гіпотезу про відсутність закономірностей, тобто про випадковий проходженні слів у тексті. Повторення деяких фрагментів в корпусі може бути настільки малоймовірним, що його можна вважати не випадковим, а спеціально передбаченим.

У рамках інформаційної концепції сенс кожної фрази, кожного пропозиції та документа визначається лише тільки на тлі попереднього (або осяжний) тексту і вимірюється кількістю нової інформації, яку цей фрагмент несе. Розглянемо завдання вилікування термінів з наукових документів. Нехай для статистичного виявлення сенсу залучаються контрастні фонові тексти.

Нехай X - текст досліджуваного документа.

Нехай R - достатньо повний корпус текстів з області науки, яка містить X.

Нехай T - достатньо повний корпус фонових загальнонаукових або загальномовних документів.

Тоді слово або фраза х з X вважається терміном, якщо x міститься в R, але x не міститься в T.

Слово або фраза х з Х не рахується терміном, якщо х міститься в Т.

Слово або фраза х з X вважається авторським виразом (авторським кліше), якщо x міститься в T, але x не міститься в R.

Виділення смислових областей тексту, одне із завдань семантики. У розглянутому проекті, використовується так звана семантика наукових публікацій. Наукову термінологію зазвичай виділяють з опорою на наявні спеціальні словники. Для автоматичного вилучення термінів можна використовувати різницю частот слів і фраз у текстах обраної вузької спеціальності на тлі текстів більш широких областей («віднімання частот», «контрастний метод»).

Рисунок 3.2 Витяги смисловий області

Комбінація цих методів дає можливість ефективно витягувати також багатослівну термінологію. Однак, цей спосіб виділення термінів ефективний тільки при обробці всіх або бі...

Назад | сторінка 22 з 44 | Наступна сторінка

Схожі реферати:

Реферат на тему: Немає нічого більш складного і тому більш цінного, ніж мати можливість прий ...

Реферат на тему: Анексія Криму, як можна вірішіті Конфлікт України с Россией чі можна его ві ...

Реферат на тему: Текст як мовна одиниця. Ознаки тексту

Реферат на тему: Розробка алгоритму роботи синтаксичного аналізатора тексту, а також бази да ...

Реферат на тему: Практика виділення ключових знаків журналістського тексту

Український реферат переглянуто разів: | Коментарів до українського реферату:

Коментарів до українського реферату: 0