Теми рефератів
> Реферати > Курсові роботи > Звіти з практики > Курсові проекти > Питання та відповіді > Ессе > Доклади > Учбові матеріали > Контрольні роботи > Методички > Лекції > Твори > Підручники > Статті Контакти
Реферати, твори, дипломи, практика » Новые рефераты » Комп'ютерний аналіз тексту

Реферат Комп'ютерний аналіз тексту





х пропозицій.

Словник моделей управління та семантичної мережі з диференційованими зв'язками значно полегшує подібний синтез. Окремою проблемою є вибір оптимального порядку фраз. Можливо, при цьому буде корисно знання комунікативної структури тексту - ієрархії тем і рем, яка відображає логіку викладу автором матеріалу. Завдання тема-рематіческіе аналізу вирішується в ході синтаксичного розбору фрази: поняття з групи підмета представляють теми; поняття-додатки дієслова - реми, які можуть стати темами подальших фраз; обставини - лише якийсь фон, на якому розгортаються описувані події.

Загальна схема подібного аналізу тексту наведена на малюнку.

В 

Загальна схема синтаксичного аналізу тексту в інформаційно-пошуковій системі


На закінчення хотілося б відзначити, що, незважаючи на обмеженість синтаксичних аналізаторів, що працюють поки без залучення семантики, їх застосування вже зараз відкриває якісно нові можливості для систем комп'ютерного аналізу тексту. Синтаксичний аналізатор російської мови, реалізує виділення іменних груп і зняття омонімії, вже впроваджується в пошукові системи.


2.3 Витяг інформації


Витяг інформації (англ. information extraction ) - в області обробки природної мови, це різновид інформаційного пошуку, при якій з неструктурованого машинно-читаного тексту (тобто електронних документів) виділяється якась структурована інформація, тобто категоризувати, семантично значущі дані з якої-небудь проблеми або питання. Прикладом вилучення інформації може послужити вишукування випадків ділових візитів - формально це записується так: Завдали Візит (Компанія-Хто, Компанія-Кому, Дата Візиту), - з новинних стрічок, таких як: "Вчора, 1 квітня 2007 року, представники корпорації Пепелац Інтернешнл відвідали офіс компанії гравіцапа Продакшнз ". Головна мета такого перетворення - можливість аналізу спочатку "хаотичною" інформації за допомогою стандартних методів обробки даних. Вужчої метою може служити, наприклад, завдання виявити логічні закономірності в описаних у тексті подіях.

У сучасних інформаційних технологіях роль такої процедури, як вилучення інформації, все більше зростає - через стрімкого збільшення кількості неструктурованою (без метаданих) інформації, зокрема, в Інтернеті. Ця інформація може бути зроблена більш структурованої за допомогою перетворення в реляційну форму або додаванням XML розмітки. При моніторингу новинних стрічок за допомогою інтелектуальних агентів якраз і будуть потрібні методи добування інформації і перетворення її в таку форму, з якої буде зручніше працювати пізніше.

В· Типова задача добування інформації: просканувати набір документів, написаних на природній мові, і наповнити базу даних виділеної корисною інформацією. Сучасні підходи вилучення інформації використовують методи обробки природної мови , спрямовані лише на дуже обмежений набір тем (Питань, проблем) - часто лише на одну тему. p> Тексти на природній мові можуть зажадати якогось попереднього спрощення, для створення тексту, який буде краще "розумітися" комп'ютером.

Типові підзадачі вилучення інформації:

В· Розпізнавання іменованих елементів: розпізнавання імен людей, назв організацій, місць, тимчасових позначень і деяких типів чисельних виразів.

В· Посилання: виділення словесних оборотів, що посилаються на один і той же об'єкт. Типовий випадок таких посилань - анафора і використання займенників.

В· Виділення термінології: знаходження для даного тексту ключових слів.


2.4 Обробка природної мови


Обробка природної мови - загальний напрямок штучного інтелекту і математичної лінгвістики. Воно вивчає проблеми комп'ютерного аналізу та синтезу природних мов. Стосовно до штучного інтелекту аналіз означає розуміння мови, а синтез - генерацію грамотного тексту. Вирішення цих проблем означатиме створення більш зручної форми взаємодії комп'ютера і людини.

Завдання і обмеження.

Теоретично, побудова природничо-мовного інтерфейсу для комп'ютерів - дуже приваблива мета. Ранні системи, такі як SHRDLU, працюючи з обмеженим "світом кубиків "і використовуючи обмежений словниковий запас, виглядали надзвичайно добре, надихаючи цим своїх творців. Однак оптимізм швидко вичерпався, коли ці системи зіткнулися зі складністю і неоднозначністю реального світу.

Розуміння природної мови іноді вважають AI-повній завданням, тому як розпізнавання живої мови вимагає величезних знань системи про навколишній світ і можливості з ним взаємодіяти. Саме визначення сенсу слова "розуміти" - одне з головних завдань штучного інтелекту.

Складнощі розуміння.

Якість розуміння залежить від безлічі факторів: від мови, від національної культури, від самого співрозмовника. Ось деякі приклади складнощів, з якими стикаються системи розуміння текстів.

В· Пропозиції "Ми віддали банани мавпам, тому...


Назад | сторінка 5 з 9 | Наступна сторінка





Схожі реферати:

  • Реферат на тему: Семантичні мережі. Системи аналізу тексту і синтезу мови
  • Реферат на тему: Розробка алгоритму роботи синтаксичного аналізатора тексту, а також бази да ...
  • Реферат на тему: Особливості мови медичного науково-популярного тексту і проблеми перекладу ...
  • Реферат на тему: Ветвящаяся або послідовна форма тексту як детермінанта довіри до інформації
  • Реферат на тему: Обробка текстової інформації засобом мови JAVA