Теми рефератів
> Реферати > Курсові роботи > Звіти з практики > Курсові проекти > Питання та відповіді > Ессе > Доклади > Учбові матеріали > Контрольні роботи > Методички > Лекції > Твори > Підручники > Статті Контакти
Реферати, твори, дипломи, практика » Новые рефераты » Комп'ютерний аналіз тексту

Реферат Комп'ютерний аналіз тексту





артин, відповідають введеному в систему тексту.


2.2 Проблеми комп'ютерного аналізу тексту


Комп'ютерний аналіз тексту на природній мові активно розвивається в останні роки багатьма колективами. Доступні сьогодні обчислювальні потужності дозволяють застосовувати для обробки великих масивів документів широкий клас математичних методів, що сприяють ефективному вирішенню завдань пошуку, класифікації, кластерного аналізу, виявлення прихованих закономірностей в даних.

На жаль, впровадження математичних методів в обробку тексту відбувається в той час, коли власне лінгвістична складова алгоритмів представлена ​​явно недостатньо, і це не дозволяє досягти високого якості роботи прикладних систем. Стійкий ухил в область статистичних методів аналізу привів до того, що комп'ютерна лінгвістика виявилася незатребуваною. Справді, у всіх відомих російськомовних системах подібного класу з лінгвістичного забезпечення використовується лише морфологічний словник, дозволяє ототожнювати різні словоформи, тоді як алгоритми синтаксичного аналізу реалізовані виключно в автоматичних перекладачах і викликають безліч нарікань у зв'язку з невисокою точністю.

Поговоримо про проблеми комп'ютерної лінгвістики, що стосуються, насамперед граматичного розбору тексту на природній мові. Створення якісного синтаксичного аналізатора дозволяє сподіватися на ефективне рішення задачі пошуку в інформації на природній мові.

Складність практичної реалізації прийнятного аналізатора тексту обумовлена ​​наявністю тісного зв'язку між синтаксисом і над'язикових семантикою. Для вирішення проблем (званих синтаксичної омонімією) необхідно створення спеціального толково-комбінаторного словника, що включає в себе синтаксичну і семантичну інформацію про сполучуваність слів.

Формально метою синтаксичного розбору є побудова дерева залежностей між словами у фразі. У випадку удачі пропозицію згортається в повнозв'язну дерево з єдиною кореневої вершиною. Оскільки одна словоформа може відповідати декільком граматичним формам слова, в тому числі для різних слів (наприклад, "стали" у іменника "сталь" і дієслова "стати"), в ході аналізу необхідно проводити згортку пропозиції для всіх можливих варіантів. Ті ж з них, які призводять до максимальної згортку фрази (з мінімальним числом висячих вершин), пропонується вважати найбільш вірогідними при розборі пропозиції.

Порядок застосування правил розбору управляється його алгоритмом, який на кожному кроці перевіряє можливість застосування наступного правила до чергового фрагменту фрази (двом-трьом словами, знаків пунктуації). У разі удачі фрагмент згортається. Зазвичай це призводить до його заміни одним головним словом, тобто видаленням підлеглих слів. Після чого розбір триває. Якщо подальше застосування правил неможливо, на будь-якому з кроків вчиняється відкат. При цьому останній згорнутий фрагмент відновлюється, і робиться спроба застосувати інші правила. Остаточним варіантом розбору слід вважати таку послідовність застосування правил, яка призводить до максимальної згортку пропозиції.

Так як процесу розбору відповідає ціле дерево варіантів згортки фрази, то продуктивність алгоритму падає експоненціально з ростом числа використовуваних правил і кількості слів у реченні. Складні пропозиції можуть породжувати тисячі варіантів розбору, через що на практиці доводиться обмежувати допустиму кількість розглянутих варіантів.

Найбільш просто вирішується проблема виділення в тексті іменних груп - стійких словосполучень, що складаються з іменників і пов'язаних з ними прикметників, наприклад "розвиток сільського господарства". Такі групи характеризують зміст тексту і служать для тематичного індексування, автоматичної рубрикації, уточнення запиту під час пошуку.

У ході повного синтаксичного розбору фрази можливо встановлення синтаксичних ролей іменних груп у реченні. Це дозволяє ранжувати їх за ступенем значущості для автора, що відповідає розумінню ключових ідей тексту. Найбільш важливими є слова з групи підмета, потім присудка, прямого доповнення, непрямого доповнення, обставини - такі особливості російської мови.

Смислова зв'язок між поняттями пропозиції в загальному випадку може бути описана дієсловом-предикатом, аргументами якого виступають дані поняття. Встановлення таких синтактико-семантичних зв'язків дозволяє сформувати логічну схему ситуації, описуваної у фразі.

Однак для цього потрібно словник моделей управління дієслів. У такому словнику для всіх дієслів (близько 20 тис. на російській мові) повинно бути вказано, якими відмінками і з якими приводами виробляється це управління.

Вершиною комп'ютерного аналізу тексту є автоматичне реферування. Наявність семантичної мережі понять, з'єднаних дієсловами, дозволяє сформулювати основні ідеї тексту документа, відображені в часто зустрічаються поняттях і зв'язках, у вигляді прости...


Назад | сторінка 4 з 9 | Наступна сторінка





Схожі реферати:

  • Реферат на тему: Розробка алгоритму роботи синтаксичного аналізатора тексту, а також бази да ...
  • Реферат на тему: Семантичні мережі. Системи аналізу тексту і синтезу мови
  • Реферат на тему: Методи статистичного аналізу тексту
  • Реферат на тему: Гендерні параметри аналізу художнього тексту
  • Реферат на тему: Розробка програми перекладу введеного рядка тексту в послідовність кодів аб ...