/>
Прийоми видалення неінформативних слів і підвищення суворості текстів:
Видалення стоп-слів. Стоп-словами називаються слова, які є допоміжними і несуть мало інформації про зміст документа.
Стеммінг - морфологічний пошук. Він полягає в перетворенні кожного слова до його нормальній формі.
Л-грами це альтернатива морфологічному розбору і видаленню стоп-слів. Дозволяють зробити текст більш суворим, не вирішують проблему зменшення кількості неінформативних слів;
Приведення регістра. Цей прийом полягає в перетворенні всіх символів до верхнього або нижнього регістру.
Найбільш ефективно спільне застосування всіх методів.
Завдання Text Mining
Класифікація (classification) - визначення для кожного документа однієї або декількох заздалегідь заданих категорій, до яких цей документ відноситься, автоматичне виявлення груп семантично схожих документів серед заданого фіксованого безлічі
Автоматичне анотування (summarization) скорочення тексту і збереження його сенсу. Результат включає в себе найбільш значущі пропозиції в тексті.
Витяги ключових понять (feature extraction) - ідентифікація фактів і відносин у тексті (імена іменники і прозивні: імена та прізвища людей, назви організацій та ін.)
Навігація по тексту (text-base navigation) переміщення в документах з певних тем і термінам. Це виконується за рахунок ідентифікації ключових понять і деяких відносин між ними.
Аналіз трендів дозволяє ідентифікувати тренди в наборах документів на якийсь період часу.
Пошук асоціацій. У заданому наборі документів ідентифікуються асоціативні відносини між ключовими поняттями.
Існує досить велика кількість різновидів перерахованих завдань, а також методів їх вирішення. Це ще раз підтверджує значущість аналізу текстів.
Приклади засоби аналізу текстової інформації:
Засоби Oracle - Oracle Text2.
Кошти від IBM - Intelligent Miner for Text1
Засоби SAS Institute - Text Miner
Інтелектуальний аналіз даних Data Mining
Інтелектуальний аналізу даних (англ. Data mining, інші варіанти перекладу - «видобуток даних», «розкопка даних») - виявлення неявних закономірностей у наборах даних.
Інтелектуальний аналіз даних може проводитися за допомогою програмних продуктів наступних класів:
· спеціалізованих «коробкових» програмних продуктів для інтелектуального аналізу;
· математичних пакетів;
· електронних таблиць (і різного роду надбудов над ними);
· коштів інтегрованих в системи управління базами даних (СКБД);
· інших програмних продуктів.
Завдання інтелектуального аналізу даних:
Завдання класифікації визначення категорії і класу кожному об'єкту.
Завдання регресії - пошук шаблонів для визначення числового значення.
Завдання пр...