Технології аналізу даних (Text Mining, Data Mining)
Автор : Казьміна Анастасія, 4 курс.
Керівник : Баяндін Микола Іванович.
Освітня установа : Федеральне державне бюджетна установа вищої професійної освіти «Московський державний університет економіки, статистики та інформатики (МЕСІ)», м. Москва
Хто володіє інформацією - той володіє світом. У наш час важко переоцінити значення аналітики та моніторингу соціальних медіа. Для швидкого і успішного розвитку бізнесу та ефективного просування в інтернет, ці етапи просто необхідні.
На сьогоднішній день, все більшої популярності набувають завдання, пов'язані з отриманням і накопиченням нових знань шляхом аналізу раніше отриманої інформації. Виникла необхідність у створенні великих сховищ даних і систем підтримки прийняття рішень.
Розглянемо докладніше технологію аналізу даних.
Найбільш перспективні напрямки аналізу даних:
· аналіз текстової інформації
· інтелектуальний аналіз даних
1. Аналіз текстової інформації Text Mining
Аналіз структурованої інформації, що зберігається в базах даних, вимагає попередньої обробки: проектування БД, введення інформації за певними правилами, розміщення її в спеціальних структурах (наприклад, реляційних таблицях) і т.п. Текстові документи практично неможливо перетворити в табличне представлення без втрати семантики тексту і відносин між сутностями. З цієї причини такі документи зберігаються в БД без перетворень, як текстові поля (BLOB-поля). В цей же час у тексті приховано величезну кількість інформації, але її неструктурованість не дозволяє використовувати алгоритми Data Mining. Рішенням цієї проблеми займаються методи аналізу неструктурованого тексту (Text Mining).
Визначення Text Mining: Виявлення знань у тексті - це нетривіальний процес виявлення дійсно нових, потенційно корисних і зрозумілих шаблонів в неструктурованих текстових даних. «Неструктуровані текстові дані»- Набір документів, що представляють собою логічно об'єднаний текст без будь-яких обмежень на його структуру (web-сторінки, електронна пошта, нормативні документи).
Процес аналізу текстових документів можна представити як послідовність декількох кроків:
. Пошук інформації. У першу чергу необхідно зрозуміти, які документи потрібно піддати аналізу плюс забезпечити доступ. Користувачі можуть визначити набір аналізованих документів самостійно - вручну.
. Попередня обробка документів. Виконуються необхідні перетворення з документами для подання їх в потрібному вигляді. Видалення зайвих слів і додання тексту більш суворої форми.
. Витяг інформації. Виділення ключових понять для аналізу.
. Застосування методів Text Mining. Витягуються шаблони і відносини, наявні в текстах.
. Інтерпретація результатів. Представленні результатів на природній мові, або в їх візуалізації в графічному вигляді.
Попередня обробка документа