Технології аналізу даних (Text Mining, Data Mining) 
     Автор : Казьміна Анастасія, 4 курс. 
   Керівник : Баяндін Микола Іванович. 
   Освітня установа : Федеральне державне бюджетна установа вищої професійної освіти «Московський державний університет економіки, статистики та інформатики (МЕСІ)», м. Москва 
  Хто володіє інформацією - той володіє світом. У наш час важко переоцінити значення аналітики та моніторингу соціальних медіа. Для швидкого і успішного розвитку бізнесу та ефективного просування в інтернет, ці етапи просто необхідні. 
  На сьогоднішній день, все більшої популярності набувають завдання, пов'язані з отриманням і накопиченням нових знань шляхом аналізу раніше отриманої інформації. Виникла необхідність у створенні великих сховищ даних і систем підтримки прийняття рішень. 
  Розглянемо докладніше технологію аналізу даних. 
    Найбільш перспективні напрямки аналізу даних: 
  · аналіз текстової інформації 
  · інтелектуальний аналіз даних 
				
				
				
				
			   1. Аналіз текстової інформації Text Mining  
   Аналіз структурованої інформації, що зберігається в базах даних, вимагає попередньої обробки: проектування БД, введення інформації за певними правилами, розміщення її в спеціальних структурах (наприклад, реляційних таблицях) і т.п. Текстові документи практично неможливо перетворити в табличне представлення без втрати семантики тексту і відносин між сутностями. З цієї причини такі документи зберігаються в БД без перетворень, як текстові поля (BLOB-поля). В цей же час у тексті приховано величезну кількість інформації, але її неструктурованість не дозволяє використовувати алгоритми Data Mining. Рішенням цієї проблеми займаються методи аналізу неструктурованого тексту (Text Mining). 
  Визначення Text Mining: Виявлення знань у тексті - це нетривіальний процес виявлення дійсно нових, потенційно корисних і зрозумілих шаблонів в неструктурованих текстових даних. «Неструктуровані текстові дані»- Набір документів, що представляють собою логічно об'єднаний текст без будь-яких обмежень на його структуру (web-сторінки, електронна пошта, нормативні документи). 
  Процес аналізу текстових документів можна представити як послідовність декількох кроків: 
 . Пошук інформації. У першу чергу необхідно зрозуміти, які документи потрібно піддати аналізу плюс забезпечити доступ. Користувачі можуть визначити набір аналізованих документів самостійно - вручну. 
 . Попередня обробка документів. Виконуються необхідні перетворення з документами для подання їх в потрібному вигляді. Видалення зайвих слів і додання тексту більш суворої форми. 
 . Витяг інформації. Виділення ключових понять для аналізу. 
 . Застосування методів Text Mining. Витягуються шаблони і відносини, наявні в текстах. 
 . Інтерпретація результатів. Представленні результатів на природній мові, або в їх візуалізації в графічному вигляді. 
    Попередня обробка документа