Зміст
Введення
1. Збір та підготовка даних
2. Двохфакторну дисперсний аналіз
2.1 Частина мови: іменник
2.2 Частина мови: дієслово
2.3 Частина мови: ім'я прикметник
2.4 Службові частини мови
Висновок
Введення
Сьогодні однією з найактуальніших завдань видавничої справи є моделювання та оптимізація редакційно-видавничих процесів. Математичне моделювання типових технологічних процесів використовується для статистичного аналізу та прогнозування з метою забезпечення ефективної роботи видавництва.
Основою даного курсового проекту є статистичний аналіз тексту на основі його морфологічних характеристик. Тобто в будь-якому творі вибирається за три уривки величиною рівно в 100, 200, 300, 400 і 500 символів. Творів різних авторів має бути три, відповідно в сумі буде проаналізовано 15 уривків. У кожному уривку необхідно підрахувати кількість іменників, прикметників, дієслів і службових частин мови - тобто проаналізувати текст з морфологічної точки зору. При цьому інші частини мови також складають певний відсоток від загального обсягу, але в подальших розрахунках не беруть участь.
Морфологічний склад тексту розглядається в залежності від двох факторів: обсягу текстового уривка та авторського стилю. Збір та аналіз статистичних даних здійснюється на основі методу дисперсійного, або варіантного, аналізу, розробленого англійським математиком і біологом Робертом Фішером для потреб біологічної статистики.
1. Збір та підготовка даних
Вплив тих чи інших факторів ніколи не може бути виділене в чистому вигляді. Пояснюється це тим, що на результати дослідів впливають численні випадкові обставини, фактори, мінливі від досвіду до досвіду і не піддаються контролю. Метод дисперсного аналізу дозволяє врахувати вплив та основних чинників, і безлічі випадкових, неконтрольованих.
Для проведення дисперсного аналізу було підраховано кількість різних частин мови (іменників, дієслів, прикметників і службових) - так звані варіанти , - в уривках з 3 творів : «Єва Луна» Ісабель Альєнде, «Друга спроба. Управління випадковостями » Катерини Тільман і «Крижаний палац» Френсіса Скотта Фіцджеральда.
Для аналізу впливу обсягу тексту з кожного твору було взято 15 уривків величиною 100, 200, 300, 400 і 500 символів. Причому на кожен обсяг припадає по три різних уривка - для визначення відхилення в групі. Для аналізу впливу авторського стилю були вивчені твори трьох авторів. У сукупності зібрані дані використовувалися для описаного нижче двухфакторного дисперсного аналізу.
Таблиця 1.1
Текст 1. Ісабель Альєнде, «Єва Луна»
СімволиОтривок100Меня звуть Єва, що означає життя, принаймні, так було написано в книзі, за якою мама вибіСначала їх шлях на каное лежав по нескінченних притоках величезної річки, через запаморочливі, подавОна відмовлялася вірити, що жалюгідне , чахле сонце, висвітлює монастирський двір, і є те саме не200Я народилася в самій дальній кімнаті темного, похмурого будинку і росла серед старих меблів, книг на латині...