Теми рефератів
> Реферати > Курсові роботи > Звіти з практики > Курсові проекти > Питання та відповіді > Ессе > Доклади > Учбові матеріали > Контрольні роботи > Методички > Лекції > Твори > Підручники > Статті Контакти
Реферати, твори, дипломи, практика » Новые рефераты » Методи статистичного аналізу тексту

Реферат Методи статистичного аналізу тексту





fy"> Підводячи підсумки можна резюмувати: для того щоб правильно сформувати і підібрати ключові слова потрібно спершу провести аналітичну роботу, а саме виявити які саме запити є найбільш частими. Важливо не тільки які саме користувачі мережі шукають слова, а в яких саме відмінках і числах вони їх вживають. p align="justify"> Знаючи всі перераховані вище правила можна створювати сайти, рейтинг яких за відвідуваністю буде набагато вище конкурентів. p align="justify"> 3. Закон Бредфорда - Ціпфа


Наприкінці 40-х років минулого сторіччя Дж. Ціпфа, зібравши величезний статистичний матеріал, спробував показати, що розподіл слів природної мови підпорядковується одному простому закону, який можна сформулювати наступним чином. Якщо до якого-небудь досить великому тексту скласти список всіх зустрілися в ньому слів, потім розташувати ці слова в порядку убування частоти їх зустрічальності в даному тексті і пронумерувати в порядку від 1 (порядковий номер найбільш часто зустрічається слова) до R, то для будь-якого слова твір його порядкового номера (рангу) в такому списку і частоти його зустрічальності в тексті буде величиною постійною, що має приблизно однакове значення для будь-якого слова з цього списку. Аналітично закон Ціпфа може бути виражений у вигляді:

= c,


де f - частота народження слова в тексті; - ранг (порядковий номер) слова в списку;

с - емпірична постійна величина.

Отримана залежність графічно виражається гіперболою. Дослідивши таким чином найрізноманітніші тексти і мови, в тому числі мови тисячолітньої давності, Дж. Ціпфа для кожного з них побудував зазначені залежності, при цьому всі криві мали однакову форму - форму В«гіперболічної сходиВ», тобто при заміні одного тексту іншим загальний характер розподілу не змінювався.

Закон Ціпфа був відкритий експериментально. Пізніше Б. Мандельброт запропонував його теоретичне обгрунтування. Він вважав, що можна порівнювати письмову мову з кодуванням, причому всі знаки повинні мати певну В«вартістьВ». Виходячи з вимог мінімальної вартості повідомлень, Б. Мандельброт математичним шляхом прийшов до аналогічної законом Ціпфа залежності

? = c,


де ? - величина (близька до одиниці), яка може змінюватися в залежності від властивостей тексту.

Дж. Ціпфом та іншими дослідниками було встановлено, що такому розподілу підпорядковуються не тільки всі природні мови світу, але й інші явища соціального і біологічного характеру: розподілу вчених за кількістю опублікованих ними статей (А. Лотка, 1926 р.), міст США за чисельністю населення ( Дж. Ціпфа, 1949 р.), населення за розмірами доходу в капіталістичних країнах (В. Парето, 1897 р.), біологічних пологів за чисельністю видів (Дж....


Назад | сторінка 5 з 15 | Наступна сторінка





Схожі реферати:

  • Реферат на тему: Склад слова і методика його вивчення на уроках російської мови в початковій ...
  • Реферат на тему: Застарілі слова та неологізми в різних стилях мови
  • Реферат на тему: Вплив художнього слова на розвиток мови дітей 5 року життя
  • Реферат на тему: Формування складової структури слова у дошкільників із загальним недорозвин ...
  • Реферат на тему: Літері англійського алфавіту, слова. Ігри на уроках англійської мови