Теми рефератів
> Реферати > Курсові роботи > Звіти з практики > Курсові проекти > Питання та відповіді > Ессе > Доклади > Учбові матеріали > Контрольні роботи > Методички > Лекції > Твори > Підручники > Статті Контакти
Реферати, твори, дипломи, практика » Новые рефераты » Сучасні пошукові системи

Реферат Сучасні пошукові системи





овірність слова в тексті залежить тільки від попереднього слова. Тоді наша формула для розрахунку фрази прийме наступний вигляд:

=P (щастя) * P (є | щастя) * P (задоволення | є) * P (без | задоволення) * P (каяття | без)


Вже простіше. Розрахувати умовну ймовірність P (є | щастя) нескладно. Для цього вважаємо кількість пар «щастя є» і ділимо на кількість в тексті слова «щастя».

В результаті, якщо ми порахуємо всі пари слів у деякому тексті, ми зможемо обчислити вірогідність довільної фрази. Цей набір розрахованих ймовірностей і буде біграммной моделлю. [14]

Саме така структура найбільш повно дозволяє індексувати як контекстуальні (текстові) ознаки аудіофайлів, так і виключно музичні ознаки (будуть розглянуті пізніше).

Повернемося до баз даних. В Інтернеті вже досить довго існують онлайн-бази музичних даних. У таких базах міститься довідкова інформація про безліч виконавців, альбомів, композицій. Їх називають CDDB. Більшість музичних сервісів і пошукових систем використовує ці первинні дані.

Якщо порівнювати пісню з людиною, то інформацію, що міститься в базах CDDB, можна порівняти з паспортними даними. Назва композиції, альбом, до складу якого вона входить, ім'я виконавця або назву групи - це її ПІБ. Але потрібен номер паспорта. Його роль грає унікальний ідентифікатор CD, з тією відмінністю, що він відноситься не до одного треку, а до їх групі.



Звідки береться цей ідентифікатор? Так як творці стандарту аудіо-CD в свій час ніяк не могли планувати існування треків з CD поза самого CD, то вони не передбачили на диску ніякої ідентифікаційної інформації. Таким чином, компакт-диск за замовчуванням - людина без паспорта. Його самого треба пізнати.

Якщо продовжити аналогію з людиною, то зробити це можна за його прикметами. Для CD це буде поєднання кількості аудіофайлів та їх тривалості. Разом вони дають досить унікальну картину. Так і працюють CDDB - в їх базах зберігаються унікальні ідентифікатори CD, розраховані на підставі даних про число, послідовності і тривалості треків - «фоторобот» диска. Програма-клієнт на ПК користувача створює такий «фоторобот» для диска, що підлягає ідентифікації, з'єднується через Інтернет з базою і шукає в ній співпадає за прикметами диск. Подібним чином можуть опізнаватися як фізичні CD-диски, так і їх стислі в MP3 і інші формати копії, головне, щоб збереглася унікальна структура.

В ідеалі у музики мають бути «встановлюють особу документи» або «особливі прикмети». Для композицій на носії - CD - це унікальні параметри диска, що дозволяють відновити всі дані по базах CDDB. Для оцифрованої музики це метадані.

В реальності ж все не так просто. Що робити, якщо аудіофайл позбавлений будь-яких прийме? Таких ситуацій може бути чимало: запис з радіо, безвісний файл, скачаний з інтернету, запис з диктофона, оцифрована аналогова запис.

У випадку з людиною на допомогу приходять відбитки пальців. Це працює і для пісень.

Акустичні «відбитки пальців»- Це витримка з цифрового аудіофайлу, мінімальний обсяг інформації, за якою його можна достовірно встановити. Зазвичай це невеликий масив даних, до 10 КБ. Принципово, що «відбитки», містять чисто музичні характеристики - ритм, забарвлення звучання, інформацію про мелодії - і не залежать від конкретного файлу, з якого о...


Назад | сторінка 12 з 21 | Наступна сторінка





Схожі реферати:

  • Реферат на тему: Як бути, якщо контрагент за договором - нерезидент?
  • Реферат на тему: Програма управління базою даних, яка містить інформацію про читачів, книгах ...
  • Реферат на тему: Щастя: поняття і форма існування
  • Реферат на тему: Розподілена база даних. Предметна область: музичні диски
  • Реферат на тему: Пізнання людиною світу і самого себе