овірність слова в тексті залежить тільки від попереднього слова. Тоді наша формула для розрахунку фрази прийме наступний вигляд:
=P (щастя) * P (є | щастя) * P (задоволення | є) * P (без | задоволення) * P (каяття | без)
Вже простіше. Розрахувати умовну ймовірність P (є | щастя) нескладно. Для цього вважаємо кількість пар «щастя є» і ділимо на кількість в тексті слова «щастя».
В результаті, якщо ми порахуємо всі пари слів у деякому тексті, ми зможемо обчислити вірогідність довільної фрази. Цей набір розрахованих ймовірностей і буде біграммной моделлю. [14]
Саме така структура найбільш повно дозволяє індексувати як контекстуальні (текстові) ознаки аудіофайлів, так і виключно музичні ознаки (будуть розглянуті пізніше).
Повернемося до баз даних. В Інтернеті вже досить довго існують онлайн-бази музичних даних. У таких базах міститься довідкова інформація про безліч виконавців, альбомів, композицій. Їх називають CDDB. Більшість музичних сервісів і пошукових систем використовує ці первинні дані.
Якщо порівнювати пісню з людиною, то інформацію, що міститься в базах CDDB, можна порівняти з паспортними даними. Назва композиції, альбом, до складу якого вона входить, ім'я виконавця або назву групи - це її ПІБ. Але потрібен номер паспорта. Його роль грає унікальний ідентифікатор CD, з тією відмінністю, що він відноситься не до одного треку, а до їх групі.
Звідки береться цей ідентифікатор? Так як творці стандарту аудіо-CD в свій час ніяк не могли планувати існування треків з CD поза самого CD, то вони не передбачили на диску ніякої ідентифікаційної інформації. Таким чином, компакт-диск за замовчуванням - людина без паспорта. Його самого треба пізнати.
Якщо продовжити аналогію з людиною, то зробити це можна за його прикметами. Для CD це буде поєднання кількості аудіофайлів та їх тривалості. Разом вони дають досить унікальну картину. Так і працюють CDDB - в їх базах зберігаються унікальні ідентифікатори CD, розраховані на підставі даних про число, послідовності і тривалості треків - «фоторобот» диска. Програма-клієнт на ПК користувача створює такий «фоторобот» для диска, що підлягає ідентифікації, з'єднується через Інтернет з базою і шукає в ній співпадає за прикметами диск. Подібним чином можуть опізнаватися як фізичні CD-диски, так і їх стислі в MP3 і інші формати копії, головне, щоб збереглася унікальна структура.
В ідеалі у музики мають бути «встановлюють особу документи» або «особливі прикмети». Для композицій на носії - CD - це унікальні параметри диска, що дозволяють відновити всі дані по базах CDDB. Для оцифрованої музики це метадані.
В реальності ж все не так просто. Що робити, якщо аудіофайл позбавлений будь-яких прийме? Таких ситуацій може бути чимало: запис з радіо, безвісний файл, скачаний з інтернету, запис з диктофона, оцифрована аналогова запис.
У випадку з людиною на допомогу приходять відбитки пальців. Це працює і для пісень.
Акустичні «відбитки пальців»- Це витримка з цифрового аудіофайлу, мінімальний обсяг інформації, за якою його можна достовірно встановити. Зазвичай це невеликий масив даних, до 10 КБ. Принципово, що «відбитки», містять чисто музичні характеристики - ритм, забарвлення звучання, інформацію про мелодії - і не залежать від конкретного файлу, з якого о...