Глибина кодування звуку - це що таке? Визначення, формула

23-11-2017, 23:05

3 731

Кодування звуку відноситься до способів збереження і передачі аудіоданих. У наведеній нижче статті описується, як працюють такі кодування. Зауважимо, що це досить складна тема - "Глибина кодування звуку". Визначення цього поняття також буде дано в нашій статті. Представлені в статті концепції призначені тільки для загального огляду. Розкриємо поняття глибини кодування звуку. Деякі з цих довідкових даних можуть бути корисними для розуміння того, як працює API, а також як формулювати і обробляти аудіо у ваших додатках.

Як знайти глибину кодування звуку

Аудіоформат не еквівалентний аудиокодированию. Наприклад, популярний формат файлу, такий як WAV, визначає формат заголовка аудіофайлу, але сам по собі не є кодуванням звуку. WAV-файли часто, але не завжди використовують лінійну кодування PCM. У свою чергу, FLAC є форматом файлу, так і кодуванням, що іноді призводить до деякої плутанини. В межах Speech API FLAC глибина кодування звуку — це єдина кодування, яка вимагає, щоб аудіодані включали заголовок. Всі інші кодування вказують беззвучні аудіодані. Коли ми посилаємося на FLAC в Speech API, ми завжди посилаємося на кодек. Коли ми посилаємося на формат файлу FLAC, ми будемо використовувати формат «.FLAC».

Ви не зобов'язані вказувати кодування і частоту дискретизації для файлів WAV або FLAC. Якщо цей параметр опущений, API хмарної мови автоматично визначає кодування і частоту дискретизації для файлів WAV або FLAC на основі заголовка файлу. Якщо ви вкажете значення кодування або частоти дискретизації, яке не відповідає значенню в заголовку файлу API хмарної мови поверне помилку.

Глибина кодування звуку — це що таке?

Аудіо складається з осцилограм, що складаються з інтерполяції хвиль різних частот і амплітуд. Щоб уявити ці форми сигналів в цифрових середовищах, сигнали повинні бути відбракованими зі швидкістю, яка може представляти звуки самої високої частоти, які ви хочете відтворити. Для них також необхідно зберігати достатню глибину біт для подання правильної амплітуди (гучність і м'якість) осцилограм за зразком звуку. Здатність пристрої звукової обробки відтворювати частоти відома як його частотна характеристика, а здатність створювати належну гучність і м'якість відома як динамічний діапазон. Разом ці терміни часто називають вірністю звукового пристрою. Глибина кодування звуку — це засіб, за допомогою якого можна відновити звук, використовуючи ці два основних принципу, а також можливість ефективно зберігати та передавати такі дані.

Частота вибірки

Звук існує як аналогова хвильова форма. Сегмент цифрового звуку апроксимує цю аналогову хвилю і сэмплирует її амплітуду з досить високою швидкістю, щоб імітувати власні частоти хвилі. Частота дискретизації цифрового аудіосигналу визначає кількість вибірок, взятих з вихідного матеріалу аудіо (у секунду). Висока частота дискретизації збільшує здатність цифрового звуку точно представляти високі частоти.

Як наслідок теорема Найквіста-Шеннона, зазвичай потрібно пробувати хоча б удвічі більшу частоту будь звукової хвилі, яку необхідно записати в цифровому вигляді. Наприклад, для представлення звуку в діапазоні людського слуху (20-20000 Гц), цифровий аудіо повинен відображати не менше 40000 разів в секунду (що є причиною того, що звук CD використовує частоту дискретизації 44100 Гц).

Біт глибини

Глибина кодування звуку — це вплив на динамічний діапазон заданого зразка звуку. Більш висока бітова глибина дозволяє представляти більш точні амплітуди. Якщо у вас багато гучних і м'яких звуків в одному і тому ж звуковому зразку, вам знадобиться більше біт, щоб правильно передавати ці звуки. Більш високі бітові глибини також зменшують співвідношення "сигнал/шум" в зразках аудіо. Якщо глибина кодування звуку становить 16 бітів, музичний звук CD передається з використанням даних величин. Деякі методи стиснення можуть компенсувати менші бітові глибини, але вони, як правило, є втратами. DVD Audio використовує 24 біт глибини, в той час як у більшості телефонів глибина кодування звуку складає 8 біт.

Незжатий звук

Велика частина обробки цифрового звуку використовує ці два методи (частоту дискретизації і глибину біт) для простого зберігання аудіоданих. Одна з найпопулярніших технологій цифрового звуку (популяризированная при використанні компакт-диска) відома як модуляція імпульсного коду (або PCM). Аудіо вибирається з установленими інтервалами, і амплітуда дискретизованій хвилі в цій точці зберігається як цифрове значення з використанням бітової глибини зразка. Лінійний PCM (який вказує, що амплітудний відгук є лінійно однорідною за вибіркою) є стандартом, використовуваним на компакт-дисках і в кодуванні LINEAR16 Speech API. Обидва кодування створюють незжатий потік байтів, відповідний безпосередньо аудиоданным, і обидва стандарту містять 16 біт глибини. Лінійний PCM використовує частоту дискретизації 44100 Гц на компакт-дисках, що підходить для перекомпонування музики. Однак частота дискретизації 16000 Гц більш підходить для рекомпозіціі мови.
Лінійний PCM (LINEAR16) є прикладом нестисненого звуку, оскільки цифрові дані зберігаються аналогічним чином. При читанні одноканального потоку байтів, закодованого з використанням Linear PCM, ви можете підрахувати кожні 16 біт (2 байти) для отримання іншого значення амплітуди сигналу. Практично всі пристрої можуть маніпулювати такими цифровими даними спочатку — можна обрізати аудіофайли Linear PCM за допомогою текстового редактора, але незжатий звук - не найефективніший спосіб транспортування або зберігання цифрового звуку. З цієї причини більшість аудіо використовує цифрові методи стиснення.

Стислий звук

Аудіодані, як і всі дані, часто стискаються, що полегшує їх зберігання і транспортування. Стиснення в аудиокодировании може відбуватися без втрат, або з втратами. Стиснення без втрат можна розпакувати, щоб відновити цифрові дані у вихідну форму. Стиснення обов'язково видаляє деяку інформацію під час процедури декомпресії та параметризуется, щоб вказати ступінь толерантності до техніки стиснення для видалення даних.

Без втрат

Без втрат стискуються цифрові записи, використовуючи складні перестановки збережених даних, що не призводить до погіршення якості вихідного цифрового зразка. При стиску без втрат при розпакуванні даних у вихідну цифрову форму інформація не буде втрачена. Отже, чому методи стиснення без втрат іноді мають параметри оптимізації? Ці параметри часто обробляють розмір файлу для часу декомпресії. Наприклад, FLAC використовує параметр рівня стиснення від 0 (найшвидший) до 8 (найменший розмір файлу). Стиснення FLAC більш високого рівня не втратить жодної інформації порівняно зі стисненням більш низького рівня. Замість цього алгоритму стиснення просто потрібно буде витрачати більше обчислювальної енергії при побудові або деконструировании оригінального цифрового звуку. Speech API підтримує два кодування без втрат: FLAC і LINEAR16. Технічно LINEAR16 не є «стисненням без втрат», оскільки в першу чергу не задіяно стиснення. Якщо розмір файлу або передача даних важливі для вас, виберіть FLAC як ваш варіант кодування звуку.

Втрата компресії

Стиснення аудіоданих усуває або зменшує деякі типи інформації при побудові стиснених даних. Speech API підтримує кілька форматів з втратами, хоча їх слід уникати, оскільки втрата даних може вплинути на точність розпізнавання.

Популярний MP3-кодек є прикладом методу кодування з втратами. Всі методи стиснення MP3 видаляють звук ззовні звичайного аудиодиапазона людини і регулюють рівень стиснення, регулюючи ефективну швидкість передачі даних кодек MP3 або кількість біт в секунду для збереження дати звуку. Наприклад, стерео CD з використанням лінійного PCM з 16 біт має ефективну швидкість передачі бітів. Формула глибини кодування звуку: 441000 * 2 канали * 16 біт = 1411200 біт у секунду (біт/с) = 1411 Кбіт/с Наприклад, стиснення MP3 видаляє такі цифрові дані, використовуючи швидкість передачі даних, такі як 320 кбит/с, 128 кбіт/с або 96 кбіт/с, що призводить до погіршення якості звуку. MP3 також підтримує змінні швидкості передачі бітів, які можуть додатково стиснути аудіо. Обидва методу втрачають інформацію і можуть впливати на якість. З упевненістю можна сказати, що більшість людей можуть визначити різницю між кодованої MP3-музикою 96 кбіт/с або 128 Кбіт/с.

Інші форми стиснення

MULAW — це 8-бітне кодування PCM, де амплітуда вибірки модулюється логарифмічно, а не лінійно. В результаті uLaw зменшує ефективний динамічний діапазон стисненого звуку. Хоча uLaw був введений спеціально для оптимізації кодування мови на відміну від інших типів аудіо, 16-бітний LINEAR16 (незжатий PCM), як і раніше, набагато перевершує 8-бітний стислий звук uLaw. AMR і AMR_WB модулюють кодований аудиокасс, вводячи змінну швидкість передачі бітів у вихідний звуковий зразок.

Хоча Speech API підтримує кілька форматів з втратами, вам слід уникати їх, якщо у вас є контроль над вихідним аудіо. Хоча видалення таких даних за допомогою стиснення з втратами може не надавати помітного впливу на звук, чутний людським вухом, втрата таких даних для механізму розпізнавання мовлення може значно погіршити точність.

Цікаво по темі

Програми для зміни формату музики і відео

Компютери

Програми для зміни формату музики призначені для перетворення аудіофайлів під різні плеєри та пристрої. Якщо вам необхідно перенести на портативний

Як в Excel поміняти кодування. Три способи

Компютери

Часто, працюючи з різними файлами у програмі "Ексель", користувач може зіткнутися з тим, що замість чітких літер з'явиться незрозумілий шрифт, який

Аудіо-формати: види, призначення, відмінності

Техніка і технології

Як FLAC перевести в MP3: кілька простих рішень

Техніка і технології

Відносно недавно з'явився аудіоформат FLAC є одним з найбільш затребуваних, оскільки володіє найвищою ...

Що це: HEVC? Ключові особливості нового кодека

Компютери

Як відомо, всі ми любимо дивитися фільми, відеоролики або передачі у гарному якості. Але в плані зберігання відео на комп'ютері виникає безліч

Представлення інформації в комп'ютері: приклади використання

Компютери

Якщо людина займається вивченням комп'ютерної техніки не поверхово, а досить серйозно, він неодмінно повинен знати про те, які існують форми