Цифрово аудио кодиране Намаляването на данните

От представянето на аудио компактдиска (CD) и появата на цифровата аудиокасета (DAT), цифровите технологии стават все по-популярни в аудио сектора. Както CD, така и DAT използват Pulse Code Modulation (PCM) като основен процес на цифровизация. Тази технология превежда оригиналния аналогов аудио сигнал в цифровия свят чрез вземане на проби, квантуване и кодиране. Тъй като PCM не използва намаляване на данните, се постига отлично качество на звука - но се купува на цената на високи изисквания за памет. В PCM CD може да съдържа максимум 80 минути аудио данни.

Защо да намаляваме аудио данните?

По-специално високите изисквания за памет на PCM направиха тази технология в цифровите радио или мултимедийни системи неефективна, скъпа или невъзможна. Тези системи изискват радикално отслабване на аудио сигналите. Причините за това са недостатъчният предавателен капацитет в излъчването, ограничената скорост на трансфер на съвременните автобусни системи (PCI, IDE, SCSI) и преди всичко все още липсата на място за съхранение. Освен че мястото на твърдия диск не е достатъчно, основната памет в съвременните компютърни системи предлага и недостатъчни резерви, за да позволи разумна работа с PCM аудио данни. Ако смятате, че 6-минутно музикално произведение в PCM изисква до 60 MB памет (WAV файл), лесно е да си представите, че предаването на това парче през Интернет например е всичко друго, но не и изгодно, да не говорим за класически произведения с продължителност няколко часа . Резултатът би бил изключително дълъг срок за изтегляне.

От друга страна, цифровите технологии имат ненадминати предимства пред аналоговите технологии. Много доброто качество на звука, имунитетът срещу смущения и относително лесна техническа управляемост бяха достатъчни причини за различните изследователски институции да развиват все по-често методи през последните години, които позволяват намаляване на изискванията за съхранение на цифровите аудио сигнали и по този начин тяхното използване в нови области като цифровото излъчване. Основната цел беше да се поддържа качеството на звука, като компактдискът беше референтен. Резултатът е цяла поредица кодеци, някои от които спестяват значително количество данни. В момента MP3 кодекът, разработен от експертната група на Motion Pictures (MPEG), който е широко разпространен в интернет, е най-известен, но MPEG 2, AC-3, ATRAC и други също са известни техники за цифрово аудио кодиране.

Обемът памет, необходим за цифров аудио сигнал, се определя главно от скоростта на предаване и честотата на дискретизация. И двата параметъра могат да се регулират, докато сигналът се кодира. Следващият раздел разглежда ефектите от промяната на честотата на дискретизация и скоростта на предаване при обработка на сигнали.

Изисквания за съхранение в зависимост от вземането на проби и скоростта на предаване

За да се преобразува аналогов сигнал в цифров еквивалент, трябва да бъде взета проба от оригиналната функция. Процесът на вземане на проби е известен също като вземане на проби. Точните връзки между вземането на проби, квантуването и кодирането могат да бъдат намерени в нашата статия „Съхранение на цифрови данни и производство на аудио компакт диск“ в областта на технологиите на нашата начална страница http://www.burosch.de

Втората възможност за кодиране на цифрови аудио данни с ниски изисквания за памет е използването на ниска скорост на предаване. Вземането на проби и квантуването създават дискретни стойности на оригиналния аналогов сигнал. Докато вземането на проби дискретизира оригинала във времевата област, квантуването ограничава стойностите на напрежението, измерени по време на вземане на проби, до фиксиран брой стойности. Ако стойността на напрежението се измерва чрез вземане на проби в определен момент от времето, тази стойност на напрежението се закръглява до най-близката налична стойност по време на квантуването. Ако има само няколко стойности, които могат да бъдат закръглени до, резултатът е само няколко различни цифрови стойности за описание на оригиналната аналогова функция. Шепа битове са достатъчни за двоично кодиране на тези стойности.

Оригиналната функция обаче е само недостатъчно апроксимирана с няколко стойности на квантуване. Поради силното закръгляване на измерените стойности на напрежението възникват грешки в закръгляването, които могат да бъдат чути с меки музикални пасажи. Шумовете, които се появяват, също се наричат шум от квантуване. Съществуват обаче широки честотни диапазони, които могат безопасно да се съхраняват с по-малко данни. Тези области се определят преди всичко от чувствителността на човешкото ухо. Можете да научите повече в следващия раздел.

Човешкият слух - подход към компресирането на аудио данни

Медицинските и физическите изследвания на човешкия слух и обработката на шума в мозъка показват, че слуховият апарат има свои собствени възприятие. При определени обстоятелства звуците не се регистрират или само частично се регистрират от мозъка. Много от компонентите на сигнала, които присъстват в акустичния сигнал, дори не се възприемат от хората. Така наречената психоакустика се занимава с изследването на тези проблеми. Досега са открити следните дефицити във възприятието на човешкото ухо:

Обхват на възприемчивост на слуха:
Вълните могат да се излъчват в широк диапазон от честоти. Човешкото ухо обаче наистина може да възприеме само малка част от този честотен диапазон, обхвата на аудио честотата. Теоретично хората могат да чуват звуци с честоти между около 20Hz и 20kHz. На практика обаче е показано, че чувствителността на ухото намалява значително към ниски и високи честоти. На горната снимка амплитудата, т.е. звуковото налягане, се нанася спрямо честотата. Измерванията показват, че всички сигнали, които са напълно под прага на слуха в покой (червена линия), не се чуват. Амплитудата на тези тонове (зелени пикове на снимката) е твърде ниска, така че техният обем е твърде нисък, за да се възприеме. Интересно е да се види, че тихият праг на слуха не е постоянен при определена стойност на амплитудата, а се променя с честотата. Много ниски тонове (по-малко от 50Hz) се забелязват само от много високи амплитуди, точно като тонове над около 15kHz. Трябва също да се отбележи, че не всеки има един и същ тих праг на слуха. Децата могат да чуват високите честоти много по-добре от възрастните хора.
Маскиране:
Друг дефицит на човешкия слухов апарат е невъзможността да се прави разлика между звуци с много сходна честота и много различна сила на звука, които се появяват едновременно. Този ефект също се нарича слухово маскиране или едновременно немско маскиране. Сигнал с висока амплитуда (тъмносин на снимката по-горе), известен също като маскиращ, крие по-тихи сигнали, които имат подобна честота. На снимката това са всички сигнали, които са в зоната, подчертана в жълто. Някои тюркоазени върхове са показани като пример. Жълтата зона е оградена от оранжево оцветения индивидуален праг на маскиране на маскиращия. Индивидуалният праг на маскиране и тихият праг на слуха могат да се комбинират, за да образуват така наречения глобален праг на маскиране. Следователно всички сигнали, които са под глобалния праг на маскиране, не се чуват. На практика слуховото маскиране не означава нищо друго освен това, че силните музикални сигнали покриват тихите части и ги правят нечути.
Друг маскиращ ефект се получава, когато два тона следват един след друг в рамките на много кратко време. От тези два тона се възприема само този с по-голяма амплитуда, т.е.по-голяма сила на звука. Интересното е, че дори ако мекият звук достигне първо до ухото, в мозъка се регистрира само пристигащият по-късно силен сигнал. Този втори важен маскиращ ефект се нарича още в технически жаргон времево маскиране (временно маскиране).
Дефицити в локализацията на ниските честоти:
Докато човешкото ухо е в състояние да локализира добре произхода на тонове със средни и високи честоти в една стая, проблеми възникват в областта на по-ниските честоти. Мозъкът изчислява местоположението на звуковия източник от разликите във времето за преминаване на сигнала между лявото и дясното ухо. Ако вдясно има източник на звук, вълните, излъчвани от този източник, се възприемат по-рано от дясното ухо, отколкото от лявото. След това произходът на тоновете се изчислява от интервала от време между възприемането на лявото и дясното ухо. Звуковите сигнали с много ниска честота обаче имат много дълги вълни, което прави невъзможно ясната локализация. Следователно практически няма тонална разлика между моно звуков източник за нискочестотни сигнали и стерео звуков източник за звуци с много ниска честота. Това е известно още като съвместен стерео ефект. Той се използва, например, при изграждането на сателитни системи за субуфер и също така е отправна точка за аудио компресия в областта на ниските тонове.

Следователно човешкото ухо може само неадекватно или изобщо да не възприема цяла поредица от честотни диапазони. В електротехниката областта на цифровата обработка на сигнала се занимава (цифрова обработка на сигнала, DSP) наред с други неща с математически процедури, които в комбинация с психоакустичния модел на слуховия апарат водят до намаляване на данните. Такива процедури са известни под термина психоакустично кодиране или перцептивно кодиране обобщено.

Математически методи за намаляване на данните:

Обсъдените в този раздел математически методи за намаляване на данните имат за цел или премахване на излишък от данните, които трябва да бъдат компресирани, т.е. да се пренаредят повтарящи се части, така че да бъдат запазени само веднъж, или да се премахнат данни, които са излишни според психоакустичния модел.Фундаментално се прави разлика между техниките без загуби и загуби. Трябва да се спомене, че технологиите без загуби водят до намаляване на данните само при определени условия. Често коефициентът на компресия чрез тези методи е доста ограничен. Предимството на техниките без загуби е ясно, че те не променят качеството на оригинала.

Първо обаче трябва да се определи колко често отделните символи се появяват в низа с данни. Една от възможностите е да се кодират отделните данни според дадена статистика на честотата. Например, немски текст може да бъде кодиран с помощта на този метод, ако е ясно колко често отделните букви се срещат средно в немския език. Проблемът с този тип определяне на честотата е, че на практика има отклонения от очакваното събитие според статистиката. Това може да доведе до кодиране без печалба, ако количеството данни остава постоянно преди и след процеса на кодиране, или в екстремни случаи (неправилна статистика) алгоритъмът дори води до факта, че изискването за памет се е увеличило след кодирането. Този начин за определяне на честотата на отделните символи е напълно невъзможен за кодирането на неизвестна информация, като тази, която присъства в аудио сигналите. Тук трябва да се извърви друг път.

Предимството на разделянето на отделни честотни ленти е, че методите за компресиране на данни могат да атакуват по-ефективно. Ако целият честотен диапазон трябва да бъде намален в данните до един импулс, компресията може да бъде възможно най-висока без звукови загуби, колкото е възможно в критичните диапазони (над всички честоти между 2 kHz и 5 kHz). Това обаче би означавало, че трябва да бъдат запазени по-малко забележими честотни сегменти (повече от 15 kHz и под 50 Hz) с по-високи изисквания за памет от действително необходимите. Поради тази причина честотният диапазон е разделен на отделни секции и едва тогава всеки отделен диапазон се компресира и кодира, за да се осигури максимална ефективност.

Декодерът за подлентово кодиране (вж. Снимката по-долу) има много подобна структура на кодера. Първо, входящият битов поток (Y (n)) преминава през демултиплексор, който разделя низа с данни на отделните подленти. След това се извършва етап на декодиране. В интерполационния филтър, който следва, пробите, които са изчислени, се възстановяват частично, преди банката на синтез филтър да формира изходния сигнал Z (n) от поддиапазоните чрез сумиране.