16/44,1 kontra 24/48

Przy okazji testu 300 Grand w komentarzu został poruszony wątek pewnej cechy tej skądinąd świetnej biblioteki. Otóż, mimo że była ona nagrywana i obrabiana z parametrami 24 bit i 96kHz, sprzedawana jest z parametrami dużo niższymi: 16 bit i 44,1kHz. Czy w ten sposób instrument dużo stracił na wartości? Czy warto go w takim razie kupować, bo przecież degradacja jakości może być słyszalna?

Względnie łatwo jest rzecz sprawdzić na dwa sposoby: albo zdobyć bibliotekę nagraną w dwóch zestawach parametrów, albo... wygenerować odpowiednie pliki z programu, który to potrafi. Postanowiłem sprawdzić obie ścieżki, a że dopiero co testowałem Pearl Concert Grand, który dysponuje dwoma zestawami próbek, to droga do eksperymentów stała otworem.

Co ważniejsze?

Jeśli mówimy o głębokości bitowej i częstotliwości próbkowania, to większe znaczenie ma głębokość bitowa. Częstotliwość próbkowania odpowiada z grubsza za to, jak wysokie tony zarejestrujemy - im wyższa częstotliwość, tym sięgamy wyżej. Tu sprawa jest prosta - ogranicza nas fizjologia ludzkiego ucha, które nawet u młodych i zdrowych osób jest ograniczone do ok. 20kHz. Wraz z wiekiem nasza czułość na wysokie tony spada, w wieku dorosłym do ok. 16-17kHz, a potem coraz niżej i niżej. W wieku 50 lat możemy się uważać za szczęśliwców, jeśli ciągle słyszymy coś ponad 12kHz. Standard 44,1 kHz przyjęty dla formatu CD-Audio wynika (poza czynnikami związanymi z zapisem formatu audio na nośnikach wideo) z twierdzenia Nyquista-Shannona. Mówi ono tyle, że aby odtworzyć pasmo dźwiękowe, należy zastosować podwojoną najwyższą częstotliwość, którą chcemy zachować. Skoro mamy 20kHz dla ludzkiego ucha, częstotliwość powinna wynosić co najmniej 40kHz - 44,1kHz przyjęto zatem z pewnym zapasem, z czego korzystają np. filtry antyaliasingowe.

Za co zatem odpowiada głębokość bitowa? O ile częstotliwość dzieli nam sygnał "w poziomie" (w domenie czasu), to głębokość bitowa dzieli nam sygnał "w pionie", czyli w domenie dynamiki. Określa ona kwantyzację amplitudy na 2¹⁶ lub 2²⁴ poziomów wartości. Więcej pisałem o tych zagadnieniach w artykule o 32 bitach, do którego odsyłam osoby chcące głębiej wejść w niuanse cyfrowego zapisu. Dla nas, w praktyce, oznacza to dynamikę około 96dB dla 16 bitów i ok. 144dB dla 24 bitów. I znów - w teorii im więcej, tym lepiej, tyle że po raz kolejny natykamy się na praktyczne ograniczenie. Częstotliwość ogranicza nasz słuch, a dynamikę... otaczający świat.

We wspomnianym artykule opisuję to zjawisko, bo tam odnoszę się do aż 32 bitów (zmiennoprzecinkowych), które dają niewyobrażalną dynamikę ponad 1500dB. Tylko że w praktyce to jest swego rodzaju fikcja. Najlepsze dzisiejsze przetworniki 24-bitowe (np. ESS Sabre ES9038PRO, AKM AK4499) osiągają dynamikę maksymalnie 130-135dB, a do odsłuchu sygnału o dynamice większej od 95dB potrzeba by było komory bezechowej i najwyższej klasy sprzętu. Szum tła w powszechnie spotykanych pomieszczeniach to ok. 25-35dB (bardzo cichy pokój) lub częściej 35-45dB ("normalny" pokój). W takich warunkach szum wynikający z kwantyzacji 16 bit po prostu "utonie" w szumie tła, nawet jeśli mocno "podkręcimy" głośność muzyki.

Przykłady

Zanim przejdę dalej, posłuchajmy dwóch praktycznych przykładów. Pierwszy to wspomniana biblioteka Pearl Concert Grand, która jest dostarczana w obu formatach: 16/44,1 i 24/48. Dzięki temu mogłem wczytać je do samplera Kontakt w dwóch instancjach i zupełnie "na surowo", bez jakichkolwiek dodatkowych wtyczek i przetwarzania wyrenderować utwór "Menuet sur le nom d'Haydn" Maurice'a Ravela. Parametry renderowania we wszystkich przypadkach to oczywiście 24 bity i 48kHz, żeby zachować wyższą jakość.

Drugi przykład jest trochę podstępny, bo wykorzystałem Modartt Pianoteq. Może się to wydać dziwne, w końcu to instrument modelowany - ale w tym rzecz. Można go zmusić do pracy z takimi parametrami, jakie się chce mieć. Poza tym chciałem tym eksperymentem nawiązać do dalszej części artykułu, kiedy opowiem o różnicach przy nagrywaniu i odtwarzaniu. W każdym razie - dokonałem dwóch renderów, jeden 24/48, drugi 16/44,1 (drugi przekonwertowałem później na 24/48).

Przykładów nie wrzucam na YouTube, bo tam nie ma żadnej kontroli nad tym, co z dźwiękiem zrobią algorytmy kompresji, więc tego typu porównanie trzeba zrobić po prostu na plikach wav.

Zgodnie też ze zwyczajem - zabawa. Pliki w archiwum nie są opisane, więc pobieramy, rozpakowujemy i wyłącznie na podstawie odsłuchu typujemy, który plik pochodzi z 16 bitów, a który z 24. Mniej może chodzi o to, by udowodnić, że coś się słyszy (szansa na ślepy traf to 50%), bardziej o to, by się samemu nie sugerować nazwą plików przy odsłuchu. Po wszystkim można pobrać plik tekstowy, który rozwiewa wątpliwości.

Różnice

Jak sami się przekonacie, usłyszenie w praktyce różnic między biblioteką 16 a 24 bitową jest bardzo trudne, jeśli nie wręcz niemożliwe. Dlaczego tak się dzieje i dlaczego w ogóle stosuje się więcej niż 16 bitów?

Otóż 24 bity MAJĄ znaczenie, ale przy rejestracji i obróbce. Duży odstęp od szumów kwantyzacji i duża dynamika po prostu ułatwiają nagrywanie i postprodukcję - poddawanie materiału kompresji, pogłaśnianie go, korekcja i tak dalej. W domenie 16 bit szumy kwantyzacji bardzo szybko "wychodzą na jaw". Stąd owe 16 bitów miałoby znaczenie, gdyby producent biblioteki z taką rozdzielczością bitową NAGRYWAŁ próbki, a później je też w tej postaci obrabiał. Natomiast bardzo wątpię, by ktokolwiek tak robił - przy nagrywaniu standardem są parametry 24bit/48kHz, a w przypadku próbkowania instrumentów akustycznych często sięga się po 88 czy nawet 96kHz (w ekstremalnych przypadkach 192kHz). Jednak po etapie postprodukcji zalety tych wyśrubowanych parametrów się kończą - użytkownik ich nie potrzebuje, bo - jak to omówiłem wcześniej - nie ma ani słuchu nietoperza, ani nie mieszka w komorze bezechowej ze sprzętem odsłuchowym za setki tysięcy.

Jest jeden scenariusz, gdzie faktycznie biblioteka oferująca parametry 24/48 może się sprawdzić lepiej niż 16/44,1 - jeśli nakładamy na nią całą masę dodatkowych efektów, czyli niejako przedłużamy proces postprodukcji. Ekstremalna kompresja, pogłaśnianie cichych fragmentów, przepuszczanie ich przez pogłos - to może faktycznie w pewnych warunkach doprowadzić do ujawnienia "wad" formatu 16/44,1. Tyle że też trzeba mieć na uwadze, iż obecnie dostępne programy DAW i wtyczki w nich używane stosują do przetwarzania dużo lepsze parametry niż te, o których tu mówimy - często są to 32 lub nawet 64 bity, by uniknąć błędów zaokrągleń przy przetwarzaniu DSP. Niemniej, wady formatu 16 bitów najwyraźniej słychać podczas stosowania procesów nieliniowych na nagraniu, tj. przesterowania (saturacja, overdrive, harmonic exciters) oraz inwazyjnego przetwarzania kompresją pasmową i warto to mieć na uwadze.

Podsumowanie

Jednym słowem, 16 bitów w końcowym produkcie nie należy się bać, zwłaszcza jeśli do samego przygotowania biblioteki posłużył materiał w dużo lepszej jakości. Odsłuchowo niczego w praktyce nie tracimy, chyba że ideą jest mocne dynamiczne przetwarzanie dźwięku z takiej biblioteki. A czy takie przetwarzanie może być destrukcyjne? Zamieściłem przykłady, można z nich skorzystać i przeprowadzić na nich planowane przez siebie operacje. Jeśli ujawnią się jakieś artefakty, będziemy mieli jasną odpowiedź.

Cari Blog Ini

GadeSound