Obróbka głosu lektora

Bawię się ostatnio w kompletnie amatorskie nagrywanie audiobooków, starając się wypracować jakieś metody doprowadzenia głosu do poziomu przynajmniej przyzwoitego. Postanowiłem nieco uporządkować moją dotychczasową wiedzę, a że może się to komuś przydać, wrzucam tutaj moje przemyślenia.

Nagranie

Jest to najważniejsza część całego procesu. Bez dobrego materiału wejściowego niewiele da się zdziałać na późniejszym etapie, więc warto przyłożyć się do rejestracji głosu. Moje spostrzeżenia są następujące:

  • nagrywamy najlepszym dostępnym dla nas mikrofonem, najlepiej podłączając ten mikrofon do dobrego przedwzmacniacza czy dobrego interfejsu audio
  • warto nagrywać ze średnim poziomem sygnału, za to w 24 bitach - takie parametry pozwolą uniknąć przesterowań, a później w razie czego pogłośnić materiał
  • bardzo przydaje się filtr przeciwpodmuchowy (pop-filtr, czyli tzw. "pończocha") - nagrane bez niego "pyknięcia" wybuchowych głosek (np. "p") będą raczej nie do odratowania; pamiętajmy, że filtr musi być oddalony od mikrofonu o przynajmniej kilka centymetrów, inaczej nie spełni swojego zadania
  • lektor powinien czytać w pozycji wyprostowanej, z lekko uniesioną brodą
  • jeśli w trakcie czytania lektor popełni pomyłkę, warto od razu przeczytać daną frazę (zdanie, a lepiej - akapit) jeszcze raz, zamiast przerywać i wznawiać nagrywanie (przy okazji polecam ten patent)
  • udane nagranie warto od razu zarchiwizować gdzieś i nie pracować na oryginale (tak na wszelki wypadek)

Czyszczenie

Chodzi oczywiście o oczyszczenie i uporządkowanie nagrania. Przeprowadzamy odszumianie (jeśli jest konieczne - patrz tutaj) lub stosujemy bramkę szumów, usuwamy frazy źle przeczytane, zostawiając tylko te poprawne, usuwamy też przeróżne "mlaski", stuki, westchnięcia, wyciszamy głośne oddechy - przy czym warto zachować odpowiednią kolejność, czyli najpierw usuwamy źle nagrane fragmenty, a dopiero później słuchamy całości i usuwamy pojedyncze "brudy".

Wszystkie powyższe czynności można wykonać w dowolnym edytorze audio, choćby i w darmowym Audacity. W rezultacie powinniśmy dysponować "czystym" nagraniem, które "doszlifujemy" do ostatecznej postaci. Oczywiście, tę wersję też warto zarchiwizować, chyba że ktoś lubi spędzać czas na powtarzaniu raz wykonanej pracy, jeśli coś pójdzie nie tak.

Szlifowanie

Dalszą obróbkę można przeprowadzić także w zwykłym edytorze audio, ja jednak zachęcam, aby skorzystać z dowolnego programu typu DAW, z tego prostego powodu, że możemy dowolnie dublować ścieżki, nakładać efekty, tworzyć przejścia, dodawać muzykę czy efekty dźwiękowe. Oczywiście, część współczesnych edytorów audio (np. Acoustica, ale też i Audacity) ma możliwość pracy wielościeżkowej - to dobra opcja. Ja posłużę się przykładem Reapera, który - w mojej ocenie - bardzo dobrze nadaje się do tego typu prac: szybko się uruchamia, daje wszystkie możliwości typowej aplikacji DAW, ma też wbudowanych sporo efektów.

Dalszy opis będzie traktował tylko o obróbce ścieżki z głosem lektora - zabawy z efektami dźwiękowymi i muzyką zostawiam na inną okazję.

Korekcja

Celem korekcji jest przede wszystkim ukształtowanie brzmienia głosu. Zazwyczaj należy zrobić przynajmniej trzy kroki:

  • wyciąć niskie tony filtrem górnoprzepustowym, zwykle poniżej 80-100Hz - nie są potrzebne, chyba że nagrywamy bardzo niski, męski głos do trailera filmowego
  • podkreślić filtrem półkowym wysokie częstotliwości (od mniej więcej 8-9kHz) - doda to trochę "powietrza"
  • lekko podbić/osłabić częstotliwości odpowiedzialne za czytelność mowy, czyli 200-400Hz - słuchamy i oceniamy, co lepiej brzmi

Można też filtrem "szpilkowym" wyszukać pewną "dzwoniącą" częstotliwość, zwykle gdzieś w granicach 500-1000Hz i ją "wyciąć". Jeśli nasz korektor posiada funkcję dynamicznej korekcji częstotliwości, warto delikatnie osłabić sybilanty, jeśli takowe występują i już na tym etapie przeszkadzają.

Kompresja

Zadaniem kompresji jest wyrównanie poziomu głośności poszczególnych fragmentów nagrania. Ludzki głos jest dość dynamiczny, zwłaszcza w wykonaniu dobrego lektora, dlatego niektóre fragmenty trzeba nieco ściszyć, aby nie odstawały od pozostałych.

Kompresor jest na pierwszy rzut oka dość nieoczywistym narzędziem - w odróżnieniu od korektora, gdzie praktycznie natychmiast wyraźnie słychać wpływ manipulacji głośnością określonych częstotliwości. Najważniejsze parametry kompresora to:

  • threshold - próg zadziałania kompresora; wszystkie fragmenty cichsze niż wskazana tu głośność będą pozostawione bez zmian, te głośniejsze zostaną ściszone - skompresowane
  • ratio - czyli współczynnik kompresji; im większą wartość ustawimy, tym kompresja będzie głębsza, np. przy ratio na poziomie 2:1, wartości powyżej threshold będą ściszane dwukrotnie (np. 2dB do 1dB, 4dB do 2dB itd.); dla wokalu dobrym punktem wyjścia jest np. 4:1
  • attack - czas zadziałania kompresora; jeśli ustawimy tu dłuższy czas, kompresor zadziała z opóźnieniem, przepuszczając część sygnału; na nasz użytek ustawmy ok. 20ms
  • release - czas, po którym kompresor ma przestać działać; dla nas niezłe efekty da wartość ok. 100ms
  • knee - niektóre kompresory dają możliwość wyboru tzw. kolana kompresji; twarde kolano powoduje, że wszystko poniżej threshold nie jest kompresowane, a powyżej - jest ze 100% siłą; łagodne kolano z kolei powoduje, że coraz głośniejszy sygnał jest kompresowany coraz bardziej, aż do osiągnięcia maksimum;

Kompresora trzeba się nauczyć słuchać - dobrze, jeśli wybierzemy taki, na którym WIDAĆ wprowadzane zmiany, najczęściej na przebiegu fali naniesione są graficznie wprowadzane przez kompresor modyfikacje. To ułatwia wychwycenie uchem, że rzeczywiście COŚ się dzieje z sygnałem.

Ze swojej strony dodam, że ciekawą alternatywą dla kompresji są narzędzia typu Waves Voice Rider. Voice Rider nie kompresuje sygnału, tylko dynamicznie pogłaśnia go i ścisza, utrzymując na zadanym poziomie - czyli tak, jakbyśmy sami kontrolowali głośność kanału z wokalem za pomocą suwaka. Co więcej, te zmiany głośności możemy zapisać w DAW jako automatykę i w razie potrzeby zmienić ręcznie, jeśli w którymś momencie wtyczka zaaplikowała zbyt duże lub zbyt małe wartości.

Warto jest po kompresji podnieść głośność ścieżki (większość kompresorów ma służące do tego celu pokrętło Gain, czasem też występuje funkcja auto-gain, która automatycznie pogłaśnia materiał do poziomu wejściowego, co pozwala łatwiej porównać sygnał z kompresją i bez niej). Wiąże się to z faktem, że kompresor generalnie ścisza (kompresuje) dźwięk, czyli wyrównuje głośność "w dół", za to później można ten sygnał znacząco pogłośnić bez ryzyka przesterowania (bo szczyty są już "ścięte", skompresowane).

De-esser

Etap z usuwaniem głosek syczących nie jest obowiązkowy i zależy przede wszystkim od trzech czynników: mikrofonu, lektora i... ustawionej krok wcześniej kompresji.

Mikrofony, dostępne na rynku, są bardzo różnorodne i w różnym stopniu podkreślają (lub nie) sybilanty, czyli głoski syczące i świszczące, takie jak "s", "sz", "cz". Zwykle najtańsze mikrofony pojemnościowe (za 200-300zł) mają tu najwięcej problemów, a im lepszy mikrofon, tym łatwiej problem zanika. Polecam zapoznanie się z tym artykułem.

Drugą kwestią jest sposób mówienia lektora. Są osoby, które wymawiają sybilanty czytelnie, choć bez świszczenia, a są i takie, które prawie gwiżdżą przez zęby (czego na ogół się nie zauważa w normalniej rozmowie, dopiero podczas obróbki materiału rzuca się to w uszy). Jeśli trafimy na takiego "świszczącego" lektora, musimy przede wszystkim nagrywać go dobrym mikrofonem, warto też nieco odchylić membranę mikrofonu tak, aby głos nie uderzał w nią wprost, tylko pod pewnym niewielkim kątem.

Trzecia sprawa, to wcześniejszy etap kompresji, która zwykle bardzo "wyciąga" wysokie częstotliwości, w wyniku czego nagle sybilanty mogą zacząć być mocno słyszalne.

Jeśli chcemy ratować sygnał przed "świszczeniem", możemy to zrobić albo za pomocą korektora, osłabiając wąskie pasmo zawierające niechciane dźwięki, albo - lepiej - za pomocą de-essera, który jest specjalizowanym kompresorem pasmowym. Działa tak, że w wybranym zakresie częstotliwości przycisza sygnał przekraczający pewien próg głośności (czyli tak naprawdę kompresuje "eski").

Z de-esserem należy uważać, bo przesadne wartości zadziałania spowodują, że lektor zacznie seplenić niczym Kaczor Duffy. Ważna jest też kolejność - de-esser powinien być stosowany już po kompresji.

Limiter

Końcowym zabiegiem powinno być pogłośnienie materiału, połączone z ograniczeniem sygnału, aby nie powodował przesterowań. Robi się to specjalizowanym kompresorem, zwanym limiterem. Limiter może być też użyty bardziej kreatywnie, do "prasowania" sygnału w celu uzyskania specyficznego brzmienia (tzw. radiowy głos), ale w tym wypadku ograniczymy się tylko do podniesienia głośności tak, aby tylko szczyty sygnału dotykały granicy ok. -0.7dB.

Działania końcowe

W tym momencie nasz materiał jest już w postaci docelowej, możemy zatem przystąpić do właściwej pracy nad audiobookiem - dodajemy ścieżki z muzyką, ewentualnymi odgłosami czy efektami, po czym renderujemy całość i publikujemy, ciesząc się sławą i ogromnymi pieniędz... ej! do tego etapu chyba nie dotarłem. Ale życzę sobie tego Wam i sobie.

Komentarze