[K] Acon Acoustica Premium 7.5

Z wczorajszej premiery Sonible smart:de ess nie byłem specjalnie mocno zadowolony. Za to dzisiaj rano - dość niespodziewanie - dostałem powiadomienie o pojawieniu się wersji 7.5 programu Acon Acoustica. Nie zwlekając, pobrałem instalator (już w wersji 7.5.2) i zainstalowałem. Po uruchomieniu żadnych wyraźnych zmian nie widać, więc wskoczyłem na stronę producenta, żeby nie błądzić po omacku.

Transkrypcja

Transkrypcja głosu ludzkiego jest popularnym tematem od ponad roku, czyli od momentu udostępnienia Whispera, o czym pisałem w grudniu 2022 roku. Transkrypcja trafia powoli do programów związanych z obróbką głosu, np. do Hindeburga czy iZotope RX10. Acon Acoustica ma od wersji 7.4 edytor "napisów", który obecnie doczekał się automatycznego wypełniania treścią - po prostu Acoustica dokonuje transkrypcji pliku dźwiękowego i zamienia tekst na "napisy".

Rozpoznany tekst jest wyświetlany w głównym oknie programu

Jakość transkrypcji jest taka sobie i sugeruje, że w użyciu jest model językowy w rodzaju tiny czy base - da się zrozumieć sens, ale na pewno nie jest to coś, co można wypuścić bez poważnej korekty. Poszperałem w katalogu programu (ProgramData\Acon Digital\AIModels\) i stwierdziłem, że Acoustica używa identycznych modeli językowych co Whisper w wersji przepisanej na C++. Żeby mieć pewność, ściągnąłem model językowy medium i podmieniłem go we wspomnianym wcześniej katalogu (trzeba pobrać modele ggml-medium.en.bin oraz ggml-medium.bin). Wrzuciłem do Acoustiki ten sam plik dźwiękowy, co przy domyślnych modelach i... zaczęło się przetwarzanie.

Nie będę niczego pudrował - dziesięciominutowy plik w Acoustice przetwarzał się modelem medium (uwaga!) trzy godziny. Stało się jasne, dlaczego domyślny model jest modelem (prawdopodobnie) base, czyli jednym z mniejszych. Acoustica nie oferuje na razie wsparcia przetwarzania z pomocą karty graficznej, więc wszystko liczy procesor. Ten mój z racji wieku i starej architektury średnio się nadaje, ale i optymalizacja w Acoustice musi być na razie kiepska, bo z ciekawości przetworzyłem ten sam plik pythonową wersją Whispera i z pomocą procesora - transkrypcja modelem medium zajęła mu 29 minut, czyli sześć razy mniej niż Acoustice...

Póki co zatem, transkrypcję w języku polskim należy na razie traktować jako ciekawostkę, a podmienianie domyślnego modelu na większy mija się z celem.

Na szczęście edytor napisów w Acoustice doczekał się możliwości importu plików srt, więc można sobie transkrypcję zrobić szybkim Whisperem i po prostu użyć w Acoustice.

Stemy

Separacja stemów, wykonywana do tej pory za pomocą polecenia Remix, jest teraz możliwa także w trybie procesowania łańcuchem efektów oraz w trybie pracy wsadowej. Samo dzielenie nagrania na poszczególne instrumenty (perkusja, wokal, bas itd.) idzie Acoustice całkiem sprawnie i już prawie dogoniła ona w jakości funkcję Unmix z programu Steinberg SpectraLayers. Wprawdzie nie mam dostępu do iZotope RX10, ale Remix z Acoustiki działa lepiej niż analogiczna funkcja Music Rebalance z RX9.

Nagranie może być podzielone na poszczególne sekcje za pomocą efektu Remix

DeEss:Dialogue

Ha, wczoraj bawiłem się de-esserami, a tutaj dostaję nową zabawkę! DeEss:Dialogue działa zarówno jako efekt w Acoustice, jak i wtyczka VST dla posiadaczy Acoustiki Premium. A jak działa? Ano bardzo przyzwoicie. Na ekranie widzimy reprezentację spektrum dźwięku z zaznaczonymi granicami przetwarzania. Do dyspozycji mamy kontrolkę progu i siły redukcji, możemy odsłuchać, co wtyczka uznaje za sygnał do stłumienia i tyle:

De-esser prosty i surowy, ale działa sprawnie

Niewiele więcej da się tutaj napisać ponad to, że wtyczka działa, redukuje sybilanty i nie ma z nią żadnych problemów.

Panel historii

Kojarzycie panel History z edytora RX Audio Editor? Od wersji 7.5 mamy go także w Acoustice. Widać na nim wykonane kroki, a co istotne, można się z jego pomocą cofać w edycji.

Po historii można skakać i wstecz, i do przodu, można też podglądać parametry poszczególnych kroków

Z panelem historii związane są dwie ciekawostki - prócz cofania i ponawiania obróbki można także "zajrzeć" do ustawień wtyczki, której używaliśmy do wykonania danego kroku. Całą historię da się ponadto wyeksportować do formatu html jako tak zwany Audio Trail, czyli dokument z zapisem edycji, gdzie widoczne są wykorzystane wtyczki i ich parametry:

Audio Trail zapisuje wszystko, co wyprawiamy z plikiem, łącznie z wartościami parametrów wtyczek

Dla osób chcących dokumentować przeprowadzaną obróbkę rzecz nie do przecenienia!

Ręczna edycja dźwięku

Przez ręczną edycję rozumiem narzędzie ołóweczka, który możemy modyfikować graficzną postać dźwięku. Powiedzmy, że w nagraniu słychać krótki trzask, który po namierzeniu i przybliżeniu wygląda tak:

Brzydki trzask...

Najprościej jest go po prostu wyciąć, ale czasem musimy zachować długość ścieżki, bo jest ona zsynchronizowana z inną. Wtedy bierzemy "ołóweczek" i "prostujemy" próbki:

...i nie ma już trzasku!

Zakłócenie nie znika wprawdzie (bo w tym widoku operujemy na amplitudzie, a nie na częstotliwościach), ale jest dużo mniej słyszalne. Oczywiście, jeśli mamy wersję Premium, lepiej będzie wejść do edycji spektralnej i to tam usunąć trzask w dużo bardziej "przezroczysty brzmieniowo" sposób.

Inne nowości

Powyższe funkcje spodobały mi się najbardziej i jeśli ktoś ma już Acoustikę w wersji 7.x, z pewnością sporo zyska, aktualizując ją za darmo do wersji 7.5. Oprócz tych dużych funkcji dostanie jeszcze zaktualizowaną wtyczkę Extract:Dialogue 1.5 (tylko posiadacze wersji Premium), funkcję wyszukiwania w panelu skrótów klawiaturowych czy przeskakiwanie do kolejnych transjentów klawiszem Tab. No i całą masę drobnych poprawek - autor chyba poradził sobie na przykład z zapamietywaniem stanu wtyczek VST3, co mocno szwankowało w wersji 7.4.14.

Drobiazg - wyszukiwarka w panelu skrótów. Ale cieszy.

Tak czy owak, zaktualizować warto, a osoby do tej pory nie znające Acoustiki, tym bardziej powinny się jej dokładnie przyjrzeć.

Cari Blog Ini

GadeSound