Posty

Wyświetlanie postów z styczeń, 2023

Whisper - poprawiam skrypt

Obraz
Korzystam z programu Whisper już półtora miesiąca i od momentu zastosowania RTX3060 bardzo sobie to chwalę. Jako programista i zwolennik pisania skryptów w Pythonie , wolę właśnie surową instalację Whispera zamiast okienkowej nakładki, Speech Translate . Jednak sprawiedliwie trzeba przyznać, że Speech Translate ma w pewnej istotnej kwestii przewagę - potrafi tworzyć pliki srt z napisami. Na szczęście użytkownicy Whispera nie stoją na straconej pozycji, do czego wrócę za chwilę, bo najpierw na rozwiązanie czeka inny problem. Pasek postępu Ze względu na to, że transkrypcja swoje trwa, bardzo brakowało mi informacji, ile czasu zajmie przetwarzanie danego pliku dźwiękowego. Domyślny, najprostszy skrypt, który podawałem w pierwszym poście , wyglądał dla przypomnienia tak: import whisper; model = whisper.load_model("base") result = model.transcribe("f:\\podcast_010049.mp3") print(result["text"]) Skrypt ten, przerobiony na model large (zamiast bas

[N] Głośność LUFS na poważnie

Obraz
Ostatnio obejrzałem bardzo interesujący wykład Przemysława Ślużyńskiego z Katedry akustyki Uniwersytetu im. Adama Mickiewicza w Poznaniu pt. "LUFS i True Peak", omawaiający - jak łatwo się domyślić - zagadnienie głośności, wyrażanej za pomocą tychże dwóch wartości. Wykład jest dostępny w serwisie YouTube i mimo odrobiny chaosu na początku i w części praktycznej, warto obejrzeć całość, żeby uświadomić sobie, skąd wzięło się całe zamieszanie z mierzeniem poziomu głośności:

Nowy rejestrator Tascama - X6

Obraz
Od kilku dni firma Tascam podgrzewa atmosferę - ponoć jutro, czyli 26 stycznia 2023, ma nastąpić premiera czegoś nowego. Sądząc po zaprezentowanym wczoraj zdjęciu, które pozwolę sobie wkleić poniżej, będzie to nowy rejestrator. Trochę to zaskakujące, bo przecież X8 ma zaledwie rok (z haczykiem). Postanowiłem zatem trochę pospekulować, cóż to dostaniemy jutro (jeśli data premiery wypada faktycznie jutro). Takie mikrofony raczej dają pewność, że nowością będzie rejestrator Następca X8? Po zaprezentowanych zdjęciach (drugie wklejam poniżej) na pewno dostaniemy rejestrator i to mający wiele wspólnego z X8 - koło sterujące jest identyczne, mikrofony też wyglądają bardzo podobnie. To skłania do podejrzeń, że dostaniemy po prostu poprawioną wersję X8 , w której wyeliminowano mechaniczne i elektroniczne problemy z wersji pierwszej - na przykład przykry "przydźwięk" przy rejestrowaniu z częstotliwością 192kHz. Być może pojawią się też lepsze przedwzmacniacze, dorównujące p

[S] IK Multimedia iRig Pre 2

Obraz
Zacznę może od razu prosto z mostu: iRig Pre 2 jest urządzeniem, które z jednej strony może być przydatnym gadżetem w domowym studio, ale z drugiej strony jest typowym przedstawicielem "półśrodków", które w teorii mają zastąpić droższe, solidniejsze rozwiązania. Jest to przedwzmacniacz mikrofonowy w postaci małej, czarnej skrzyneczki, która ma z jednej strony dostać sygnał na poziomie mikrofonowym poprzez gniazdo XLR, a z drugiej wypuścić ten sygnał już w postaci wzmocnionej, przez wtyk TRRS, możliwy do podłączenia do telefonu, laptopa czy kamery wideo. Innymi słowy, do sprzętu pozbawionego dużych gniazd XLR będziemy mogli podłączyć wszelkie mikrofony, w tym także pojemnościowe, wymagające zasilania phantom . Czy to się może udać i czy dostaniemy w ten sposób naprawdę dobry sygnał? W pudełku Pudełko jest dość spore, jak na ukrytą w nim zawartość. Znajdziemy w środku samo urządzenie z kablem z wtykiem TRRS, znajdziemy taśmę do przymocowania urządzenia do statywu (dlaczego

[K] Speech Translate - Whisper w okienku

Obraz
UWAGA NA WSTĘPIE: Warto zajrzeć do nowszego posta na temat Whispera w bardziej "strawnej" wersji! O, tego właśnie szukałem! Wprawdzie osobiście używam programu Whisper z poziomu języka Python , ale wiem, że nie jest to na nerwy każdego. Stąd bardzo ucieszyłem się, że trafiłem na program Speech Translate , który potrafi wykonać transkrypcję za pomocą Whispera i da się go zainstalować i uruchomić "po ludzku" w systemie Windows 10/11 . Tu szybkie wyjaśnienie dla osób, które nie czytały wpisu o Whisperze - Whisper dokonuje transkrypcji plików dźwiękowych z wykorzystaniem sieci neuronowych (a konkretnie jednego z pięciu dostępnych modeli takiej sieci: tiny , base , small , medium i large ). Każdy kolejny model jest bardziej złożony i skorzystanie z niego wiąże się z wydłużeniem procesu transkrypcji, ale jednocześnie dostarcza on dokładniejszego, lepszego rezultatu. Proces transkrypcji wymaga dużej mocy obliczeniowej, tym większej, im bardziej skomplikowanego mo

Reaper NIE jest darmowy!

Obraz
Przepraszam za krzyk w tytule, ale naprawdę, czasem aż ręce opadają, kiedy znowu i znowu czyta się domorosłych "producentów", polecających innym DARMOWEGO Reapera . Oczywiście, nie mam nic przeciwko polecaniu tego programu, bo sam tak robię, uważając go za świetny kawałek software'u , ale na pewno nie jest on darmowy i ten mit należy wykorzenić. Skąd się to bierze? Mit o darmowości Reapera bierze się z dwóch rzeczy: niechęci użytkowników do płacenia za cokolwiek oraz tego, że twórcy Reapera nie wprowadzili do tego programu żadnych zabezpieczeń, słusznie skądinąd wychodząc z założenia, że takie zabezpieczenia nic nie dają, bo prędzej czy później zostają złamane. Zatem Reaper po zakończeniu dwumiesięcznego okresu próbnego po prostu wyświetla monit o konieczności zakupu licencji, licząc na uczciwość użytkowników. Dodajmy, że cena licencji, zwłaszcza w porównaniu do czołowych DAW-ów takich jak Cubase , Studio One czy Ableton , jest śmiesznie mała i wynosi 60 dola

Praktyka nagrywania w terenie

Obraz
Mamy początek stycznia, co absolutnie nie oznacza siedzenia w domu - nagrania terenowe odbywają się cały czas, zmienił się tylko ich charakter. Chwilowo nie nagrywam "foleyów", a mowę. Przy okazji, czy wiecie, skąd się wziął termin "foley" na określenie różnych nagranych odgłosów i dźwięków? Legenda głosi, że w dobie pojawiania się filmów dźwiękowych Universal Studios miało już niemal gotowy niemy film "Statek komediantów". Żeby przerobić go na film dźwiękowy, zlecono niejakiemu Jackowi Foleyowi dogranie odgłosów w postprodukcji, a ten wywiązał się z tego zadania tak dobrze, że stał się "ojcem" rodzącej się wówczas dziedziny nagrywania i dogrywania dźwięków. Z pewnością znacie "odgłosy Foleya", czyli np. końskie kopyta udawane łupinami orzechów kokosowych czy kroki na śniegu, robione przez ugniatanie mąki. To właśnie w ten pomysłowy sposób (oraz - oczywiście - nagrywaniem w naturze prawdziwych odgłosów) Foley udźwiękawiał pierwsze fil