ElevenLabs Audio Native na WordPressie – praktyczny poradnik krok po kroku
Bartosz Sroczyński
Bartosz Sroczyński
ElevenLabs Audio Native to embedded player, który sam generuje wersję audio Twoich artykułów. Osadzasz jeden snippet HTML w szablonie strony. Od tego momentu player parsuje treść każdego artykułu, generuje nagranie głosem AI przy pierwszej wizycie czytelnika i cachuje wynik. Kolejne osoby dostają gotowe audio od razu.
Brzmi prosto – i technicznie jest proste. Ale po drodze trafiłem na problem, którego nie opisuje dokumentacja ElevenLabs. Parser czytał na głos podpisy pod zdjęciami. Rozwiązanie okazało się eleganckie, choć znalezienie go wymagało testów na własnym WordPressie.
ElevenLabs w oficjalnej dokumentacji rekomenduje plugin WPCode. Cały proces wygląda tak:
<div> + jeden <script>).Gotowe. Player pojawia się automatycznie nad treścią każdego artykułu. Redakcja nie musi nic robić – publikujesz tekst, audio generuje się samo.
Można też wkleić kod bezpośrednio do pliku szablonu motywu. Odradzam – aktualizacja motywu nadpisze Twoje zmiany. WPCode trzyma snippet niezależnie od motywu.
Przed uruchomieniem na produkcji ogranicz widoczność playera do zalogowanych użytkowników CMS. Redakcja testuje, czytelnicy nie widzą niedokończonego produktu. Prosty warunek w WPCode i zero stresu na starcie.
Audio Native parsuje całą widoczną treść strony. Całą – łącznie z podpisami pod zdjęciami. Między akapitami o krajobrazach Toskanii nagle słychać: „fot. Jan Kowalski / Shutterstock”. Irytujące i kompletnie psuje odbiór.
Dokumentacja ElevenLabs nie opisuje sposobu na wykluczenie konkretnych elementów HTML. Parser bierze wszystko, co widzi.
Postawiłem testowego WordPressa i systematycznie sprawdzałem, jak parser traktuje różne tagi. Wynik: tagi <figcaption> są automatycznie pomijane.
<figcaption> to semantyczny tag HTML5 przeznaczony do podpisów pod zdjęciami. ElevenLabs słusznie traktuje go jako element, który nie powinien trafiać do narracji audio.
Problem na większości portali? Podpisy zdjęć siedzą w zwykłych tagach <p>. Dla parsera to kolejny akapit tekstu. Hurtowa zamiana <p> na <figcaption> w podpisach rozwiązała sprawę. Żadnych fotografów w audio.
Zapamiętaj: jeśli planujesz Audio Native, sprawdź jak Twój CMS generuje podpisy zdjęć. Jeśli używa <p> – zamień na <figcaption> przed uruchomieniem playera. Na dziś to jedyny sposób na wykluczenie podpisów z narracji.
Typowy artykuł ma 5–10 tys. znaków. Archiwum 500 tekstów to 2,5–5 mln kredytów do przetworzenia na start. Policz to przed wyborem planu – unikniesz niespodzianki na fakturze.
Po uruchomieniu na produkcji system generuje audio dla każdego artykułu przy pierwszej wizycie czytelnika. W pierwszych dniach przetworzy dziesiątki lub setki tekstów naraz. Startuj z wyższym planem na pierwszy miesiąc. Po przetworzeniu archiwum zużycie spada do poziomu nowych publikacji.
ElevenLabs oferuje głosy standardowe (wliczone w plan) i premium (dodatkowy koszt). Na treściach informacyjnych różnica jest minimalna – standardowe głosy w 2026 roku brzmią naprawdę dobrze. Na reportażach i treściach emocjonalnych premium wypadają lepiej, ale to kwestia budżetu.
<figcaption> dla podpisów, <aside> dla elementów pobocznych.<figcaption>.Audio Native to 15 minut konfiguracji i automatyczne audio na każdym artykule. Prawdziwa wartość tego poradnika to informacja o <figcaption> – coś, czego nie znajdziesz w oficjalnej dokumentacji. Zamień podpisy zdjęć na semantyczny HTML, zanim odpalasz player. Zaoszczędzisz sobie godzin debugowania.
Samo narzędzie nie jest idealne. Parser nie daje kontroli, głos AI nie zastąpi lektora, a koszty przy dużym archiwum wymagają kalkulacji. Mimo to – jeśli chcesz dodać audio do setek artykułów bez studia nagraniowego, Audio Native robi robotę.
Planujesz Audio Native na swojej stronie? Pomożemy z konfiguracją, doborem głosu i rozwiązaniem problemów technicznych – takich jak ten z podpisami zdjęć. Porozmawiajmy →
Zobacz, jak to wdrożyliśmy
Agent AI umawiający sesje, automatyczne follow-upy i wyceny w kilka minut – konkretne rozwiązania z naszego studia, które oszczędzają godziny tygodniowo.
Praktyczny przegląd narzędzi AI w produkcji audio – klonowanie głosu, automatyczna transkrypcja, inteligentne miksowanie i automatyzacja workflow.
Najczęstsze błędy techniczne w produkcji podcastów i jak ich uniknąć. Mikrofon, akustyka, loudness, intro i editing – praktyczny poradnik.