Przejdź do treści
ElevenLabsAudio Nativetext-to-speechWordPressAI audio

ElevenLabs Audio Native na WordPressie – praktyczny poradnik krok po kroku

Bartosz Sroczyński

Bartosz Sroczyński

· 5 min czytania

Automatyczne audio na WordPressie – o co chodzi

ElevenLabs Audio Native to embedded player, który sam generuje wersję audio Twoich artykułów. Osadzasz jeden snippet HTML w szablonie strony. Od tego momentu player parsuje treść każdego artykułu, generuje nagranie głosem AI przy pierwszej wizycie czytelnika i cachuje wynik. Kolejne osoby dostają gotowe audio od razu.

Brzmi prosto – i technicznie jest proste. Ale po drodze trafiłem na problem, którego nie opisuje dokumentacja ElevenLabs. Parser czytał na głos podpisy pod zdjęciami. Rozwiązanie okazało się eleganckie, choć znalezienie go wymagało testów na własnym WordPressie.

Konfiguracja – WPCode i 15 minut

ElevenLabs w oficjalnej dokumentacji rekomenduje plugin WPCode. Cały proces wygląda tak:

  1. Zainstaluj WPCode w panelu WordPressa.
  2. Skopiuj snippet Audio Native z panelu ElevenLabs (jeden <div> + jeden <script>).
  3. W WPCode dodaj nowy snippet, wklej kod, ustaw „Auto Insert” → „Insert Before Content”.
  4. Zapisz i aktywuj.

Gotowe. Player pojawia się automatycznie nad treścią każdego artykułu. Redakcja nie musi nic robić – publikujesz tekst, audio generuje się samo.

Można też wkleić kod bezpośrednio do pliku szablonu motywu. Odradzam – aktualizacja motywu nadpisze Twoje zmiany. WPCode trzyma snippet niezależnie od motywu.

Wskazówka: testuj na zamkniętym środowisku

Przed uruchomieniem na produkcji ogranicz widoczność playera do zalogowanych użytkowników CMS. Redakcja testuje, czytelnicy nie widzą niedokończonego produktu. Prosty warunek w WPCode i zero stresu na starcie.

Problem: parser czyta podpisy zdjęć

Audio Native parsuje całą widoczną treść strony. Całą – łącznie z podpisami pod zdjęciami. Między akapitami o krajobrazach Toskanii nagle słychać: „fot. Jan Kowalski / Shutterstock”. Irytujące i kompletnie psuje odbiór.

Dokumentacja ElevenLabs nie opisuje sposobu na wykluczenie konkretnych elementów HTML. Parser bierze wszystko, co widzi.

Rozwiązanie: tag figcaption

Postawiłem testowego WordPressa i systematycznie sprawdzałem, jak parser traktuje różne tagi. Wynik: tagi <figcaption> są automatycznie pomijane.

<figcaption> to semantyczny tag HTML5 przeznaczony do podpisów pod zdjęciami. ElevenLabs słusznie traktuje go jako element, który nie powinien trafiać do narracji audio.

Problem na większości portali? Podpisy zdjęć siedzą w zwykłych tagach <p>. Dla parsera to kolejny akapit tekstu. Hurtowa zamiana <p> na <figcaption> w podpisach rozwiązała sprawę. Żadnych fotografów w audio.

Zapamiętaj: jeśli planujesz Audio Native, sprawdź jak Twój CMS generuje podpisy zdjęć. Jeśli używa <p> – zamień na <figcaption> przed uruchomieniem playera. Na dziś to jedyny sposób na wykluczenie podpisów z narracji.

Ile to kosztuje

Cennik ElevenLabs (luty 2026)

  • Pro – 99$/mies., 500 tys. kredytów (~500 min TTS). Minimum dla małych blogów.
  • Scale – 330$/mies., 2 mln kredytów (~2 000 min). Realistyczny punkt wejścia dla portalu z setkami artykułów.
  • Business – 1 320$/mies., 11 mln kredytów (~11 000 min). Dla dużych wydawnictw.

Typowy artykuł ma 5–10 tys. znaków. Archiwum 500 tekstów to 2,5–5 mln kredytów do przetworzenia na start. Policz to przed wyborem planu – unikniesz niespodzianki na fakturze.

Spike kredytów na starcie

Po uruchomieniu na produkcji system generuje audio dla każdego artykułu przy pierwszej wizycie czytelnika. W pierwszych dniach przetworzy dziesiątki lub setki tekstów naraz. Startuj z wyższym planem na pierwszy miesiąc. Po przetworzeniu archiwum zużycie spada do poziomu nowych publikacji.

Premium vs standardowe głosy

ElevenLabs oferuje głosy standardowe (wliczone w plan) i premium (dodatkowy koszt). Na treściach informacyjnych różnica jest minimalna – standardowe głosy w 2026 roku brzmią naprawdę dobrze. Na reportażach i treściach emocjonalnych premium wypadają lepiej, ale to kwestia budżetu.

Na co uważać

  1. Parser to czarna skrzynka. Brak granularnej kontroli nad tym, co trafia do audio. Jedyna obrona to poprawna semantyka HTML – <figcaption> dla podpisów, <aside> dla elementów pobocznych.
  2. AI to nie lektor. Po 20 latach w produkcji audio słyszę różnicę od razu. Na artykuły informacyjne – wystarcza. Na treści emocjonalne – rozważ profesjonalną produkcję z lektorem.
  3. Vendor lock-in. Audio Native to produkt ElevenLabs. Zmiana cennika lub API = utrata audio. Nie istnieje standard eksportu.
  4. Dokumentacja nie pokrywa edge case’ów. Najszybciej dojdziesz do rozwiązania testując na własnej instancji. Tak odkryłem zachowanie parsera z <figcaption>.

Jeden snippet, jedno odkrycie

Audio Native to 15 minut konfiguracji i automatyczne audio na każdym artykule. Prawdziwa wartość tego poradnika to informacja o <figcaption> – coś, czego nie znajdziesz w oficjalnej dokumentacji. Zamień podpisy zdjęć na semantyczny HTML, zanim odpalasz player. Zaoszczędzisz sobie godzin debugowania.

Samo narzędzie nie jest idealne. Parser nie daje kontroli, głos AI nie zastąpi lektora, a koszty przy dużym archiwum wymagają kalkulacji. Mimo to – jeśli chcesz dodać audio do setek artykułów bez studia nagraniowego, Audio Native robi robotę.

Planujesz Audio Native na swojej stronie? Pomożemy z konfiguracją, doborem głosu i rozwiązaniem problemów technicznych – takich jak ten z podpisami zdjęć. Porozmawiajmy →

Chcesz profesjonalną produkcję audio?

Porozmawiajmy o Twoim projekcie.

Porozmawiajmy