Jak AI pomáhá vyjádřit vaši náladu: co umí Lyria 3 a Lyria 3 Pro od Googlu

Abstraktní vizuální znázornění hudby a emocí s proudícími světelnými vlnami a zvukovými motivy v moderním technologickém stylu

Hudba byla dlouho jednou z těch oblastí, kde se technologie a emoce potkávaly jen částečně. Měli jsme nástroje pro nahrávání, editaci a distribuci, ale samotný vznik písně pořád zůstával doménou lidí, kteří uměli hrát, skládat nebo produkovat. S příchodem generativní AI se to začíná měnit.

Google teď posouvá tenhle směr dál s modely Lyria 3 a Lyria 3 Pro, které dokážou vytvářet hudbu z textového zadání, ale také z obrázků, souborů nebo velmi konkrétních instrukcí. Nejde přitom jen o technickou ukázku. Zajímavé je hlavně to, jak Google o těchto nástrojích mluví: ne jako o náhradě hudebníků, ale jako o prostředku pro kreativní vyjádření.

Právě to bylo hlavním tématem rozhovoru v podcastu Made by Google, kde Rashid Finch mluvil se senior product managerem Joelem Jawilim. Výsledkem je poměrně jasný obraz toho, kam Google s AI hudbou míří, komu má sloužit a proč může být důležitá i pro lidi, kteří nikdy nesložili jediný akord.

Obsah

🎵 Lyria 3 není jen generátor hudby. Je to nástroj pro osobní vyjádření

Když Joel Jawili popisuje, co Lyria 3 vlastně je, nepoužívá jen technický jazyk. Ano, formálně jde o model pro generování hudby. Jenže v praxi ho rámuje mnohem šířeji. Podle něj je to nástroj, který lidem umožňuje být kreativní, a tato kreativita může vypadat velmi různě.

Někdo si může nechat vytvořit krátkou personalizovanou písničku pro kamaráda. Malá firma může použít hudbu pro kampaň, kterou potřebuje mít přesně na míru. Tvůrce na YouTube může vyladit atmosféru svého obsahu bez toho, aby musel shánět hotovou skladbu. Základní myšlenka ale zůstává stejná: AI má pomoci přeložit nápad, vzpomínku nebo náladu do zvuku.

Tohle je důležitý posun v tom, jak o generativní AI přemýšlet. Nejde jen o to, že model „umí složit píseň“. Důležitější je, že dokáže převést lidský záměr do formy, která byla dřív pro většinu lidí nedostupná. Pokud někdo neumí hrát na kytaru, neovládá hudební teorii a nikdy nepoužíval produkční software, ještě to neznamená, že nemá hudební nápad. Lyria 3 se snaží tenhle rozdíl zmenšit.

Právě v tom je zajímavý i samotný název epizody o „vyjádření své vibe“. Nejlepší využití modelu nejsou nutně velké umělecké projekty. Často jde o drobné, osobní, překvapivě lidské situace.

💌 Když AI pomůže říct něco, co se těžko říká slovy

Ze všech příkladů, které Joel zmiňuje, mě nejvíc zaujal jeden velmi osobní. Popsal situaci, kdy mu na síti X napsal člověk, který poděkoval týmu za vytvoření nástroje. Důvod byl jednoduchý a silný zároveň. Ten člověk měl přítele, od kterého se v průběhu let odcizil. Chtěl obnovit kontakt, ale dlouho nedokázal najít správná slova.

Když Google spustil verzi modelu pro 30sekundové skladby, použil ji k vytvoření krátké písně, která vyjádřila vše, co sám neuměl přímo říct. Píseň poslal svému příteli a oba se znovu spojili.

Tohle je přesně ten moment, kdy technologická novinka přestane působit jako demo a začne dávat smysl v běžném životě. AI hudba tu není jen kvůli efektu. Může fungovat jako prostředek komunikace, zejména tam, kde jsou emoce komplikované, slova těžká a forma důležitá.

Joel zmiňuje i další nečekané scénáře. Lidé podle něj zkoušeli zadávat do Lyrie různé služby a nechat je převést do krátkých písní. Jiní do ní vkládali zápisy ze schůzek a měnili je na hudbu. To už možná zní trochu hravěji nebo bizarněji, ale ukazuje to jednu důležitou věc: uživatelé rychle objevují vlastní způsoby použití, které vývojáři nemuseli předem přesně předvídat.

🧠 Kdo vlastně takový hudební AI model staví

Často se mluví o AI produktech, jako by vznikaly někde za zavřenými dveřmi mezi výzkumníky a inženýry. Joel tenhle obraz trochu narušuje. Vysvětluje, že za Lyrie nestojí jen čistě techničtí specialisté, ale širší tým lidí s různým vztahem k hudbě.

Na jedné straně jsou výzkumníci a inženýři, kteří řeší samotné modely. Na druhé straně jsou lidé z produktových týmů a dalších rolí, kteří nemusejí být hudebně školení, ale rozumějí tomu, jak různí lidé hudbu používají. A mezi tím je široké spektrum zkušeností, podobně jako v běžném světě.

Někdo hudbu jen rád poslouchá. Někdo rozumí jejím strukturám. Někdo je trénovaný hudebník. Někdo je „uprostřed“, což je podle Joela i jeho vlastní případ. Hudbu miluje, něco o ní ví, ale není klasicky školený muzikant.

Tohle složení týmu je důležité, protože pokud chcete stavět nástroj pro široké publikum, nestačí, aby mu rozuměli jen experti. Potřebujete i perspektivu lidí, kteří budou model používat intuitivně, bez odborného zázemí.

Joel to vystihl velmi lidsky, když připomněl známé africké rčení, že „je potřeba celá vesnice“. Narodil se v Kongu, vyrůstal v Jižní Africe a právě tohle spojení různých zkušeností podle něj sedí i na vývoj AI hudebního produktu. Aby model fungoval pro mnoho typů lidí, musí ho spoluvytvářet mnoho typů lidí.

🌍 Chvíle, kdy se z technologického projektu stane něco skutečného

Každý nový AI model má obvykle jednu fázi, kdy přestane být interním experimentem a začne působit jako něco opravdu silného. U Lyrie přišel pro Joela tenhle okamžik ve chvíli, kdy si model vyzkoušel s velmi osobním zadáním.

Zadal jednoduchý prompt: chtěl píseň z Kinshasy, města, kde se narodil. A model nevrátil jen obecnou skladbu s neurčitou „africkou“ náladou. Podle jeho popisu zachytil konkrétní kulturní nuance. Použil lingalu, místní jazyk, a dokonce i hudební prvky typické právě pro tamní styl, například momenty, kdy se hudba zastaví, někdo mluví přes skladbu a pak se rytmus znovu vrátí.

Na tom je dobře vidět, proč Google tolik zdůrazňuje propojení s Gemini. Multimodální modely nejsou užitečné jen proto, že umějí pracovat s více typy vstupů. Výhoda je i v tom, že mají širší povědomí o světě, kontextu, jazyce a kulturních souvislostech. V ideálním případě tak nevytvářejí jen technicky správný zvuk, ale něco, co působí věrohodněji a osobněji.

Joel šel ještě dál a při dřívějším uvedení 30sekundové verze vytvořil písničku pro svou maminku. Byla inspirovaná vzpomínkou na plantainy, které mu doma připravovala, a sloužila jako poděkování. To je zase jiný, ale podobně silný příklad. AI tu nefunguje jako generátor anonymního obsahu, ale jako prostředník vzpomínky.

⏱️ Co přináší Lyria 3 Pro navíc oproti základní verzi

Na první pohled může rozdíl mezi Lyria 3 a Lyria 3 Pro působit prostě. Základní model zvládá kratší skladby, Pro verze delší. Jenže Joel vysvětluje, že nejde jen o natažení stopáže z 30 sekund na tři minuty.

Lyria 3 Pro přidává několik zásadních vrstev kontroly a kvality:

  • Delší skladby až kolem tří minut.
  • Lepší hudební kvalitu, tedy vyzrálejší výsledek po zvukové i kompoziční stránce.
  • Lepší kvalitu textů, což je u písní klíčové.
  • Silnější strukturální povědomí, takže model lépe chápe stavbu skladby.
  • Jemnější ovládání promptem, včetně detailních přechodů mezi částmi písně.

Právě strukturální kontrola zní jako jedna z největších novinek. Místo obecného zadání lze teď mnohem přesněji specifikovat, zda má skladba mít intro, jak dlouhé má být, kde má přijít bridge, refrén nebo sloka. Uživatel tak není odkázaný jen na to, co model sám odhadne jako „typickou píseň“, ale může aktivně navrhovat její architekturu.

Joel mluví i o velmi konkrétním experimentu, kdy se snažil zadat, aby v jedné části zpíval mužský hlas, ve 46. sekundě se připojil ženský vokál a později oba zpívali společně. Taková úroveň řízení naznačuje, že Lyria 3 Pro už míří nejen na rychlé hravé pokusy, ale i na náročnější kreativní práci.

Pro běžného uživatele to znamená hlavně jedno: pokud chce jen rychle vytvořit nápaditou hudební miniaturu, může sáhnout po jednodušším zadání. Pokud ale chce skladbu opravdu tvarovat, Pro verze dává mnohem víc prostoru.

✍️ Proč jsou texty písní samostatný problém

Na AI hudbě se snadno obdivuje melodie, rytmus nebo celkový styl. Jenže text písně je jiný typ výzvy. A Joel otevřeně říká, že Google hudební a textovou část vnímá jako dvě odlišné pracovní oblasti, i když navenek působí jako jeden celek.

Dává to smysl. Text pro hiphopovou skladbu nevzniká stejným způsobem jako text pro country. Nestačí „napsat nějaká slova, která se rýmují“. Každý žánr má svoje rytmické, tematické a jazykové nuance. To, co zní přirozeně v jednom stylu, může v jiném působit úplně mimo.

Proto je podle něj potřeba model učit i jemnosti jednotlivých žánrů, aby text nebyl jen technicky použitelný, ale také věrohodný vzhledem ke stylu skladby. To je důležitý detail, protože ukazuje, že generování hudby není jedna schopnost. Je to kombinace více vrstev, které musí fungovat dohromady:

  • pochopení žánru,
  • hudební stavby,
  • vokálního projevu,
  • jazyka,
  • a často i kulturního kontextu.

Google zároveň naznačuje, že právě kvalita textů je oblast, kde chce v příštím roce dál výrazně zlepšovat výsledky. To působí realisticky. Hudba generovaná AI je už dnes schopná být efektní, ale texty stále často rozhodují o tom, jestli skladba působí jako nápad, nebo jako něco, k čemu se člověk rád vrátí.

🤝 Gemini jako textový parťák pro lepší písně

Jedna z nejpraktičtějších rad, kterou Joel nabízí, se týká spolupráce mezi Gemini a Lyrií. Lyria sice umí texty generovat sama, ale pro pokročilejší použití doporučuje jiný postup: nejdřív si pomocí Gemini připravit nebo vyladit text, a teprve potom ho vložit do Lyrie.

Tohle je chytrý tip hlavně pro lidi, kteří už mají konkrétní představu. Gemini může fungovat jako kreativní spoluautor. Pomůže hledat formulace, upravovat tón, strukturovat sloky nebo zpřesnit sdělení. Jakmile je text připravený, Lyria ho může zhudebnit v požadovaném stylu.

Tenhle dvoukrokový přístup hezky ukazuje sílu AI ekosystému jako celku. Nejde jen o jeden model, který umí všechno. Často je lepší využít různé nástroje na různé části tvůrčího procesu.

Zároveň to otevírá dveře lidem, kteří chtějí mít nad výsledkem větší kontrolu. Místo čistě automatického generování mohou aktivně spolupracovat s modelem a postupně si výsledek „dopsat“ a „dokomponovat“ k obrazu svému.

🖼️ Od fotek k písním a od písní k vlastním obalům

Jedna z nejzajímavějších vlastností Lyrie souvisí s multimodalitou. Zadání nemusí být jen textové. Je možné nahrát obrázek nebo dokonce soubor a nechat model, aby z něj vyčetl inspiraci pro text nebo celou skladbu.

Představa je jednoduchá, ale silná: nahrajete fotku svého mazlíčka, společnou fotku s přáteli nebo třeba snímek z dovolené a AI z ní vytvoří píseň. V takovém případě už nejde jen o hudební generaci v technickém smyslu. Je to převod vizuální vzpomínky do zvuku.

Google navíc přidal i další vrstvu personalizace v podobě obalů skladeb. V původní verzi systém obal automaticky navrhl sám. U Lyria 3 Pro je možné výsledek více přizpůsobit. Uživatel může nahrát vlastní fotografii nebo fotky přátel a s pomocí obrazové AI pak vytvořit cover art šitý na míru konkrétní skladbě.

To může znít jako detail, ale ve skutečnosti je to chytrý tah. Písnička bez vizuální identity působí méně dokončeně. Když ke skladbě vznikne i obal, dostává celý výstup mnohem hotovější podobu. A právě pocit „tohle je opravdu moje“ je u těchto nástrojů zásadní.

⚖️ Nahrazuje AI umělce, nebo je posiluje?

Otázka, která kolem generativní AI zaznívá neustále, se nevyhýbá ani hudbě. Pokud AI dokáže vytvořit skladbu, nejsme už spíš „zadavatelé“ než tvůrci? Neposouvá se role člověka od malíře k tomu, kdo jen drží štětec?

Joel na tuhle obavu reaguje opatrně, ale jasně. Google si podle něj uvědomuje, že pro část lidí je generativní AI děsivá a pro jinou část velmi osvobozující. Právě proto se snaží hledat rovnováhu.

Důležité je, že Lyria 3 byla vyvíjena ve spolupráci s umělci. Ne jako izolovaný technický experiment bez kontaktu s hudební scénou. To samo o sobě neřeší všechny otázky, ale ukazuje to snahu vyvíjet nástroj s ohledem na lidi, kterých se týká nejvíc.

Nejpodstatnější věta z jeho odpovědi je ale jiná: cílem není nahrazovat, ale posilovat. Google podle něj nechce stavět nástroje, které lidskou tvorbu vytlačí. Chce vytvářet možnosti, které rozšíří, co lze udělat.

To je samozřejmě ideál a o jeho naplnění se povede ještě hodně debat. Přesto je dobré si všimnout, jakou roli Lyria dostává. Nemá být automatickou továrnou na hudbu. Má být kreativním rozhraním, které lidem pomůže dostat ven nápady, pro něž dřív neměli prostředky.

🛡️ SynthID a snaha o odpovědnější AI média

S generativními modely přichází i velmi praktická otázka: jak poznat, že nějaký obrázek, video nebo skladba vznikly pomocí AI? Google na to používá technologii SynthID, která hraje roli i u Lyrie.

Princip, jak ho Joel popisuje, je poměrně přímočarý. Do mediálních výstupů vytvořených nástroji Googlu se vkládá identifikační vrstva. Když pak někdo nahraje médium zpět do systému, Gemini dokáže analyzovat, zda bylo vytvořeno některým z těchto nástrojů.

Cílem je pomoci s orientací v době, kdy se internet plní AI obsahem a stále častěji se mluví o takzvaném „AI slopu“, tedy masově produkovaném, nekvalitním nebo matoucím obsahu. U hudby je to obzvlášť citlivé. Když se hranice mezi lidskou a strojovou tvorbou začne rozmazávat, nástroje pro označování původu jsou čím dál důležitější.

SynthID samozřejmě není řešením všech problémů kolem autenticity a dezinformací. Ale v kontextu generativních médií je to důležitá část skládačky. Google tím dává najevo, že vedle kreativity řeší i důvěryhodnost.

📍 Kde si Lyria 3 a Lyria 3 Pro vyzkoušet

Přestože Joel sám používá Lyria hlavně v aplikaci Gemini, model není omezený jen na jedno místo. Google ho rozšiřuje napříč svými produkty a platformami, což naznačuje, že AI hudbu bere jako širší infrastrukturu, ne jako izolovanou funkci.

Lyria je dostupná v několika prostředích:

  • Gemini app pro běžné používání a experimentování.
  • AI Studio, kde mohou vývojáři využít API Lyria 3.
  • YouTube Dream Track pro tvůrce, kteří chtějí přizpůsobit hudbu pro svůj obsah.
  • Producer AI v Google Labs, kde je dostupná i Lyria 3 Pro.

Tohle rozšíření je důležité i z hlediska cílových skupin. Jeden a tentýž model může sloužit různým typům uživatelů. Někdo si chce jen udělat osobní písničku pro kamaráda. Někdo jiný potřebuje API pro vlastní aplikaci. A někdo další hledá pracovní nástroj pro produkci online obsahu.

🧩 Jak psát prompty, aby Lyria vytvořila lepší hudbu

Nejpraktičtější část rozhovoru přišla ve chvíli, kdy Joel shrnul svůj rámec pro lepší prompting. Pokud chce člověk z Lyrie dostat co nejlepší výsledek, doporučuje soustředit se na čtyři hlavní složky:

  1. Žánr
  2. Tempo a rytmus
  3. Nástroje
  4. Typ vokálů

1. Žánr

Základ je určit, v jakém stylu má píseň vzniknout. Může to být rap, metal, indie folk, country nebo cokoli dalšího. Model tak dostane první zásadní vodítko.

2. Tempo a rytmus

Další vrstvou je energie skladby. Má být taneční? Pomalá? Má mít silný drivový beat, nebo spíš jemný baladický tok? Právě tempo často rozhoduje o tom, jakou náladu bude píseň mít.

3. Nástroje

Nástroje dramaticky mění atmosféru. Saxofon, zkreslená baskytara, fuzzy kytara nebo jemné klávesy vytvoří úplně jiné dojmy. Čím přesněji člověk nástrojové obsazení popíše, tím věrnější bývá výsledek jeho představě.

4. Vokály

Pokud skladba nemá být instrumentální, je dobré popsat i hlas. Joel mluví například o hlubokém mužském barytonu, ženském sopránu nebo chraplavém rockovém projevu. I tohle je důležité, protože charakter hlasu zásadně ovlivňuje výslednou identitu písně.

K tomu je dobré připojit i samotné texty, pokud je člověk má. A pokud naopak vokály nechce vůbec, lze je jednoduše vynechat a zadat instrumentální skladbu.

Jinými slovy, čím konkrétnější prompt, tím více se Lyria přiblíží přesné představě. Ale zároveň Google nechce, aby systém fungoval dobře jen pro „profesionální zadavatele“. To souvisí s jeho širší vizí do budoucna.

📚 Instrumentály, lo-fi a další praktická využití

Jedna z užitečných poznámek, která by mohla snadno zapadnout, se týká instrumentálních skladeb. Joel připomíná, že pokud někdo nechce zpěv, může si jednoduše říct o hudbu bez vokálů.

To rozšiřuje použitelnost Lyrie i mimo klasické „udělej mi písničku“. Najednou z ní může být nástroj pro:

  • podkresovou hudbu,
  • studijní lo-fi beaty,
  • atmosférické pozadí k videu,
  • rychlé hudební skici pro další tvorbu.

Právě tahle všestrannost může být v praxi zásadní. Ne každý potřebuje kompletní song se slokami a refrény. Někdo chce jen správnou náladu. A to je oblast, kde může AI hudební model nabídnout okamžitý užitek i lidem, kteří se o „AI songs“ jinak moc nezajímají.

🚀 Kam chce Google s Lyrií dál směřovat

Na otázku, co bude s Lyrií dál, Joel odpovídá jazykem produktového manažera, ale myšlenka je jasná. Google chce zároveň zvýšit podlahu i strop.

V běžnější řeči to znamená dvě věci.

Za prvé, model má být čím dál lepší i pro lidi, kteří přijdou jen s hrubým nápadem. Pokud někdo napíše prostě jen „chci rapovou písničku“, systém by měl i tak vrátit kvalitní výsledek. Ne každý umí popsat nástroje, hlas, strukturu nebo tempo. AI by měla zvládnout pomoct i bez perfektního zadání.

Za druhé, pokročilí uživatelé mají dostat více možností pro detailní ovládání. Hudebně vzdělaní tvůrci, producenti nebo techničtější youtubeři mohou chtít mnohem jemnější kontrolu. A právě tam má Lyria v dalších verzích nabídnout ještě širší prostor pro přesnou personalizaci.

Je to rozumná strategie. Pokud by Google šel jen po jednoduchosti, zůstala by Lyria hračkou. Pokud by šel jen po pokročilých funkcích, ztratila by přístupnost. Cíl je zjevně obojí: udělat z AI hudby nástroj, který je snadný na vstup a zároveň dostatečně silný pro náročnější použití.

🎤 Nejzábavnější část? Míchání nemožných žánrů

Možná nejradostnější moment celého rozhovoru přišel na závěr, když Rashid nadhodil otázku na žánrové kombinace, které na papíře nedávají smysl, ale ve výsledku fungují.

Joel bez váhání přiznal, že takové experimenty dělá. Zkoušel třeba kombinovat hudbu z Kinshasy s country. A v interním týmovém chatu se podle něj objevují i takové nápady jako jódlující rap.

Zní to absurdně, ale přesně to vystihuje jednu z největších předností generativních hudebních modelů. Umožňují zkoušet věci, které by byly v běžném studiu časově, finančně nebo technicky příliš náročné. AI tu není jen nástroj efektivity. Je to i nástroj odvážného experimentu.

A právě tam možná leží její nejzajímavější budoucnost. Ne v napodobování toho, co už existuje, ale v otevírání kombinací, které by člověka dřív ani nenapadly, nebo které by nedokázal snadno uskutečnit.

💡 Proč na Lyria 3 stojí za to dávat pozor

Lyria 3 a Lyria 3 Pro nejsou jen dalšími AI funkcemi, které umějí „něco vytvořit“. V tom, jak je Google představuje, je vidět širší ambice. Hudba se tu stává jazykem, do kterého lze překládat vzpomínky, obrázky, emoce, nápady i drobné osobní příběhy.

Na jedné straně je to stále technologie v rané a rychle se vyvíjející fázi. Google sám mluví o tom, že chce dál zlepšovat kvalitu textů, hudební výstupy i kontrolu nad strukturou skladeb. Na druhé straně už teď působí Lyria jako nástroj, který může být pro mnoho lidí překvapivě užitečný.

Nejzajímavější na celé věci je, že Google nestaví hudební AI jen pro hudebníky. Staví ji i pro lidi, kteří si chtějí udělat písničku z fotky, proměnit osobní vzpomínku ve zvuk nebo poslat někomu zprávu jinak než jen obyčejným textem.

A pokud se tenhle směr udrží, možná se za pár let nebudeme ptát, jestli AI umí skládat hudbu. Místo toho budeme řešit něco mnohem přirozenějšího: jak přesně chceme, aby zněla naše vlastní nálada.


Další inspirace: Pokud chcete vidět, jak Google v praxi představuje AI nástroje (včetně „Made by Google“ formátů a aktualit kolem Gemini), můžete mrknout i na YouTube Google.

Share this post

AI World Vision

AI and Technology News