Build Hour: GPT-Realtime-2 ukázal, kam se posouvá hlasová AI pro reálné produkty

Futuristická holografická scéna zobrazující hlasovou AI s audio vlnami a abstraktními symboly překladu a automatizace bez textu

Hlasové rozhraní bývalo dlouho něco, co působilo efektně v demu, ale v praxi často naráželo na limity. Odpovědi byly pomalé, práce s nástroji omezená, konverzace křehká a přerušení nebo šum v okolí dokázaly celý zážitek rychle pokazit. Právě proto mě zaujala poslední Build Hour od OpenAI, která se soustředila na trojici nových audio modelů a hlavně na GPT-Realtime-2.

Nejde jen o další hlasový model. Z toho, co bylo předvedeno, je vidět posun směrem k AI systémům, které nejen mluví přirozeněji, ale také reálně vykonávají práci. Umí překládat živou řeč, přepisovat audio s nízkou latencí, volat více nástrojů paralelně, udržet kontext přes delší relace a zapojit rozumování přímo do hlasové interakce.

To je důležité, protože dnešní firmy nechtějí jen „mluvící chatbot“. Chtějí asistenta, který zvládne pomoci s nákupem, prohledat analytický dashboard, ověřit počasí, řídit uživatelské rozhraní, držet se pravidel značky a v ideálním případě fungovat i ve složitých produkčních podmínkách. Přesně kolem toho se celá session točila.

OpenAI během setkání představilo tři nové modely, ukázalo dva konkrétní prototypy a přidalo i velmi užitečný pohled ze světa enterprise customer service díky týmu ze Sierra. Výsledkem byl poměrně jasný obrázek toho, co dnes hlasová AI umí, kde jsou její silné stránky a co je potřeba řešit, pokud ji chci nasadit do skutečného provozu.

Obsah

🎙️ Tři nové realtime audio modely a proč na nich záleží
🧠 Co je v GPT-Realtime-2 nové
🛒 Demo 1: hlasový nákupní asistent, který skutečně ovládá rozhraní
📊 Demo 2: hlas jako rozhraní pro produktovou analytiku
🧩 Tři základní vzory stavby hlasových aplikací
📱 Kde dává voice AI největší smysl
🏢 Sierra ukázala, co obnáší produkční nasazení hlasových agentů
⚠️ Proč je hlas tak těžká disciplína
🛠️ Praktické tipy z Q&A pro vývojáře
🔍 Co si z toho odnáším pro návrh hlasových produktů
🚀 Kde začít, pokud chci s voice agenty experimentovat
📌 Hlasová AI se posouvá z dema do praxe

🎙️ Tři nové realtime audio modely a proč na nich záleží

OpenAI postavilo celé představení kolem tří nových modelů:

GPT-Realtime-Translate pro živý překlad mluvené řeči
GPT-Realtime-Whisper pro streaming speech-to-text
GPT-Realtime-2 jako nejinteligentnější voice model v nabídce

Každý z nich řeší trochu jinou vrstvu hlasového produktu. Společně ale dávají vývojářům možnost stavět systémy, které působí mnohem méně jako klasický pipeline slepený z několika komponent a mnohem více jako soudržný hlasový agent.

GPT-Realtime-Translate

Překlad řeči v reálném čase patří mezi nejpřesvědčivější ukázky toho, proč má multimodální AI smysl. Během prezentace bylo vidět živé překládání do španělštiny, včetně zachování přirozeného průběhu hovoru.

OpenAI uvedlo, že model podporuje více než 70 vstupních jazyků a 13 výstupních jazyků, přičemž cílí na nízkou latenci při streamování. To je typ schopnosti, která je zajímavá nejen pro videohovory a live streamy, ale také pro zákaznickou podporu, mezinárodní obchod nebo interní firemní komunikaci.

Zaujalo mě i to, že součástí ukázky bylo dynamické voice cloning a tone matching. Jinými slovy, systém dokáže rozlišovat různé mluvčí a zachovat dojem, že mluví různí lidé, ne jeden generický hlas. To je detail, který výrazně zlepšuje srozumitelnost v delších konverzacích.

GPT-Realtime-Whisper

Druhý model se soustředí na přepis řeči. Klíčový je tady streaming a možnost ladit latenci. OpenAI mluvilo o hodnotách až kolem 200 milisekund, což už je v praxi dost rychlé na to, aby titulky, poznámky nebo živé ovládání systému působily okamžitě.

Model zvládá 80 vstupních jazyků a podle OpenAI přináší lepší instruction following i možnost dřívějšího function callingu. To znamená, že nejde jen o „text z audia“, ale o přepis, který může být součástí agentního workflow. Přepis tak není slepá mezivrstva, ale aktivní součást rozhodování systému.

Praktické využití je široké:

živé titulky a přepisy
záznamy porad a automatické poznámky
ambientní asistenti, kteří naslouchají a reagují na kontext
rychlejší vstup pro aplikace řízené hlasem

GPT-Realtime-2

Hlavní hvězdou byl samozřejmě GPT-Realtime-2. OpenAI ho popisuje jako svůj nejinteligentnější voice model, který přináší „GPT-5 class reasoning“ do hlasové vrstvy. Ať už se toto označení interpretuje jakkoli, z prezentovaných ukázek je jasné, že klíčový posun je v kombinaci tří věcí:

rozumování přímo v hlasové interakci,
spolehlivější práce s nástroji,
lepší dodržování instrukcí.

Právě tahle trojkombinace dělá z hlasového modelu něco mnohem užitečnějšího než jen sympatický hlas nad chatbotem.

🧠 Co je v GPT-Realtime-2 nové

Když OpenAI mluvilo o novinkách v GPT-Realtime-2, nešlo jen o kosmetické změny. Většina vylepšení míří přesně na bolesti, které vývojáři hlasových aplikací řeší nejčastěji.

Preambles neboli „dej mi chvilku“

Jedna z nejzajímavějších věcí je podpora takzvaných preambles. Model tak může před rozumováním přirozeně říct něco jako „podívám se na to“ nebo „dej mi moment“. Na první pohled drobnost, ale z pohledu UX je to velký rozdíl.

U hlasu je totiž ticho nepříjemné. Člověk snadno získá pocit, že se systém zasekl. Krátká průběžná reakce pomáhá zakrýt čas potřebný pro přemýšlení nebo pro tool calls a zároveň působí lidštěji.

Kontextové okno 128K

OpenAI zvýšilo kontextové okno na 128 tisíc tokenů, což je přibližně čtyřnásobný nárůst. V praxi to znamená, že hlasová relace může držet mnohem delší historii bez agresivního zkracování. Během session zaznělo, že to může odpovídat skoro celé hodinové interakci.

To je důležité zejména pro:

delší zákaznické hovory,
vícekrokové workflow,
analytická šetření,
scénáře, kde instrukce a stav musí zůstat stabilní po celou dobu sezení.

Paralelní tool calls

Místo sekvenčního „vodopádu“ může model nově volat více nástrojů paralelně. To je zásadní pro zrychlení. Pokud potřebuji současně prohledat produktový katalog, vytáhnout recenze a ověřit počasí, nechci čekat na každou operaci zvlášť, pokud to není nutné.

Právě v předvedeném e-commerce scénáři šlo vidět, že tento přístup zkracuje cestu od otázky ke konkrétní akci. Hlasová AI pak nepůsobí jako systém, který každou věc řeší zvlášť, ale spíš jako někdo, kdo se umí rozhodovat napříč více zdroji.

Lepší doménová slovní zásoba

OpenAI zmínilo i lepší porozumění specializované terminologii, třeba v healthcare nebo v oblasti AI. To je důležitější, než se může zdát. Hlasové modely selhávají často právě ve chvíli, kdy se objeví odborné termíny, názvy produktů, interní zkratky nebo neobvyklá jména.

Pokud má být hlasový agent použitelný v produkci, musí zvládat nejen přirozenou konverzaci, ale i specifický jazyk konkrétní firmy nebo oboru.

Kontext napříč tahy a kontrolovatelná expresivita

Další dvě oblasti, které stojí za zmínku:

context over turns, tedy lepší udržení stavu a návaznosti přes více výměn,
controllable expressiveness, tedy možnost říct modelu, aby mluvil nadšeně, tiše, šeptal nebo zněl určitým způsobem.

To první je nezbytné pro agentní systémy. To druhé je zajímavé hlavně pro UX a branding. Hlas už není jen nosič odpovědi, ale součást charakteru produktu.

🛒 Demo 1: hlasový nákupní asistent, který skutečně ovládá rozhraní

První ukázka byla z e-commerce prostředí a podle mě velmi dobře ilustrovala, co znamená spojení hlasu, rozumování a tool callingu.

Scénář byl jednoduchý a přitom realistický. Erika používala nákupního asistenta pro obchod s outdoor vybavením. Připravovala se na výlet do Pacific Northwest a potřebovala doplnit výbavu na túru. Místo ručního klikání prostě mluvila.

Asistent nejdřív vytáhl předchozí nákupní plán a připomněl, co už je nakoupené a co ještě chybí. Následně dostal hlasový pokyn najít stany do 450 dolarů pro tři až čtyři osoby. Systém nejen odpověděl slovně, ale zároveň zvýraznil relevantní produkty v rozhraní.

Tím ale demo teprve začalo být zajímavé.

Od recenzí ke počasí bez opuštění stránky

Erika se neptala jen na cenu a kapacitu. Chtěla znát i jednohvězdičkové a dvouhvězdičkové recenze u dražšího stanu. Model tedy prohledal nízko hodnocené recenze a shrnul nejčastější stížnosti: pomalejší stavění při prvním použití a slabší výkon v silném větru nebo prudkém lijáku.

Pak přišel další logický krok. Pokud se řeší stan pro konkrétní víkend v oblasti Seattlu, dává smysl ověřit počasí. A přesně to asistent udělal. Pomocí externího nástroje zkontroloval předpověď na víkend po příštím týdnu a na základě toho doporučil, zda je stan vhodný.

Tohle je malý, ale velmi výmluvný moment. Hlasový agent tady nehraje roli pasivního odpovídače. Rozhoduje, jaké informace jsou pro nákup relevantní, a propojuje interní i externí zdroje bez toho, aby člověk musel otevírat další karty.

Přidání do košíku a pokračování bez zbytečných třecích ploch

Po ověření počasí asistent přidal vybraný stan do košíku a přešel k dalšímu úkolu, tentokrát k voděodolným turistickým botám. Uměl si přitom pamatovat velikost, pracovat s cenovými preferencemi a otevřít konkrétní produktovou stránku levnější varianty.

Následně Erika požádala o přidání bot do košíku a zobrazení celkové ceny. Systém vše provedl a dokonce navrhl vhodné doplňky, například rain layer nebo footprint ke stanu. Celá interakce působila jako rozhovor s někým, kdo opravdu pomáhá dokončit nákup, ne jako série izolovaných hlasových příkazů.

Proč je tenhle use case důležitý

Na celé ukázce mě zaujaly čtyři věci:

Přirozenost hlasu a možnost jeho řízení.
Schopnost vybírat mezi 15 až 20 nástroji, což by u starších realtime modelů bylo mnohem obtížnější.
Rozumování nad aktuálním stavem stránky, tedy schopnost zjistit, co je právě otevřené a jakou akci dává smysl udělat dál.
Kombinace interních a externích nástrojů, například produktového katalogu a počasí.

Právě tato kombinace dělá z voice commerce zajímavý směr. Místo tradičního „řekni mi klíčové slovo a já ti vrátím výsledek“ vzniká něco mnohem bližšího skutečnému nákupnímu poradci.

📊 Demo 2: hlas jako rozhraní pro produktovou analytiku

Druhá ukázka byla možná ještě praktičtější pro firemní nasazení. Erika se tentokrát přesunula do role produktové manažerky a pracovala s analytickým dashboardem. Cílem bylo prozkoumat problém v evropském regionu, konkrétně pokles výkonu související se Safari.

Tady bylo dobře vidět, že hlasové AI nemusí vždy neustále mluvit. Naopak. V řadě profesionálních workflow člověk nechce poslouchat dlouhé potvrzovací věty po každém kliknutí. Chce, aby systém provedl akci, změnil filtry, připravil porovnání a slovně se ozval jen ve chvíli, kdy je to opravdu užitečné.

Tiché vykonávání práce, hlas jen tam, kde dává smysl

Erika požádala systém, aby filtroval Evropu, nastavil posledních sedm dní a porovnal je s předchozím obdobím. Potom chtěla další relevantní filtry pro šetření problému a model navrhl zaměřit se na voice search, first-time shoppers a kategorii footwear.

Výsledkem bylo odhalení výrazného propadu v aktivaci. Následně spustila hlubší root cause investigation a porovnala mobile Safari s Chrome. Model zjevně pracoval nad velkým množstvím dat, dashboard upravoval a přitom držel nit celého vyšetřování.

Na konci přišla velmi praktická žádost: shrnout nahlas ve dvou větách, co je pravděpodobnou příčinou problému, aby bylo možné poslat výsledek engineering týmu.

Odpověď zněla zhruba takto: jde o regresi specifickou pro mobile Safari, kde validace výběru velikosti na produktové stránce neaktualizuje stav správně, takže first-time shoppers v Evropě v kategorii footwear uvíznou po zvolení velikosti a nemohou přidat zboží do košíku. Chrome je téměř na baseline, což ukazuje spíš na problém v chování release na PDP na Safari než na širší problém s traffic quality nebo vyhledáváním.

Co tenhle scénář ukazuje

Tady už nejde o „voice assistant“ v běžném smyslu. Jde o hlasově ovládaný pracovní nástroj, který zvládne:

ovládat UI,
pracovat nad daty,
udržovat stav investigace,
zapojit rozumování,
shrnovat zjištění lidsky srozumitelným jazykem.

Navíc bylo zdůrazněno, že model umí být disciplinovaný. Nemusí po každém kroku mluvit zpět, pokud je instrukce nastavena tak, aby jednal spíš jako analytik v pozadí. To je podle mě klíčové. Budoucnost hlasové AI neleží jen v konverzaci, ale i v tichém a spolehlivém voice-to-action režimu.

🧩 Tři základní vzory stavby hlasových aplikací

OpenAI během prezentace shrnulo, že s novými realtime modely lze přemýšlet minimálně o třech typech produktů. To mi přijde jako užitečný rámec pro každého, kdo zvažuje, kde začít.

1. Voice to action

Sem patří hands-free aplikace, kde hlas slouží jako rychlý způsob, jak spouštět akce. Může jít o shopping assistant, analytický copilot, ovládání dashboardů nebo interní nástroje.

Typická výhoda je rychlost a pohodlí. Člověk nemusí hledat tlačítka ani psát přesné dotazy. Prostě vysloví záměr a agent provede potřebné kroky.

2. Systems to voice

Tento model mi připomíná „hlasového chief of staffa“. Systém zpracuje data, workflow nebo interní stav firmy a předává je zpět ve spoken formě. Užitečné třeba pro shrnutí reportů, notifikace, meeting notes nebo průběžné briefingy.

Nejde tedy o konverzaci kvůli konverzaci, ale o převod komplexních systémových informací do přístupnější hlasové podoby.

3. Voice to voice

Třetí kategorie je nejklasičtější. AI přijímá mluvený vstup a odpovídá hlasem. Patří sem zákaznická podpora, call centra, jazykoví asistenti nebo agenti pro videohovory.

Zásadní rozdíl oproti minulosti je v tom, že díky lepšímu tool callingu a reasoning už takový systém nemusí jen odpovídat. Může také jednat.

📱 Kde dává voice AI největší smysl

Když Terry mluvila o use casách, nevypadalo to jako snaha narvat hlas úplně všude. Spíš jako hledání oblastí, kde je hlas skutečně lepší než text.

Zmíněné příklady zahrnovaly:

smart device integrace,
coding assistenty ovládané hlasem,
mobilní aplikace s voice input boxem,
hlasové ovládání videoher,
kouče pro veřejné vystupování,
poznámkové a produktivní nástroje,
finance a osobní asistenty,
agentní videohovory.

Padla i zajímavá poznámka, že budoucí generace možná budou mluvit s AI dřív a častěji, než se naučí optimálně formulovat textové prompty. A i když to může znít trochu odvážně, v mnoha zemích to není nereálné.

Během Q&A totiž zaznělo, že některé trhy jsou už dnes výrazně voice-first, například Brazílie nebo Indie. Hlas tam může být přirozenější a dostupnější vstupní metoda než psaní. To je podstatný produktový signál. Volba modality není jen technické rozhodnutí, ale i geografické a kulturní.

Další silný argument pro hlas zněl jednoduše: mluvit je rychlejší než psát. Člověk zvládne předat více kontextu ve stream-of-consciousness režimu, což je cenné hlavně u složitějších rozhodnutí, třeba při výběru domu, auta nebo při popisu problému v práci.

🏢 Sierra ukázala, co obnáší produkční nasazení hlasových agentů

Velmi cennou částí celé Build Hour byl customer spotlight se společností Sierra. Ta staví AI agenty pro zákaznickou zkušenost u velkých firem, včetně Fortune 100. A právě enterprise customer service je oblast, kde se rozdíl mezi hezkým demem a skutečně nasaditelným systémem ukazuje nejrychleji.

Ken Murphy popsal problém velmi přesně. V produkci nejde jen o to, aby agent zněl přirozeně. Musí se správně rozhodovat, vědět kdy jednat, jaký nástroj použít, jakou informaci vytáhnout z rozsáhlé knowledge base a jestli je konkrétní akce povolená podle firemních pravidel.

V prostředí customer service je navíc i malá chybovost problém. Agent, který poruší politiku firmy nebo udělá špatnou akci i v 0,1 procenta případů, nemusí být vůbec nasaditelný. To je velmi střízlivá a důležitá poznámka. Hlasové AI v podnikové sféře není jen otázka UX, ale přímého business risku.

Model je jen základ, kolem něj musí být harness

Sierra vysvětlila, že kolem samotného modelu provozuje vlastní agent harness. Ten zajišťuje vše, co je pro reálný provoz potřeba:

definici workflow pro každého zákazníka,
seznam dostupných nástrojů,
jazyk a tonalitu značky,
guardrails a policy enforcement,
grounding nad zákaznicky specifickými daty,
tracing, observability a redakci citlivých údajů,
PCI compliant payment flows.

Tohle je podle mě jeden z nejdůležitějších závěrů celé session. Sebelepší model ještě automaticky neznamená produkční systém. Potřebuje orchestraci, ochranné vrstvy, evaluace a pečlivou práci s kontextem.

Proč Sierra používá i vlastní VAD

Sierra také uvedla, že používá vlastní jemně doladěné VAD modely, tedy voice activity detection, aby lépe rozpoznala, kdy uživatel skutečně domluvil. Pro jejich use case to funguje lépe než generické řešení, protože customer service hovory bývají chaotické.

Reálné audio totiž často obsahuje:

hluk v pozadí,
televizi nebo děti,
akcenty,
přerušování,
změnu záměru uprostřed věty.

Právě zde se ukazuje, jak neúprosný je voice UX. U textu si ledacos odpustím. U hovoru ale i půlvteřinová prodleva nebo špatné vyhodnocení konce věty působí rušivě.

Jaké přínosy Sierra u realtime voice architektury vidí

Sierra v počátečních testech zaznamenala podle svých slov výrazné zrychlení oproti cascaded systému. Zaznělo zlepšení asi o 30 procent na P50 a až o 200 procent na P90. To je velmi silný signál, že voice-to-voice architektura umí zkrátit latenci tam, kde klasický řetězec speech-to-text, orchestrace a text-to-speech naráží na své limity.

Kromě rychlosti Sierra vyzdvihla i kvalitu hlasu, která byla podle interních evaluací konkurenceschopná se specializovanými synthesis providery. Jenže z jejich pohledu to stále není všechno. V produkci se nakonec neptám, jestli agent zní dobře. Ptám se, jestli správně dokončí úkol.

⚠️ Proč je hlas tak těžká disciplína

Soham ze Sierra Research přidal velmi přesný pohled na to, proč jsou voice agents tak náročné. Řekl v podstatě dvě věci, které spolu krásně souvisejí: hlas je oblíbená modalita a zároveň je mimořádně neodpouštějící.

Ideální hovor vypadá skoro jako text. Jasné střídání tahů, čisté informace, žádný šum. Skutečné zákaznické hovory tak ale téměř nikdy nevypadají.

Mezi typické problémy patří:

spelling jmen a čísel,
udržení správné podoby informace v paměti,
logické chyby v pochopení úkolu,
přerušování a agresivní interrupce,
backchanneling typu „mhm“, „aha“, „ano, přesně“,
hluk v autě, na ulici nebo doma.

Jeden špatně zachycený znak ve jméně nebo čísle rezervace může vykolejit celý proces. Ještě horší jsou situace, kdy agent špatně pochopí, který konkrétní let má zrušit nebo jakou službu má upravit. V takových scénářích už nejde o drobnou nepřesnost, ale o vážný problém.

Soham upozornil i na něco, co si lidé často neuvědomují: lidé v hovoru průběžně reagují drobnými zvuky a potvrzeními, ale nečekají, že se na každé „mhm“ odpoví. Modely trénované na příliš doslovné reakce mohou mít tendenci odpovídat na všechno, a tím konverzaci zhoršovat.

Právě proto jsou podle Sierry „thinking models“ tak důležité. Hlasový agent musí umět přemýšlet, ale zároveň to dělat způsobem, který v hovoru funguje. Nemůže prostě mlčky bufferovat. Musí umět říct „dejte mi chvíli“, nechat se přerušit a po přerušení udržet stav. To je složitější problém, než vypadá.

🛠️ Praktické tipy z Q&A pro vývojáře

Závěrečná diskuse nabídla několik velmi praktických doporučení, která stojí za to vytáhnout samostatně.

Použít built-in turn detection, nebo vlastní logiku?

Krátká odpověď zněla: záleží na use casu. GPT-Realtime-2 přichází s vestavěnými VAD možnostmi, včetně semantic a server-side přístupů, a podle OpenAI fungují dobře. Pokud ale řeším velmi specifické podmínky, třeba customer service hovory s extrémně nečistým audiem, může dávat smysl vlastní vrstva.

Zajímavá drobnost je, že VAD lze podle potřeby vypnout na úrovni konkrétního tahu. To se hodí například ve chvíli, kdy agent musí bez přerušení odříkat důležitý disclaimer. Nejde tedy jen o prompting, ale o skutečnou kontrolu chování.

Co dělat, když hovor trvá déle než hodinu?

I přes větší kontextové okno je rozumné přemýšlet o relacích modulárně. Doporučení bylo jasné: ukládat stav a umět novou session znovu hydratovat.

To je důležité nejen pro dlouhé hovory, ale i pro situace jako:

náhodné odpojení hovoru,
opakované volání stejného zákazníka,
předání mezi systémy nebo kanály.

Jinými slovy, dobrý realtime agent není jen jedna dlouhá konverzace. Je to systém, který si umí průběžně bezpečně ukládat a obnovovat stav.

Kdy eskalovat na silnější textový model?

Tady zaznělo vyvážené stanovisko. Starší realtime modely často potřebovaly předávat složitější reasoning textovým frontier modelům. U GPT-Realtime-2 už to není tak jednoznačné, protože model zvládá mnohem víc sám.

Přesto je rozhodnutí pořád otázkou evalů. Sierra popsala dva praktické přístupy:

asynchronní supervizory, kteří během hovoru sledují průběh a podle potřeby injektují další kontext,
volbu mezi realtime a čistě textovým modelem podle složitosti agenta.

To je rozumné. Ne každé workflow potřebuje minimální latenci za každou cenu. Někdy je lepší rychlý voice model, jindy robustnější textový reasoning.

Jak udržet konzistenci napříč více nástroji?

OpenAI zdůraznilo, že GPT-Realtime-2 je reasoning model, takže práce s nástroji se chová podobně jako u jiných moderních modelů. Paralelní tool calls tedy neznamenají automaticky ztrátu kontextu.

Zároveň ale platí staré dobré pravidlo: prompt a context engineering jsou pořád zásadní. Pokud dám modelu konfliktní instrukce, bude se je snažit plnit všechny. Proto je užitečné nechat model samotný zrevidovat prompt a navrhnout jeho lepší, méně konfliktní verzi.

🔍 Co si z toho odnáším pro návrh hlasových produktů

Po celé session mi zůstalo několik poměrně jasných závěrů.

Za prvé: hlasová AI už není jen o převodu řeči na text a zpět. Skutečná hodnota vzniká ve chvíli, kdy model rozumí kontextu, ovládá nástroje a umí jednat v aplikaci.

Za druhé: latence a plynulost jsou u hlasu zásadní. I velmi chytrý model působí špatně, pokud reaguje pozdě nebo neodhadne moment, kdy má mluvit.

Za třetí: produkční nasazení znamená mnohem víc než výběr modelu. Je potřeba řešit guardrails, kontext, evaluace, observability, bezpečnost a doménová pravidla.

Za čtvrté: voice-to-action může být pro mnoho firem důležitější než čisté voice-to-voice. Lidé často nechtějí konverzaci. Chtějí, aby systém něco rychle udělal.

Za páté: nejlepší use case pro hlas není „protože je to cool“, ale tam, kde je mluvení přirozenější, rychlejší nebo dostupnější než psaní.

🚀 Kde začít, pokud chci s voice agenty experimentovat

Pokud mě tenhle směr láká, dává smysl začít malým, dobře vymezeným scénářem. Nejspíš ne rovnou plnohodnotným call centrem, ale jedním workflow, kde je hlas opravdu přínosný.

Například:

vyhledávání a filtrování v aplikaci bez nutnosti klikat,
interní analytický copilot,
shrnutí meetingů a poznámek,
specializovaný zákaznický use case s úzkým rozsahem akcí,
multijazyčný hlasový vstup pro mobilní aplikaci.

OpenAI k tomu nabízí několik užitečných zdrojů, které stojí za prozkoumání:

Pro širší technický kontext je užitečné sledovat i to, jak se v oboru řeší speech recognition, turn-taking nebo robustnost dialogových systémů. Dobré obecné zázemí poskytují třeba materiály od arXiv nebo přehledy z oblasti speech AI na Hugging Face.

📌 Hlasová AI se posouvá z dema do praxe

Na celé Build Hour bylo nejzajímavější, že nepůsobila jako přehlídka triků. Naopak. Šlo o docela střízlivý pohled na to, co dnes hlasová AI skutečně umí a co ještě vyžaduje pečlivou inženýrskou práci.

GPT-Realtime-Translate, GPT-Realtime-Whisper a hlavně GPT-Realtime-2 ukazují, že hlasové systémy mohou být rychlejší, přirozenější a mnohem schopnější v práci s nástroji. Dema s nákupním asistentem a analytickým dashboardem pak dobře předvedla, že největší hodnota není v samotném mluvení, ale v tom, že hlas otevírá nový způsob ovládání softwaru.

Zároveň bylo osvěžující slyšet od Sierry, jak náročné je dostat voice agenty do enterprise provozu. Přesně takové zkušenosti pomáhají oddělit marketingový lesk od skutečně použitelného návrhu systému.

Pokud bych si měl vybrat jednu hlavní myšlenku, byla by jednoduchá: budoucnost hlasové AI nebude stát jen na lepších hlasech, ale na lepších agentech. Na agentech, kteří rozumějí, rozhodují se, drží kontext a umějí bezpečně udělat práci za člověka nebo s člověkem.

A přesně tím směrem GPT-Realtime-2 evidentně míří.

Další OpenAI Build Hours je možné sledovat přes oficiální stránku Build Hours, kde se objevují nové termíny i navazující technická témata.