NVIDIA GTC 2026 Keynote: Inflexní bod inferencí, tokeny jako nová komodita a agentní AI pro podniky i průmysl

Futuristic data center visualizing inference acceleration, token streams, and AI agents extending to office and industrial environments.

Na GTC 2026 zaznělo několik myšlenek, které dohromady dávají smysluplný obrázek o tom, kam se ubírá AI. V jádru jde o posun od éry „tréninku velkých modelů“ k éře, kdy hlavní hrdina je inferenc. Ne jen jednorázově, ale jako nepřetržitý proces, který dělá z dat center doslova továrny na tokeny. A jakmile se z tokenů stane měřitelný produkt, začne se řešit jedna věc: kolik stojí token a jakou má vaše infrastruktura propustnost.

V této novinové a zároveň edukativní formě shrnu klíčové závěry keynote: proč je „inflection point of inference“ tak zásadní, co znamená „token rate“ a „throughput“, proč architektura datacentra rozhoduje o reálné ceně, a jak se z generativní AI stává agentní systém, který pracuje v kanceláři i ve výrobě. Do toho se promítá důraz na full-stack přístup: CUDA, software optimalizace a simulace pro fyzickou AI.

Obsah

🌍 Proč nastává „inflection point“ inferencí
🧮 Tokeny jako nová komodita: throughput vs. token rate
🏗️ Špatná architektura datacentra znamená, že „ani zdarma“ není levné
⚡ Skok v perf per watt a proč tomu nikdo nevěřil (ale pak přišel důkaz)
🧠 „Vera Rubin“ a přístup end-to-end: od čipu k aplikačnímu výsledku
🤖 Agentní systémy pro podniky: otevřený ekosystém a „open claw“ strategie
📚 Proč potřebujete vlastní přizpůsobení modelů napříč obory
🚗 ChatGPT moment pro self-driving: simulace, fyzická AI a nasazení ve výrobě
🏭 NVIDIA jako „vertikálně integrovaná, horizontálně otevřená“ firma
🧪 Omniverse, fyzika a Newton solver: cesta k přizpůsobení fyzické inteligence
🧩 Co z toho plyne pro firmy: token economics, agentní nasazení a plánování infrastruktury
🔍 Shrnutí: proč je token-powered AI „nová éra“

🌍 Proč nastává „inflection point“ inferencí

V keynote zazněla provokativní teze: výpočetní poptávka se za poslední dva roky zvýšila řádově dramaticky. Pointa není jen tempo růstu. Pointa je, že AI už „nemusí jen myslet“ ve smyslu učení se novým schopnostem v tréninku. Místo toho potřebuje myslet v praxi, tedy odpovídat, plánovat, vyvozovat kroky, generovat text a také řídit akce v reálném světě.

A aby AI mohla myslet, musí provádět inferenci (přesněji: opakovanou sekvenci výpočtů nad modelem při generování odpovědi). Tento přechod znamená, že se ekonomika AI posouvá z „kolik stojí trénink“ směrem k „kolik stojí produkce výsledků“.

Zaznělo to i jazykem, který má být zapamatovatelný:

AI čte a aby „četla“, musí dělat inferenci.
AI pak přemýšlí a aby „přemýšlela“, musí inferovat.
AI nakonec vykoná produktivní práci a to se stane tehdy, když inferenci budete schopni dělat rychle a levně.

Jinými slovy: trénink byl jednorázový skok. Inferenční fáze se stává průmyslem.

🧮 Tokeny jako nová komodita: throughput vs. token rate

Jedna z nejdůležitějších částí keynote je posun v metrikách. Dříve se často mluvilo o výkonu GPU v abstraktních jednotkách. Dnes se řeší ekonomika. A ekonomika se v praxi překlápí na dvě pojmy:

Token rate: jak rychle model generuje tokeny (tokeny za sekundu).
Throughput: celková propustnost, tedy kolik práce systém zvládne, typicky napříč více uživateli nebo více současnými úlohami.

Výsledkem je přístup, který jsem si z keynote odnesl jako „obchodní logiku“ pro infrastrukturu AI. Místo „máme rychlé GPU“ teď přemýšlím:

Kolik tokenů dostanu za jednotku času?
Kolik toho dostanu, když systém běží v reálném provozu se zpožděním, frontami a různými délkami kontextů?
Kolik za to zaplatím v energii, licencích, chladicím řešení a správě?

Keynote velmi přímočaře říká, že datacentra se mění na továrny na generování tokenů. Jakmile se z datacentra stane továrna, přestává být důležité jen to, co prodáváte jako „výpočetní výkon“. Začíná být důležité, co z toho dostáváte v podobě jednotek produkce: tokenů.

🏗️ Špatná architektura datacentra znamená, že „ani zdarma“ není levné

Tohle je věta, která v praxi píchá do citlivých míst každé organizační analýzy nákladů. Pokud máte špatnou architekturu, pak se vám může stát, že i když by samotné komponenty byly „zdánlivě zdarma“, celý projekt nebude levný.

Důvod je jednoduchý: i kdyby hardware vyšel sebelevněji, pořád musíte vybudovat gigawattovou infrastrukturu. A v okamžiku, kdy budujete gigantický zdroj výpočetní energie, rozdíl v efektivitě (propustnost, spotřeba, využití) se násobí.

Keynote to formuluje jako logiku „token cost“: chcete co nejnižší náklad na token. A to znamená, že potřebujete nejlepší systémové řešení, ne jen „výhodný čip“.

Co si pod tím představit v praxi

Pokud bych tu myšlenku přeložil do typického rozhodovacího procesu v podniku nebo u provozovatele cloudů, zahrnula by tyto kroky:

Volba hardwaru: GPU a další akcelerátory jsou základ, ale nejsou celé řešení.
Volba systémového návrhu: propojení, škálování, způsob nasazení, plánování front.
Softwarová optimalizace: kompilace, runtime, scheduling, efektivní využití paměti.
Reálné zatížení: různé délky promptů, různé požadavky na latenci, více tenantů.
Měření nákladů na token: ne jen benchmark „na papíře“, ale metrika pro váš provoz.

Z této optiky dává smysl i tvrzení, že „free“ není levné, když celou investici do gigawattového datacentra děláte zbytečně neefektivně.

⚡ Skok v perf per watt a proč tomu nikdo nevěřil (ale pak přišel důkaz)

V keynote zazněly příklady, které měly zdůraznit propast mezi očekáváním trhu a tím, co se v praxi ukazuje. Konkrétně šlo o porovnání generací a o to, jak dramaticky se zlepšuje poměr výkonu a spotřeby.

V jedné části zaznělo, že u nové generace (v řeči prezentace: Grace Blackwell a NVLink) se mělo jednat o řádově desítky násobků v efektivitě. Trh to prý zpočátku bagatelizoval nebo považoval za „přehnané“. Následně se podle keynote objevily výsledky od analytických zdrojů, které měly tvrzení potvrdit a posunout ještě dál.

Důležitější než konkrétní čísla je ale princip: když se zlepšuje perf per watt, klesají provozní náklady. A když klesají provozní náklady, klesá náklad na token. V prostředí, kde každý podnik chce nasadit AI pro reálnou produktivitu, je to přesně ten typ rozdílu, který rozhoduje o tom, zda je AI ekonomicky „dost dobrá“, nebo „moc drahá“.

🧠 „Vera Rubin“ a přístup end-to-end: od čipu k aplikačnímu výsledku

Keynote použila obraz: když se dřív mluvilo „o Hopper“, někdo zřejmě z toho dělal skoro pohádkový moment, jako když se drží jeden čip. Dnes se ale podle keynote bavíme o systému.

Vera Rubin má být symbolem vertikálně integrovaného a end-to-end optimalizovaného přístupu. Nejde tedy o jednotlivou komponentu, ale o to, že celý řetězec od hardwaru přes software po datové a aplikační vrstvy funguje jako jeden optimalizovaný celek.

V praxi to znamená, že když vaše AI běží, nemáte jen „výpočet“. Máte:

zrychlený runtime,
efektivní komunikaci mezi komponentami,
softwarové vrstvy, které snižují režii,
a nástroje, které umožňují nasadit modely a agentní systémy v produkční kvalitě.

Tohle je jeden z důvodů, proč se v keynote často vrací slovo full-stack. Trénink, inferenční pipeline i integrace do produktů stojí a padají na tom, jak dobře je řetězec navržen.

🤖 Agentní systémy pro podniky: otevřený ekosystém a „open claw“ strategie

AI se podle keynote posouvá k „agentnímu“ přístupu. V tomto světě nejsou agenti jen chatboty, které odpovídají na otázky. Jsou to systémy, které:

vyhledávají a interpretují kontext,
plánují kroky,
spouští nástroje (tool use),
a přinášejí výstupy, které mají dopad na práci v podniku.

Keynote přímo říká, že každá softwarová firma bude potřebovat „agentic systems“ a „agent strategy“. A v té chvíli se z generativní AI stává infrastruktura práce.

Zároveň zazněla myšlenka „open-claw strategy“ a otevřené integrace. Mně to připomíná realitu dnešního trhu: podniky nechtějí být uvězněné v jedné uzavřené platformě. Potřebují možnost kombinovat modely, frameworky, nástroje a nasazení podle svých dat a bezpečnostních požadavků.

Nástroje a reference design pro agentní AI

V keynote se zmiňuje spolupráce a ekosystém nástrojů a referenčních návrhů pro agentní systémy. V textu se objevují pojmy jako:

Nemo Claw reference design
NVIDIA Agente AI toolkit (v prezentaci zmiňované jako nástroj pro tvorbu agentních řešení)
otevřené modely v rámci ekosystému

Pointa je, že podniky neřeší „jedno demo“. Řeší, jak rychle a bezpečně přenést AI do produkce. Reference design a toolkit snižují riziko a zkracují cestu od prototypu k provozu.

📚 Proč potřebujete vlastní přizpůsobení modelů napříč obory

Klíčová myšlenka keynote zní: velké jazykové modely jsou důležité, ale ne stačí „jedna velikost pro všechny“. V různých oborech se liší:

doména znalostí (biologie vs. fyzika),
typ dat a způsob, jak se používají,
požadované chování modelu,
integrace do specifických pracovních toků.

V keynote zaznělo, že modely je třeba umět customizovat podle domény. To je důležité, protože systém pro řízení skladu nebude fungovat jako systém pro analýzu laboratorních dat. A systém pro robotiku nebude mít stejné požadavky jako chatbot pro zákaznickou podporu.

„Domain je radikálně jiná“ v biologii, fyzice, samořiditelných autech i obecné robotice i v lidském jazyce. Z toho plyne, že agentní AI bez přizpůsobení je spíš hračka než průmyslový nástroj.

🚗 ChatGPT moment pro self-driving: simulace, fyzická AI a nasazení ve výrobě

Keynote přirovnává „moment“ k tomu, kdy se ukázalo, že autonomní řízení je možné. Pointa není jen v tom, že model umí jazyk. Pointa je v tom, že se objevuje cesta k nasazení fyzické AI do reálných procesů.

Zaznělo, že se pracuje na implementaci fyzických modelů integrovaných do simulačních systémů. Tím se získává:

možnost učit a ověřovat chování v bezpečném virtuálním prostředí,
rychlejší iterace než čistě ve skutečném světě,
a připravenost pro nasazení robotů do výrobních linek.

Taková simulace je zásadní, protože robotika a autonomní systémy narážejí na fakt, že reálný testovací provoz je drahý, pomalý a někdy i rizikový. Pokud dokážete simulovat fyziku a scénáře, zrychlujete cestu k funkčnímu nasazení.

🏭 NVIDIA jako „vertikálně integrovaná, horizontálně otevřená“ firma

V keynote zazněla zajímavá kombinace: NVIDIA je podle tvrzení „světově první vertikálně integrovaná“ a zároveň „horizontálně otevřená“.

Jak tomu rozumět? Vertikální integrace v kontextu AI obvykle znamená, že existuje silný ekosystém napříč vrstvami: hardware, knihovny, runtime a vývojové nástroje. Horizontální otevřenost pak znamená, že se to snaží fungovat napříč různými platformami, frameworky a prostředími zákazníků.

V prezentovaném poselství to zní tak, že se technologie integrují „do toho, co chcete“, a ne pouze do jednoho uzamčeného stacku. Pro podniky je to prakticky důležité, protože integrace do existujících systémů je často největší překážka.

V ideálním případě tedy zákazník nemusí přepisovat celou IT krajinu, aby mohl využívat akcelerovanou výpočetní sílu pro AI.

🧪 Omniverse, fyzika a Newton solver: cesta k přizpůsobení fyzické inteligence

V závěru keynote se objevila konkrétní ukázka z oblasti fyzikální simulace a fyzické AI. Padly pojmy spojené s Omniverse, Newton solverem a spoluprací s partnery jako Disney a DeepMind.

Krátce a srozumitelně: když chcete, aby se AI přizpůsobila fyzickému světu, musíte mít simulační modely, které respektují fyzikální pravidla. Newton solver podle keynote běží na NVIDIA Warp a pomáhá umožnit adaptaci na fyzické prostředí.

To je důležité pro robotiku i pro digitální dvojčata ve výrobě. Pokud simulace odpovídá realitě, můžete v ní:

ověřovat chování,
trénovat nebo ladit strategii v bezpečném prostředí,
a následně nasadit do reálných linek s menším rizikem.

🧩 Co z toho plyne pro firmy: token economics, agentní nasazení a plánování infrastruktury

Keynote jako celek nepůsobí jako „jedna oznámení“, ale jako vize. A vize se dá přeložit do konkrétních rozhodnutí, která by měl dělat každý tým zabývající se AI.

1) Přestaňte měřit jen výkon modelu. Začněte měřit náklad na token

Pokud nasazujete AI v produkci, výkon samotný není cílová metrika. Cílová metrika je:

kolik tokenů vyrobím za dané náklady,
a jaká je latence a stabilita v reálném provozu.

Tím se z AI stává ekonomická disciplína, ne jen věda.

2) Přemýšlejte systémově: architecture matters

Klíčové poselství keynote je, že „architektura“ je rozhodující. Můžete mít komponenty, ale pokud je propojení, scheduling a softwarová vrstva špatně zvolená, efekt se nedostaví.

Při plánování kapacit se ptejte:

Jak dobře škáluje váš inferenční stack?
Jak efektivně se využívá paměť a komunikace?
Jaké máte overheady při reálném prompty a kontextech?

3) Připravte si agentní strategii

Agentní AI nebude jen „další funkce chatbota“. Stane se způsobem, jak automatizovat procesy. Vznikne tak potřeba:

define use-caseů (kde agent dává největší hodnotu),
integračních cest do nástrojů a dat,
bezpečnostních pravidel (práva, audity, filtrování),
a iterativního ladění chování agenta.

To je přesně ten typ práce, kde reference design a toolkit mohou urychlit start.

4) Počítejte s tím, že modely se budou přizpůsobovat doméně

Podniky budou potřebovat vlastní modelové varianty nebo adaptace. Důvod je prostý: různé domény mají různé struktury dat i různé typy očekávaného chování.

Nejde tedy o to „mít model“. Jde o to „mít modely pro váš svět“.

5) Pro fyzickou AI využívejte simulace jako nástroj pro zkrácení cyklu

Robotika a autonomní systémy zrychlí růst teprve tehdy, když simulace fyziky a scénářů bude dostatečně věrohodná. Omniverse a Newton solver jako příklad naznačují, že se simulace stává takřka standardní součástí vývoje fyzické AI.

🔍 Shrnutí: proč je token-powered AI „nová éra“

Když si poskládám klíčové motivy dohromady, vychází mi z toho jedna jasná zpráva:

AI přechází do fáze, kdy hlavní ekonomický faktor je inferenční výkon.
Tokeny jsou nová komodita, a proto se budou vyhodnocovat metriky jako token rate a throughput.
Datacentra se mění na výrobní linky. Špatná architektura zvyšuje náklady a „free“ se může stát drahým.
Full-stack přístup (hardwarové akcelerátory, runtime a software) rozhoduje o skutečné efektivitě.
Agentní AI vyžaduje strategii a integraci. Přizpůsobení modelů doméně je nutnost.
Fyzická AI se opírá o simulace a fyzikální solvery, které umožňují rychlejší ověřování a nasazení.

Pokud dnes budujete AI produkty nebo plánujete infrastrukturu, nejspíš se budete muset dívat na stejné otázky: kolik stojí token ve vašem provozu, jak škáluje váš inferenční systém a jak rychle přenesete agentní schopnosti do reálné práce.

Tohle je přesně ten typ „reinvention of enterprise IT“, o kterém keynote mluvila jako o momentu pro reinvestici, modernizaci a nové standardy. Ať už jste tým datové vědy, IT architektury nebo provozu, společný jmenovatel je zřejmý: z AI se stává průmyslový systém, který musí fungovat rychle, levně a bezpečně.

Poznámka: V poskytnutém seznamu odkazů nejsou žádné URL (pole je prázdné). Bez konkrétních odkazů nemohu vložit hyperlinky do článku.

Pokud pošlete seznam URL (ideálně s názvem/anchorem), doplním je do nejvhodnějších odstavců, např. u témat token economics, throughput, agentní AI nebo simulací (Omniverse/Newton solver).