Jeden mozek pro jakéhokoli robota: jak Skild AI vysvětluje budoucnost univerzální robotické inteligence

Ilustrace univerzální robotické inteligence s centrálním zářícím jádrem propojeným s humanoidním robotem, průmyslovým robotickým ramenem a čtyřnohým inspekčním robotem.

Když se mluví o umělé inteligenci, většina lidí si dnes představí jazykové modely, chatboty nebo generování obrázků. Jenže další velká vlna AI se přesouvá z obrazovek do fyzického světa. A právě tady přichází velmi ambiciózní myšlenka společnosti Skild AI: vytvořit jeden univerzální mozek, který může řídit různé roboty napříč formáty i úkoly.

Nejde jen o humanoidy. Ten samý základní model má podle této vize pohánět robotické rameno ve výrobě, čtyřnohého inspekčního robota i další stroje, které dnes často vznikají jako izolovaná řešení pro jediný konkrétní účel. Skild AI tomu říká omni-bodied intelligence, tedy inteligence pro jakékoli tělo. Jedna sdílená inteligence, mnoho robotických podob.

Na první pohled to může znít jako futuristický slogan. Když se ale podívám na argumenty, které představili spoluzakladatelé Deepak Pathak a Abhinav Gupta, dává tahle strategie překvapivě silný smysl. Ne proto, že by roboti byli jednoduchý problém. Právě naopak. Protože jsou extrémně složití a zejména proto, že robotika je především datový problém.

Obsah

🤖 Proč Skild AI sází na „jeden mozek, jakýkoli robot“
🏭 Proč tradiční robotika narážela na „zeď 90 %“
🧠 Horizontální platforma místo izolovaných robotických vertikál
📹 Tři zdroje dat, bez kterých se fyzická AI neobejde
🔁 Předtrénování a následné doladění: recept z LLM přichází do robotiky
🏗️ Jak se univerzální mozek převádí do nasaditelného robota
🌀 Data flywheel: proč každé nasazení zlepšuje další nasazení
🦾 Jeden mozek, různé formáty těla
🧪 Jak se Skild Brain testuje před nasazením
⚙️ Jak do toho zapadá NVIDIA: simulace, generativní modely i edge compute
🚚 Proč cesta k domácím robotům povede přes továrny a sklady
🏠 A co ten robot na skládání prádla?
📈 Co je teď pro Skild AI nejdůležitější
🌍 Proč je fyzická AI možná důležitější než čistě digitální AI
🔮 Co si z vize Skild AI odnáším

🤖 Proč Skild AI sází na „jeden mozek, jakýkoli robot“

Hlavní teze Skild AI je jednoduchá: pokud je v robotice nedostatek kvalitních dat, pak si nikdo nemůže dovolit data třídit příliš úzce a stavět každý systém odděleně. V jazyce nebo počítačovém vidění existují obrovská datová jezera. Internet je plný textu, obrázků a videí. V robotice nic podobného neexistuje.

„V robotice neexistuje internet robotických dat.“

Právě tahle věta velmi dobře vystihuje jádro problému. Každé nasazení robota je cenné, protože generuje zkušenost ze skutečného světa. A pokud se tyto zkušenosti dají vracet zpět do sdíleného modelu, vzniká něco jako kolektivní učení. Robot v továrně nepomáhá jen s tovární úlohou. Nepřímo může zlepšit i budoucího robota pro hotel, sklad nebo jednou i domácnost.

Z toho vyplývá i základní rozdíl oproti tradiční robotice. Místo aby firma vyvíjela jeden robotický systém na jeden úkol, snaží se vybudovat horizontální platformu. Podobně jako velké jazykové modely slouží jako obecný základ pro mnoho aplikací, chce Skild AI nabídnout obecný základ pro fyzickou AI.

🏭 Proč tradiční robotika narážela na „zeď 90 %“

Abhinav Gupta popsal velmi trefně, proč se robotika dlouho rozvíjela spíš vertikálně než masově. V klasickém přístupu si firma nejdřív vybere konkrétní use case. Třeba svařování. Pak kolem něj navrhne specializovaný hardware, software, senzory, pracovní prostor a často i přesně upravené okolí.

Výsledek může fungovat skvěle. Ale jen do chvíle, než se objeví něco nečekaného.

To je přesně ona známá „zeď 90 %“. Prvních 80 až 90 procent výkonu bývá dosažitelných. Jenže posledních pár procent, tedy schopnost zvládat výjimky, odchylky a nepředvídatelné situace, je v reálném světě nejtěžší část. A právě kvůli ní musí být stále poblíž člověk, který zasáhne.

V robotice jsou rohové případy doslova všude:

někdo odloží krabici na nečekané místo,
změní se světelné podmínky,
objekt je mírně jinak natočený,
některý vstup ze senzoru není dostupný,
prostředí už neodpovídá laboratornímu nastavení.

To je také důvod, proč se klasické průmyslové robotické buňky tak pečlivě „ohraničují“. Robot je v kleci, všechno kolem je přesně změřené a každá proměnná je co nejvíc kontrolovaná. Jenže takové řešení je drahé, málo flexibilní a špatně se přizpůsobuje změnám.

Jakmile se cílem stane robot pro domácnost, hotel, nemocnici nebo sklad, tento starý model přestává stačit. Nikdo nedokáže změřit běžný lidský svět na desetiny milimetru a předem naprogramovat každé možné selhání.

Právě tady se podle Skild AI odehrává hlavní posun v oboru: od programování chování k učení chování z dat.

🧠 Horizontální platforma místo izolovaných robotických vertikál

Mně na přístupu Skild AI přijde zajímavé hlavně to, že si bere inspiraci z toho, co se stalo u jazykových modelů. Ještě před nástupem LLM vznikaly samostatné produkty pro chatboty, vyhledávání, automatizaci podpory nebo konkrétní podnikové úlohy. S příchodem velkých základních modelů se ale objevila společná horizontální vrstva, na které se dají stavět další aplikace.

Skild AI chce to samé udělat v robotice.

Namísto toho, aby každý robotický projekt začínal od nuly, vzniká obecný model pro pohyb, vnímání a akci, který se pak dá doladit pro konkrétní vertikály. To je zásadní, protože v jednom oboru může být nějaká situace výjimečná, zatímco v jiném je naprosto běžná.

Abhinav to shrnul velmi elegantně: rohový případ jedné vertikály může být běžným případem jiné vertikály. Jinými slovy, čím širší je sběr dat napříč různými scénáři, tím robustnější může být společný mozek.

Tohle je obrovský rozdíl oproti úzkým specializovaným systémům. Sdílená inteligence totiž znamená, že zkušenost z jednoho nasazení nemusí zůstat uzamčená v jediném robotovi nebo jediné firmě. Může se proměnit v lepší výchozí model pro další nasazení.

📹 Tři zdroje dat, bez kterých se fyzická AI neobejde

Jedna z nejdůležitějších částí celé strategie se týká dat. Skild AI nestaví jen na jednom zdroji. Naopak kombinuje tři různé typy dat, protože každý z nich má jiné výhody a nevýhody.

1. Reálná robotická data z teleoperace

Prvním zdrojem jsou data přímo z robotů. Typicky jde o situace, kdy člověk robota ovládá na dálku, tedy teleoperací, a systém přitom zaznamenává vše důležité:

stav senzorů,
motorické příkazy,
trajektorie,
interakce s prostředím,
další signály potřebné pro učení.

Tento typ dat je podle Skild AI nejbohatší a nejkvalitnější, protože robot skutečně vykonává daný úkol. Problém je ale ve škálování. Každý datový bod stojí čas, hardware i lidskou práci. Pokud chcete nasbírat miliony podobných ukázek, je to velmi náročné.

2. Video data

Druhým zdrojem jsou běžná videa. Jejich obrovská výhoda spočívá v rozsahu a rozmanitosti. Lidé po celém světě dělají různé činnosti v různých prostředích a videa zachycují bohatou škálu objektů, úkolů i stylů provedení.

To je pro předtrénování modelů nesmírně cenné. Video data umožňují naučit systém, jak asi vypadá určitá činnost, jak se mění scéna v čase a jaké akce dávají smysl v určitém kontextu.

Jenže videa mají i zásadní omezení. Nezachycují přesně, jaké síly člověk použil, jaké jemné pohyby vykonal nebo jaké konkrétní motorické příkazy by měl robot následovat. Video je škálovatelné a rozmanité, ale není dostatečně „bohaté“ na fyzikální detaily potřebné pro přesné robotické chování.

Abhinav to vysvětlil hezkou analogií. Kdyby stačilo sledovat videa, abychom se naučili dovednosti, všichni bychom hráli tenis jako Roger Federer nebo smečovali jako profesionální basketbalisté. Samotné pozorování prostě nestačí.

3. Simulace

Třetím pilířem je simulace. Ta je extrémně škálovatelná. V simulátoru lze generovat obrovské množství zkušeností, variací a pokusů velmi rychle. Navíc je možné přesně měřit síly, kolize, pohyb a další fyzikální veličiny.

Simulace ale nikdy není dokonalou kopií reality. V robotice se tomu říká sim-to-real gap, tedy mezera mezi simulací a skutečným světem. Robot, který funguje skvěle v simulátoru, může v praxi selhat kvůli drobným odchylkám materiálu, tření, osvětlení nebo geometrii prostředí.

Proto Skild AI nebere simulaci jako náhradu za realitu, ale jako důležitý mezikrok. Slouží k procvičení, robustifikaci a rozšíření dovedností, které model získává z videa a z omezeného množství skutečných robotických dat.

🔁 Předtrénování a následné doladění: recept z LLM přichází do robotiky

Jedna z nejzajímavějších paralel se současnou AI revolucí spočívá v tom, že Skild AI uvažuje o robotice velmi podobně jako o jazykových modelech.

V oblasti LLM dnes dobře funguje známý recept:

Předtrénování na obrovském množství širokých, často ne zcela čistých dat.
Post-training neboli doladění na menším množství kvalitních dat z konkrétní domény.

Skild AI tento princip přenáší do fyzické AI.

Video data a simulace slouží hlavně pro předtrénování. Dávají modelu obecné chápání světa, úkolů, pohybových vzorců a variability prostředí.

Reálná data z konkrétního nasazení pak slouží pro doladění. Tedy pro to, aby se obecný model stal přesným specialistou na konkrétní úlohu, konkrétní pracoviště a konkrétní robotickou platformu.

Tahle kombinace je velmi praktická. Obecný model se učí široké schopnosti z velkého objemu dat a potom je rychle přizpůsoben konkrétnímu úkolu pomocí menšího množství vysoce relevantních příkladů.

Je to podobné jako u nasazení jazykového modelu pro konkrétní firmu. Internet poskytne šíři. Firemní data dodají přesnost. V robotice je princip stejný, jen je mnohem těžší, protože model musí nejen generovat odpovědi, ale také bezpečně a přesně jednat ve fyzickém světě.

🏗️ Jak se univerzální mozek převádí do nasaditelného robota

Skild AI nepopisuje Omnibrain jako jeden kouzelný software, který bude fungovat bez úprav na všechno. Spíš jde o sdílený základ, ze kterého lze odvozovat specializované systémy.

V praxi to podle Deepaka Pathaka může probíhat dvěma způsoby.

Když už model daný typ úkolu zná

Pokud jde o něco, co už systém dříve viděl a zvládá, například navigaci, chůzi nebo překonávání překážek, může být nasazení relativně přímočaré. Robot dostane hotový mozek a nad ním se pak staví konkrétní aplikace, třeba inspekce nebo bezpečnostní obchůzka.

Když jde o nový nebo velmi odlišný úkol

Jiná situace nastává, když je úkol velmi specifický, například montáž komponent do serverových racků nebo manipulace se specializovanými díly na výrobní lince. Tam obvykle nestačí jen vzít obecný model a okamžitě ho zapnout.

V takovém případě se nasbírají doménově specifická data:

buď přímo z daného robota během několika dnů,
nebo ze simulace, pokud už existují vhodná digitální aktiva a prostředí.

Pak dojde k post-trainingu, tedy doladění modelu pro daný úkol. Výsledek je specialista, který vznikl z generalisty.

Tohle je mimochodem velmi důležitá myšlenka: specializace nevzniká proti obecnosti, ale z ní. Obecný model není konkurent specialisty. Je to jeho základ.

🌀 Data flywheel: proč každé nasazení zlepšuje další nasazení

V jádru celé vize Skild AI je to, čemu se často říká data flywheel, tedy datový setrvačník. Čím více robotů firma nasadí, tím více dat a zkušeností získá. Čím více dat získá, tím lepší bude základní mozek. A čím lepší bude základní mozek, tím rychleji půjde nasadit další roboty.

Tenhle mechanismus je klíčový zejména v robotice, kde jsou data drahá a nasazení pomalé. Deepak popisuje budování flotily specialistů, kteří všichni vycházejí z jednoho společného generalisty. Každý specialista řeší svůj konkrétní úkol, ale jeho data se mohou vracet zpět do centrálního modelu.

To vytváří několik efektů najednou:

nižší datové nároky pro nové úkoly,
rychlejší adaptaci na nové domény,
lepší odolnost vůči výjimkám a odchylkám,
sdílení zkušeností napříč formáty robotů i odvětvími.

Skild AI navíc uvažuje o nasazování po krocích. Nejdřív tam, kde je prostředí relativně strukturované a ekonomická hodnota automatizace je vysoká. Typicky:

továrny a sklady,
poté nemocnice, hotely a další servisní prostředí,
nakonec domácnosti.

To není jen obchodní roadmapa. Je to i datová strategie. Každé prostředí pomáhá připravit model na další, složitější stupeň neorganizovanosti a variability.

🦾 Jeden mozek, různé formáty těla

Velmi důležitý aspekt celé myšlenky je, že data flywheel nefunguje jen napříč úkoly, ale také napříč robotickými form faktory.

To znamená, že stejný základní model může podle potřeby pohánět:

robotické rameno v průmyslu,
humanoida pro obecnější manipulaci,
čtyřnohého robota pro bezpečnostní nebo inspekční úlohy,
další specializované mobilní platformy.

Samozřejmě to neznamená, že všechny tyto stroje budou mít identické výstupy nebo stejné ovládání. Znamená to ale, že za nimi může stát společná inteligence, která se učí obecné principy vnímání, plánování a fyzického jednání, zatímco konkrétní tělo už jen určuje, jak se tyto schopnosti překládají do pohybu.

To je možná jedna z nejodvážnějších částí celé vize. Pokud by se podařila, robotika by se opravdu mohla posunout od světa izolovaných strojů ke světu sdílené inteligence.

🧪 Jak se Skild Brain testuje před nasazením

V robotice nestačí model „nějak funguje“. Ve fyzickém světě musí být zároveň přesný, rychlý, robustní a bezpečný. Právě proto Skild AI popisuje testování jako vícevrstvý proces.

1. Task KPIs neboli výkon na samotném úkolu

První vrstvou jsou metriky přímo spojené s úkolem. Pokud robot například montuje součástku do serveru, řeší se hlavně:

přesnost provedení,
úspěšnost dokončení,
čas potřebný k vykonání akce.

Robot, který sice pracuje správně, ale je příliš pomalý, není pro reálné nasazení dost dobrý. Výkon tedy není jen o správnosti, ale i o použitelné rychlosti.

2. Generalizace a stresové testy

Druhou vrstvou je testování mimo ideální podmínky. Právě tady se ukazuje, zda model zvládne zmíněné rohové případy. Firma záměrně mění podmínky a sleduje, jak se robot chová, když:

se v prostoru objeví neočekávaný objekt,
změní se osvětlení,
některé prvky prostředí nejsou tam, kde se čekaly,
situace neodpovídá běžnému scénáři.

Cílem není jen to, aby robot pokračoval v práci za všech okolností. Důležité je i to, aby se v nejasné situaci choval rozumně, konzervativně a bez rizika.

3. Safety guardrails neboli bezpečnostní zábrany

Třetí vrstvou jsou bezpečnostní guardraily. To jsou mechanismy, které omezují systém i v případě, že některá část vstupů selže. Typický příklad je ztráta kamerového signálu. Pokud je robot „slepý“, nesmí pokračovat, jako by se nic nestalo.

Skild AI zdůrazňuje, že v takové situaci musí nastoupit ochranné mechanismy, které například:

zastaví činnost,
zabrání opuštění bezpečných hranic,
minimalizují možnost nečekaného pohybu.

To je mimochodem jeden z důvodů, proč je fyzická AI výrazně složitější než digitální produkty. U webové aplikace se chyba často projeví jako špatná odpověď. U robota může chyba znamenat poškozený objekt, výpadek výroby nebo bezpečnostní incident.

⚙️ Jak do toho zapadá NVIDIA: simulace, generativní modely i edge compute

Skild AI zároveň ukazuje, jak důležitý je dnes celý technologický ekosystém kolem fyzické AI. V jejich případě hraje velkou roli spolupráce s NVIDIA.

Ta má podle popisu několik vrstev:

Isaac Sim a fyzikální simulace pro vytváření velkého množství scénářů, ve kterých lze modely trénovat a testovat.
Newton physics solvers, na jejichž vývoji Skild AI spolupracuje.
Cosmos a příbuzné video modely pro augmentaci dat, tedy vytváření variací existujících scén.
výpočetní platforma a edge compute pro běh modelů přímo na zařízení.

Poslední bod je obzvlášť důležitý. Robot nemůže vždy čekat na odpověď ze serveru. Pokud padá, musí reagovat okamžitě. Pokud manipuluje s objektem v reálném čase, latence není jen nepříjemnost, ale funkční problém. To znamená, že velká část inference musí běžet na zařízení nebo velmi blízko němu.

Tady se fyzická AI opět liší od mnoha dnešních cloudových AI služeb. Výpočetní architektura pro roboty musí respektovat realitu času, pohybu a bezpečnosti.

🚚 Proč cesta k domácím robotům povede přes továrny a sklady

Jedna z nejstřízlivějších částí celého rozhovoru se týkala časování. Deepak Pathak i Abhinav Gupta působí optimisticky ohledně dlouhodobého směru, ale zároveň velmi opatrně ohledně krátkodobých slibů.

V dlouhém horizontu oba předpokládají, že roboti budou schopni automatizovat prakticky všechny fyzické činnosti, které dnes zvládají lidé. Krátkodobě ale očekávají nástup hlavně tam, kde je prostředí více strukturované a obchodní přínos okamžitý.

Proto se jako první vlna rýsují:

výroba,
sklady,
další průmyslové a logistické provozy.

O něco později by mohly následovat prostory, které jsou méně strukturované, ale stále relativně kontrolovatelné, například:

nemocnice,
hotely,
služby a provozy kolem lidí.

Teprve potom přichází domácnost. A právě tady byli oba zakladatelé překvapivě pokorní. Domácnost je totiž extrémně nevyzpytatelné prostředí. Je v ní mnoho objektů, mnoho výjimek, často děti, zvířata, nepořádek, špatné světlo a neustále se měnící kontext.

Navíc nestačí, aby domácí robot „nějak fungoval“. Musí být zároveň:

spolehlivý,
bezpečný,
mechanicky odolný,
ekonomicky přijatelný,
uživatelsky smysluplný.

Tohle je důležitý moment. Skild AI neříká, že roboti do domácností nepřijdou. Naopak. Jen odmítá dělat laciné předpovědi o přesném termínu, protože fyzický svět je mnohem méně odpouštějící než software.

🏠 A co ten robot na skládání prádla?

Padla i otázka, kterou si klade skoro každý: kdy budu mít doma robota, který mi složí prádlo?

Odpověď byla chytrá a velmi realistická. Technicky je možné postavit robota, který určitou omezenou verzi takového úkolu zvládne relativně brzy. Ale pokud by vyžadoval přesně připravené prostředí, správně položené kusy prádla, omezený pracovní prostor a spoustu zásahů člověka, byl by to opravdu ten produkt, který lidé chtějí?

Jinými slovy: nejde jen o to, zda robot umí jeden úkol předvést. Jde o to, zda ho umí vykonávat dostatečně spolehlivě, autonomně a pohodlně, aby to dávalo smysl v každodenním provozu.

Právě proto dnes komerčně dává větší smysl nasazení v továrně než v domácnosti. Ve výrobě je i úzce specializovaný výkon velmi hodnotný. Doma lidé očekávají mnohem širší, flexibilnější a bezpečnější chování.

📈 Co je teď pro Skild AI nejdůležitější

Pokud bych měl shrnout bezprostřední prioritu Skild AI, zní asi takto: proměnit obecný model ve specializované systémy, které lze rychle nasadit ve velkém.

To znamená několik praktických cílů najednou:

zkrátit čas od nového use case k funkčnímu robotu,
umožnit doladění během několika dnů,
vyžadovat co nejméně dodatečných dat,
rozběhnout co nejdříve skutečný datový flywheel.

Tohle je podle mě velmi rozumný přístup. V robotice totiž samotná technologie nestačí. Nasazení není až poslední krok po vývoji. Nasazení je samo o sobě technický problém. Je potřeba zvládnout integraci, testování, bezpečnost, hardware, provozní spolehlivost i způsob sběru a vracení dat zpět do modelu.

A právě tady se ukazuje, proč se fyzická AI nebude šířit úplně stejně jako software na webu. I když budou modely rychle lepší, svět robotů se mění po vrstvách. Pomaleji. Ale o to hlouběji.

🌍 Proč je fyzická AI možná důležitější než čistě digitální AI

Deepak Pathak během debaty připomněl ještě jednu myšlenku, která stojí za zamyšlení. To, čemu dnes často říkáme AI revoluce, se zatím z velké části odehrává v digitálním světě. Jenže digitální svět je ve srovnání s lidskou evolucí velmi mladý. Lidé byli inteligentní dávno před internetem, počítači a chytrými telefony.

Z tohoto pohledu je fyzická inteligence možná přirozenější a hlubší formou obecné inteligence. Jazyk, obraz a plánování jsou důležité. Ale skutečné porozumění světu se často projeví až ve chvíli, kdy je třeba vnímat, pohybovat se, manipulovat a bezpečně jednat v prostředí plném nejistoty.

Právě proto má celý obor physical AI takový náboj. Nejde jen o další aplikaci velkých modelů. Jde o pokus propojit AI s realitou v celé její nepředvídatelnosti.

🔮 Co si z vize Skild AI odnáším

Na Skild AI mě nejvíc zaujala kombinace odvahy a realismu. Na jedné straně je tu velmi odvážná vize: jeden univerzální mozek pro mnoho robotů, mnoho těl a mnoho úkolů. Na druhé straně velmi střízlivé uznání toho, že robotika je pomalá, datově hladová a plná bezpečnostních nároků.

Jestli se tahle strategie prosadí, bude to mít zásadní dopad na celý obor. Místo stovek izolovaných robotických ostrovů by mohla vzniknout společná učící se vrstva. Každé nové nasazení by nebylo jen samostatný projekt, ale příspěvek do rostoucí kolektivní inteligence.

To je možná nejdůležitější myšlenka ze všech: budoucnost robotiky nemusí stát na jednom dokonalém robotovi, ale na jednom neustále se zlepšujícím mozku.

A pokud se opravdu podaří roztočit datový setrvačník napříč továrnami, sklady, službami a nakonec domácnostmi, může se dnešní fyzická AI za pár let jevit stejně nevyhnutelná, jako se dnes jeví velké jazykové modely.

Zatím jsme na začátku. Ale je to začátek, který stojí za pozornost.