Computer use v Codexu: když AI ovládá lokální aplikace na Macu bez převzetí celé plochy

Ilustrace AI ovládající lokální aplikace na Macu pomocí grafického rozhraní a světelných propojení (bez textu).

Codex se v poslední době posouvá z role čistě „kódovacího agenta“ k něčemu mnohem praktičtějšímu. Už nejde jen o psaní kódu, spouštění příkazů nebo práci se soubory. Nová funkce computer use přidává zásadní vrstvu navíc: schopnost pracovat přímo s lokálními aplikacemi na počítači, klikat v grafickém rozhraní, psát do polí a plnit úkoly na pozadí.

To je důležitý posun. Velká část reálné práce totiž neprobíhá jen v terminálu, editoru nebo cloudu. Děje se v aplikacích jako Spotify, Reminders, Messages, UTM, Numbers a v celé řadě dalších nástrojů, které lidé používají každý den. Právě tam se často ztrácí čas na drobnostech, opakovaných krocích a přepínání mezi okny.

OpenAI teď ukazuje, že Codex umí do tohoto světa vstoupit elegantněji než běžné experimenty s AI ovládáním počítače. Nejde o hrubou automatizaci, která vám zablokuje stroj a znemožní práci. Hlavní myšlenka je opačná: Codex může používat vaše aplikace, zatímco vy dál normálně pracujete.

To zní jednoduše, ale ve skutečnosti jde o jednu z nejzajímavějších změn v tom, jak mohou AI agenti fungovat na osobních počítačích.

Obsah

🖥️ Proč je „computer use“ tak důležité
⚙️ Jak funguje první nastavení na Macu
🧩 Codex napříč lokálními aplikacemi
🚀 Největší rozdíl: agent neblokuje váš Mac
🎵 Více úloh současně: Spotify, Reminders a virtuální stroj naráz
🎯 Proč záleží i na pohybu kurzoru
🧠 Screenshoty plus data z přístupnosti: proč je to chytřejší než běžné přístupy
⚡ Spark a rychlost, která může být nad lidskou úrovní
🔮 Kam může computer use směřovat dál
🔐 Bezpečnost: app-by-app přístup místo přístupu ke všemu
📊 K čemu je to dobré v reálném životě
🛠️ Chybějící dílek skládačky pro lokální software
💡 Co si z toho odnáším jako největší přínos
🍎 Dostupnost a co bude dál
✅ Shrnutí v kostce

🖥️ Proč je „computer use“ tak důležité

Ari Weinstein v ukázce vysvětluje, že Codex už dříve uměl spoustu věcí díky příkazové řádce, práci s kódem a automatizaci. Jenže na počítači existuje obrovské množství softwaru, který není přístupný jen přes příkazy nebo API. Je postavený jako grafické uživatelské rozhraní.

To znamená, že člověk v něm pracuje očima a rukama. Vidí tlačítko, klikne na něj. Vidí formulář, vyplní ho. Otevře menu, zvolí akci, potvrdí dialog. Tuhle vrstvu tradičně automatizace obcházela složitě nebo vůbec.

Právě tady computer use mění pravidla hry. Codex nově umí:

otevírat lokální aplikace,
pohybovat kurzorem,
klikat na prvky rozhraní,
psát text do polí,
pracovat napříč více aplikacemi současně.

Praktický dopad je obrovský. Najednou se rozšiřuje počet úloh, které může AI opravdu dokončit. Nejen navrhnout. Nejen popsat. Ale skutečně provést.

Když si to převedu do běžné reality, nejde jen o „AI, která pomáhá s vývojem“. Jde o asistenta, který zvládne i spoustu administrativních, produktivních a provozních kroků, které mi jinak rozbíjejí soustředění.

⚙️ Jak funguje první nastavení na Macu

Jedna z věcí, která na této funkci působí velmi promyšleně, je onboarding. U podobných systémových novinek bývá největší problém v tom, že samotné zapnutí je nepříjemné, matoucí a vyžaduje proklikávání systémových oprávnění. Tady OpenAI zjevně hodně řešilo, aby první zkušenost nebyla frustrující.

Při prvním použití computer use se zobrazí okno s žádostí o povolení. Po potvrzení se panel vizuálně naváže na systémové nastavení, takže je okamžitě jasné, kam se podívat a co udělat dál. Uživatel dostane instrukci, jak příslušnou položku přetáhnout do seznamu oprávněných aplikací, následně změnu autorizuje a tím je hotovo.

Ari popisuje, že celé nastavení zvládne v podstatě na dvě přetažení. To je drobnost, ale u technologie, která zasahuje do systémových oprávnění, přesně takové drobnosti rozhodují o tom, jestli si ji lidé osvojí.

V praxi to znamená, že začátek není pojatý jako technická bariéra, ale jako plynulý vstup do práce. A to je pro nástroj, který má být každodenním pomocníkem, velmi důležité.

🧩 Codex napříč lokálními aplikacemi

Nejpůsobivější část celé ukázky je chvíle, kdy se z abstraktní funkce stane konkrétní práce. Ari předvádí úkol, který je až překvapivě obyčejný: vytvoření nového virtuálního Macu v aplikaci UTM.

Každý, kdo někdy zakládal virtuální stroj, ví, že to není zrovna intelektuálně náročná práce. Je to spíš série únavných kroků:

spustit aplikaci,
kliknout na vytvoření nového VM,
vybrat správný typ,
projít průvodce,
počkat na stažení systému,
dokončit nastavení.

Typický kandidát na automatizaci. A právě to Codex udělá. Ari zadá jednoduchý pokyn, že chce vytvořit nový Mac VM v UTM, vybere aplikaci, se kterou má agent pracovat, a Codex začne jednat přímo v rozhraní daného programu.

Zajímavé na tom není jen to, že kliká správně. Důležitější je, jak to dělá. V ukázce se objeví samostatný kurzor agenta, který se pohybuje po obrazovce nezávisle na uživatelově vlastním kurzoru. To vytváří úplně jiný pocit z práce než u systémů, které převezmou celé zařízení.

Tady nevzniká dojem „počítač mi někdo sebral“. Naopak. Počítač najednou vypadá, jako by byl schopný paralelní práce.

🚀 Největší rozdíl: agent neblokuje váš Mac

Tohle je podle mě klíčová myšlenka celé novinky. Většina dosavadních přístupů ke computer use fungovala tak, že agent ovládal celý desktop. Jakmile něco dělal, člověk v podstatě musel čekat. To je použitelné pro demonstrace, ale mnohem méně pro každodenní praxi.

Codex jde jinou cestou. Agent má vlastní kurzor a může pracovat na pozadí, aniž by přerušil to, co právě děláte vy. Roman Markman na to v rozhovoru přímo upozorňuje a Ari potvrzuje, že to je jeden z největších rozdílů oproti všemu, co dosud viděl.

Pro běžnou produktivitu je to zásadní. Když AI něco připravuje ve vedlejší aplikaci, já mezitím mohu:

psát e-mail,
procházet dokumentaci,
upravovat text,
řešit jinou část práce,
nebo prostě pokračovat v tom, co mám rozdělané.

Právě tím se z technologické zajímavosti stává skutečný pracovní nástroj. Automatizace, která vyžaduje moji plnou nečinnost, má omezenou hodnotu. Automatizace, která běží vedle mě, je mnohem blíž ideálu digitálního kolegy.

🎵 Více úloh současně: Spotify, Reminders a virtuální stroj naráz

OpenAI pak ukazuje ještě ambicióznější scénář. Zatímco se v UTM na pozadí připravuje virtuální Mac a stahuje se systém, Ari zadává další úkol: pustit v aplikaci Spotify hudbu vhodnou na práci.

Codex se pustí i do toho. A tím to nekončí. Následuje třetí požadavek, tentokrát pro aplikaci Reminders: přidat večerní připomínku, aby se podíval na daňové dokumenty.

Výsledek je pozoruhodný. Na jednom Macu běží několik paralelních akcí napříč různými aplikacemi:

UTM vytváří nový virtuální stroj,
Spotify hledá a spouští hudbu,
Reminders přidává nový úkol.

To není jen hezké demo. Je to ukázka nového typu práce s počítačem. Místo lineárního režimu „otevřu aplikaci, udělám jednu věc, přepnu jinam“ vzniká paralelní pracovní prostředí, kde část úkolů běží automaticky.

V běžném dni se přesně tady ztrácí spousta času. Člověk neustále skáče mezi různými nástroji kvůli malým krokům, které samy o sobě nejsou složité, ale dohromady vytvářejí únavnou režii. Computer use tenhle problém cílí velmi přesně.

🎯 Proč záleží i na pohybu kurzoru

Možná to zní jako detail, ale OpenAI zjevně řešilo i samotný vizuální projev agenta. Ari mluví o tom, že chtěli, aby bylo používání přirozené a zábavné. Křivky pohybu kurzoru jsou navržené tak, aby nepůsobily strojově. Šipka se navíc natáčí ve směru pohybu, takže skoro působí, jako by „plavala“ po obrazovce.

Tohle není jen designová libůstka. Má to dvě praktické výhody:

Lepší srozumitelnost. Když agent pracuje, člověk snáz chápe, co se právě děje.
Vyšší důvěra. Přehledné a čitelné chování působí méně chaoticky a méně znepokojivě.

U systémů, které dělají akce „někde v pozadí“ bez vysvětlení, často vzniká nejistota. Tady je naopak patrné, kam agent míří, co otvírá a jaký krok zrovna provádí. V kontextu AI, která pracuje s lokálními aplikacemi, je transparentnost mimořádně důležitá.

🧠 Screenshoty plus data z přístupnosti: proč je to chytřejší než běžné přístupy

Technicky nejzajímavější část se týká toho, jak Codex rozumí rozhraní aplikací. Historicky se computer use často opíral hlavně o screenshoty. Model dostane obrázek obrazovky, rozpozná prvky a kliká podle souřadnic. To funguje, ale má to limity.

Grafické rozhraní totiž neobsahuje jen to, co je vidět. Moderní operační systémy zároveň zpřístupňují informace přes accessibility framework, tedy vrstvu určenou pro technologie usnadňující ovládání. Ta může nést textové popisy prvků, role tlačítek, stav polí a další strukturální data.

OpenAI podle Ariho věnovalo hodně času tomu, aby tuto vrstvu využilo smysluplně společně s modelem. Výsledkem je kombinace:

vizuálního porozumění přes screenshoty nebo zobrazení rozhraní,
textových a strukturálních informací z accessibility systému.

Tato kombinace přináší několik velkých výhod:

model lépe chápe, jakou roli má každý prvek na obrazovce,
dokáže pracovat přesněji,
může „vidět“ i věci, které jsou mimo aktuální výřez nebo odrolované mimo obrazovku,
zvyšuje se spolehlivost při provádění úkolů.

To je důležitý moment i z širšího hlediska. Computer use se tím neposouvá jen na úroveň „AI kliká tam, kde něco vidí“, ale blíží se hlubšímu porozumění aplikaci jako systému rozhraní.

Pokud vás zajímá, jak fungují přístupnostní rozhraní na platformách Apple, užitečný kontext nabízí dokumentace Apple pro Accessibility.

⚡ Spark a rychlost, která může být nad lidskou úrovní

Další velmi zajímavá část je spojení computer use s rychlejším modelem jménem Codex Spark. Ari vysvětluje, že díky využití informací z přístupnosti není systém vždy závislý na čistě multimodálním zpracování obrazu. To znamená, že lze použít i nemultimodální modely, které jsou výrazně rychlejší.

A právě tady se začíná rýsovat budoucnost, která je opravdu jiná než lidské ovládání počítače. Nejde jen o to, aby agent pracoval jako člověk. Cílem je, aby pracoval rychleji než člověk.

Ukázka v Messages to ilustruje velmi jasně. Ari přepne na Spark a zadá jednoduchý úkol: poslat Romanovi zprávu, aby vyzkoušel computer use pro debugování aplikací. Codex otevře konverzaci, napíše text a zprávu odešle téměř okamžitě.

Roman to popisuje jednoduše: text se otevře, napíše a odešle během vteřiny. Ari dodává, že při použití Spark modelu je výkon „superhuman“, tedy rychlejší, než by to zvládl člověk rukou.

To je možná nejzajímavější vize z celé prezentace. Jakmile AI zvládne obsluhovat software rychlostí několikanásobně převyšující člověka, stane se z ní mnohem víc než pohodlný pomocník. Bude to vrstva produktivity, kterou si lidé nebudou chtít nechat vzít.

🔮 Kam může computer use směřovat dál

Ari zmiňuje i širší vývojovou linii. Dřívější produkty jako Operator nebo ChatGPT Agent využívaly specializované modely trénované přímo pro computer use. Teď se tyto schopnosti podle něj přesouvají do hlavní linie GPT modelů. To znamená, že stejné schopnosti nejsou izolovanou specialitou, ale součástí širší modelové platformy.

Je to důležité ze dvou důvodů:

interně to zjednodušuje vývoj a workflow,
externě to otevírá cestu k tomu, aby podobné počítačové schopnosti šlo stavět i přes API.

Jeho výhled je přitom poměrně odvážný. Nemluví jen o malé úspoře času. Mluví o světě, kde computer use ovládá počítač dvakrát, pětkrát nebo desetkrát rychleji než člověk. Právě tehdy se podle něj stane nepostradatelným.

Z hlediska produktivity to dává smysl. Dnes většina lidí tráví velkou část dne obsluhou softwaru, nikoli řešením samotné podstaty práce. Klikání, přepisování, nastavování, přepínání, potvrzování, otevírání a zavírání oken. Kdyby tuto vrstvu převzal agent, člověku by zůstalo víc prostoru na rozhodování, kreativitu a kontrolu výsledků.

🔐 Bezpečnost: app-by-app přístup místo přístupu ke všemu

Když AI získá možnost klikat a psát do lokálních aplikací, bezpečnost se okamžitě stává hlavní otázkou. A OpenAI to v ukázce nijak nezlehčuje. Ari otevřeně říká, že taková technologie může působit děsivě, protože vykonává akce, které by jinak dělal člověk, a potenciálně by mohla pracovat s velmi citlivými daty.

Proto je bezpečnostní model postavený na principu oprávnění po jednotlivých aplikacích.

Konkrétně to znamená:

Codex nemá automaticky přístup ke všemu.
Když chce poprvé použít konkrétní aplikaci, požádá o povolení.
Po schválení může v té aplikaci vidět a psát.
Nemůže ale automaticky vidět ani ovládat ostatní aplikace, které povolené nejsou.

To je velmi podstatný rozdíl oproti představě, že AI „streamuje celou plochu“ nebo má přístup ke všem otevřeným oknům a souborům. Roman to v rozhovoru výslovně shrnuje: nejde o přístup ke kompletnímu desktopu nebo všem souborům, ale o případ od případu, aplikaci po aplikaci.

Takový přístup dává smysl i psychologicky. Uživatel si může dovolit pustit Codex třeba do vývojových nástrojů, produktivních aplikací nebo kalendáře, ale nepovolit mu jiné programy, které obsahují citlivější informace. Tím se lépe buduje důvěra a zároveň zůstává vyšší kontrola nad tím, co agent smí dělat.

V širším kontextu je to přístup blízký principu least privilege, tedy minimálních oprávnění. Pokud vás zajímá obecný bezpečnostní rámec tohoto principu, přehledně ho vysvětluje například NIST.

📊 K čemu je to dobré v reálném životě

Nejlepší na celé ukázce je, že nesklouzává jen k efektním technickým demonstracím. Ari mluví i o velmi obyčejném osobním použití: má finanční tabulky, které pravidelně aktualizuje, a nově to nechává dělat Codex.

To je vlastně perfektní příklad. Většina lidí nepotřebuje, aby AI každý den dělala spektakulární triky. Potřebuje, aby odstranila drobné, opakované, nudné a časově náročné úkoly. Právě tam je největší návratnost.

Typické využití, které z ukázky přímo vyplývá, zahrnuje:

správu produktivity, například připomínky a zprávy,
obsluhu lokálních utilit, třeba nastavení virtuálních strojů,
práci s tabulkami a rutinní aktualizace,
kombinaci více aplikací v rámci jednoho zadání,
úlohy běžící na pozadí, zatímco se věnujete něčemu jinému.

Ari navíc říká, že dnes už má tendenci obracet se ke Codexu jako prvnímu kroku při začátku nové práce, ať už jde o programování nebo jiné úkoly na počítači. To je možná nejvýmluvnější známka užitečnosti. Když si člověk vytvoří návyk „nejdřív se zeptám agenta“, znamená to, že nástroj skutečně šetří mentální energii.

🛠️ Chybějící dílek skládačky pro lokální software

Roman v rozhovoru dobře pojmenovává širší obraz. Codex už měl přístup k souborovému systému a pluginům pro online služby. Chyběl ale most k lokálním aplikacím. A právě computer use tenhle prostor vyplňuje.

To je důležité i proto, že pracovní prostředí většiny lidí je roztříštěné. Část práce probíhá v cloudu, část v prohlížeči, část v nativních aplikacích. Někdo používá Apple nástroje, někdo webové služby, někdo specializované utility. V praxi málokdo funguje jen v jednom homogenním ekosystému.

Ari zmiňuje, že sám používá širokou škálu aplikací včetně webových nástrojů, nativních Apple aplikací a třeba i Numbers pro tabulky. Právě proto vnímá computer use jako moment, kdy se to všechno propojuje do jednoho celku. Codex se dostává „end to end“ k tomu, co člověk na Macu skutečně dělá.

Tohle je možná nejpřesnější způsob, jak novinku chápat: ne jako izolovanou funkci navíc, ale jako vrstvu propojení mezi AI a skutečným pracovním prostředím.

💡 Co si z toho odnáším jako největší přínos

Když si z celé ukázky odfiltruji technické detaily, zůstávají mi čtyři hlavní body, které dělají computer use v Codexu opravdu zajímavým.

Práce v lokálních aplikacích
AI se neposouvá jen v generování textu nebo kódu. Umí zasáhnout přímo tam, kde trávíme čas v každodenních nástrojích.
Skutečný multitasking
Agent neblokuje počítač a může dělat úkoly na pozadí. To je obrovský rozdíl oproti přístupům, které zařízení „obsadí“.
Přesnost díky accessibility datům
Nejde jen o slepé klikání podle obrázků. Codex využívá i strukturované informace o rozhraní, což zvyšuje spolehlivost.
Bezpečnost přes oprávnění po aplikacích
Místo přístupu ke všemu je tu jemnější model, který dává větší kontrolu a důvěru.

Dohromady to vytváří obraz technologie, která může začít působit nenápadně, ale ve skutečnosti má potenciál změnit každodenní práci na počítači výrazněji než spousta okázalejších AI funkcí.

🍎 Dostupnost a co bude dál

Podle oznámení je computer use dostupný pro Mac už nyní. OpenAI zároveň uvádí, že se těší na brzké uvedení i pro uživatele Windows. To je logický další krok, protože právě multiplatformní dostupnost bude rozhodovat o tom, jak široce se podobný způsob práce uchytí.

Zatím je ale už teď zřejmé, že OpenAI nechce computer use prezentovat jen jako efektní schopnost pro ukázková videa. Směr je mnohem ambicióznější: udělat z Codexu nástroj, který zvládá reálnou digitální práci napříč prostředím, kde lidé skutečně fungují.

A právě to je na celé novince nejzajímavější. Po letech, kdy se mluvilo hlavně o tom, co AI umí napsat, shrnout nebo vygenerovat, přichází silnější otázka: co všechno dokáže přímo udělat za vás?

Computer use v Codexu naznačuje, že odpověď bude čím dál praktičtější.

✅ Shrnutí v kostce

Computer use umožňuje Codexu pracovat s lokálními aplikacemi na Macu.
Dokáže klikat, psát a ovládat grafická rozhraní podobně jako člověk.
Nejde o převzetí celé plochy. Codex může pracovat na pozadí a neblokuje běžnou práci.
Umí řešit více úloh současně napříč více aplikacemi.
Přesnost zvyšuje kombinace vizuálního porozumění a dat z accessibility frameworku.
Díky tomu může fungovat i s rychlými modely jako Codex Spark.
Bezpečnost je řešená přes oprávnění po jednotlivých aplikacích.
Funkce je dostupná na Macu a OpenAI chystá podporu pro Windows.

Jestli se tahle schopnost osvědčí v běžném provozu, může se z ní stát jeden z nejpraktičtějších kroků v evoluci AI agentů. Ne proto, že působí futuristicky. Ale proto, že bere vážně nudnou, roztříštěnou a často otravnou realitu práce s počítačem a snaží se ji konečně zjednodušit.