Build Hour: API & Codex — jak připravit kód a tým pro agentní delegaci

Izometrická ilustrace desktopové aplikace pro řízení AI agentů: roboti spolupracují kolem holografického pracovního stromu, modulární kódové bloky a průhledný sandbox, vizualizace plánování a API

Obsah

🆕 Souhrn novinek v Codex a API

V posledních měsících došlo k zásadnímu posunu ve způsobu, jakým využívám umělou inteligenci k vývoji softwaru. Tenhle posun je zřejmý v několika konkrétních změnách, které chci shrnout a vysvětlit, proč na nich záleží.

Codex jako desktopní aplikace a nový pracovní model

Codex už není jen doplněk do IDE. Desktopní aplikace Codex nabízí prostředí orientované na řízení agentů a orchestraci dlouhých úloh. Pro mě je klíčové, že appka podporuje Windows nativně, má sandboxing a integruje funkce jako work trees, plánovací režim a automatizace. To znamená, že místo práce "v terminálu" začínám pracovat "s agenty" na vyšší úrovni: přidávám instrukce, sleduji plán, dávám zpětnou vazbu a nechávám agenta vykonat rutinní práci.

Skills a Apps

Skills fungují jako přenosné kusy instrukcí a kontextu, které agent může kdykoli vyvolat. Jsou to předpřipravené znalostní balíčky - například styl kódování, bezpečnostní pravidla nebo specifické pracovní postupy. Apps (dříve connectors) zase propojují Codex s externími nástroji, jako jsou Calendar, Slack, Figma apod. Můj tip je mít širokou sadu krátkých, kvalitních popisů pro každou skill - to pomáhá agentům rychle rozhodnout, zda skill použít.

GPT-5.4, CUA a extrémně velký kontext

Nejnovější model GPT-5.4 přináší schopnosti nazývané CUA - computer use agent. Mezi hlavní výhody patří:

  • Podpora až milionu tokenů kontextu - ideální pro velké repozitáře a dlouhé plánovací seance.
  • Nový nástroj pro vyhledávání nástrojů - tzv. tool search - který umožňuje efektivní správu stovek nástrojů bez zahlcení kontextu.
  • Výrazně lepší tokenová efektivita při dedukci a snížení latence oproti předchozím verzím.

Princip progressive disclosure znamená, že agent nepotřebuje mít všechny nástroje a dokumenty v kontextu současně. Místo toho vyhledá a přizve právě to, co pro daný krok potřebuje.

Hosted shell, code mode a WebSocket režim

API nyní poskytuje několik nových primitiv, které jsou prakticky navrženy pro agentní workflow:

  • Hosted shell - agent může spustit izolovaný kontejner, vykonávat bash příkazy, běžet testy a pracovat s repozitářem v bezpečném prostředí. To dramaticky zrychluje smyčku edit-test-validate.
  • Code mode - agent může generovat a spouštět JavaScript přímo v REPL, což zjednodušuje interakce s DOM a UI automatizaci (místo screenshotů a papírových kroků).
  • WebSocket - pro náročnější, nástrojově bohaté integrace snižuje latenci a zlepšuje reaktivitu agenta.

🤖 Demo: Agent Legibility Score

Koncept agentní užitečnosti jsem si oblíbil pod názvem Agent Legibility Score. Jde o metriku, kterou používám k rychlé diagnostice, jak "čitelný" je repozitář pro agenty. Metrika se skládá z několika oblastí, které spolu tvoří checklist pro zvýšení autonomie a spolehlivosti agentů.

Proč čitelnost pro agenty řešit

Agent, který má málo kontextu nebo neumí spolehlivě ověřit výsledek, bude často generovat práci, která vyžaduje rozsáhlé lidské zásahy. Naopak repozitář nastavený pro agenty umožní rychlé, bezpečné a opakovatelné nasazení změn bez každodenního manuálního dohledu. V praxi to šetří hodiny každého vývojáře a zvyšuje rychlost týmu i kvalitu kódu.

Sedm metrik agentní čitelnosti

Zde jsou hlavní kategorie, které zahrnuje Agent Legibility Score:

  1. Bootstrap self-sufficiency - lze repozitář nastavit zcela automaticky bez ručních kroků? (instalace, environment, proměnné atd.)
  2. Task entry points - existují jasné příkazy pro spuštění běžných úloh: build, test, lint, run?
  3. Validation harness - dokáže agent ověřit, že změna opravdu splnila cíl? (testy, smoke testy, integrační kontroly)
  4. Linting a formatting - má repozitář lintery a formátovače, které agent může okamžitě použít k ověření stylu a drobných chyb?
  5. Maps a dokumentace - existuje přehledná mapa kódu, modulů a zodpovědností, aby agent rychle našel to, co hledá?
  6. Decision records - jsou veškerá důležitá rozhodnutí zaznamenaná, aby se agent mohl odvolat na kontext designu a firemní pravidla?
  7. Security a whitelist - je shell prostředí omezené bezpečnostními pravidly a jsou definované povolené domény?

Ukázka realizace a výsledky

Při práci s Codex app jsem zadal plán, nechal agenta analyzovat repozitář pomocí hosted shell a skills a nechal ho vygenerovat skóre a doporučení. Appka zvládla automaticky provést build, lint, testy a vypsat logy z kontejneru. Výstup v porovnání s očekáváním ukázal, kde chybí jasné vstupní body, kde je třeba lepší linting a kde chybí decision records.

Praktický poznatek: často stačí pár jednoduchých změn - přidat make targety, spustitelné testy a jeden centralizovaný lint konfigurák - a autonomie agentů dramaticky vzroste.

🛠 Harness Engineering: jak udělat agenty spolehlivými v produkci

Termín harness engineering vystihuje přístup, který přetváří agentní asistenty do spolehlivých autorských nástrojů v produkčním prostředí. Zkušenosti z reálného projektu, kde bylo vyprodukováno milion řádků kódu vytvořených agentem, ukazují, že to funguje - pokud k tomu přistoupíte systémově.

Co je fundamentálním rozdílem oproti tradičnímu vývoji

Umožnit agentům spolehlivě tvořit kód znamená posunout lidskou práci od psaní řádek kódů k řízení systému a navrhování vazeb, které agenti budou respektovat. Místo mikromanagementu se věnuji definování architektonických invariant a guardrailů, které se dají strojově ověřit.

Praktické vzory a techniky

  • Zakázání AI slopu - když se objeví nežádoucí vzor kódu, zapište pravidlo, které ho zablokuje (ESLint pravidlo, test, nebo code reviewer agent). To zabraňuje opakovanému generování nekvalitního kódu.
  • Kód jako dokumentace - přesunout tolik firemního kontextu, kolik je možné, do repozitáře: standardy, bezpečnostní preference, knihovny které jsou povolené apod.
  • Automatické code review - provozovat reviewer agent, který zkontroluje PR podle firemních pravidel dříve, než se člověk podívá. Agent je trpělivý: nechá si zanechat komentáře, opraví, zopakuje a validuje.
  • Test-driven přístup - nechte agenty generovat testy pro požadované chování dříve než implementaci. To zvyšuje šanci, že výstup je ověřitelný automaticky.
  • Sub-agenti - rozbijte komplexní workflow na specializované sub-agenty: jeden hlídá bezpečnost, jiný formátování, třetí smoke testy. Hlavní agent je orchestrátor.

Příklad: zakázání duplicitního vzoru

Pokud agent vytváří více kopií helper funkce pro bounded concurrency místo použití canonical implementace, napište lint pravidlo, které zakáže definici této funkce mimo vámi určený balíček. Agent následně napíše testy pro pozitivní a negativní případy. Výsledkem je, že slop se z repozitáře vypudí automaticky.

💼 Zkušenosti zákazníka: Basis a jejich přístup

Mitch z Basis představil zajímavý přístup, kde se firma neomezila pouze na technické repozitáře. Basis provozuje dvě monorepa:

  • Arnold - produkční monorepo s aplikacemi a službami.
  • Atlas - repo pro firemní kontext: provozní principy, rozhodnutí, playbooky.

Tímto způsobem se Celá firma stává zdrojem kontextu pro agenty. Agent, který pracuje na feature, může vyžádat informace z Atlasu a podle nich upravit chování. To umožňuje agenty nasadit i nad ne-kódovými pracovními oblastmi, například plánování rutinních firemních úkolů.

Klíčové nástroje a procesy v Basis

  • Skills s vlastníky - každá skill má ve front matteru přiřazeného vlastníka. To zajišťuje odpovědnost a možnost vyvolat lidskou kontrolu, když je potřeba.
  • Paper - interní aplikace, která zobrazuje skills a dokumenty z repo místo toho, aby se spoléhali na Slack nebo oddělené dokumenty. To usnadňuje aktualizaci a spolupráci přímo v kontextu kódu.
  • Satellite - wrapper MCP (mikroslužební pattern) pro sjednocení přístupu k dev tooling. To zjednodušuje integraci agentů, kteří potřebují volat různé nástroje přes jednotné API.
  • Dot notes - popis rozhodnutí v samostatném stromu v repozitáři. Agent může zapisovat poznámky o rozhodnutích průběžně, čímž vzniká historie rozhodnutí dostupná pro budoucí debug a audit.

Příklad workflow: Start My Day

Mitch sdílel osobní skill "Start My Day", která shromažďuje kontext z posledních 24 hodin, aktualizuje denní priorities a připraví brief. Tento druh automatizace ukazuje, jak se skills neomezují na kód, ale mohou řešit i orchestraci každodenních činností.

🔧 Konkrétní kroky, které můžete udělat hned

Zde jsou praktické doporučení, která používám jako checklist, když chci repozitář připravit pro agentní delegaci.

1. Zavést agents.md a skills

V kořeni repozitáře a v každém modulárním subtree mít agents.md s instrukcemi specifickými pro ten modul. Pro obecné postupy vytvořte skills. Udržujte je krátké a s jasným popisem front matteru.

2. Přidejte spustitelné entry points

  • Makefile nebo npm scripts: build, test, lint, run-smoke, init.
  • Automatizujte setup prostředí tak, aby hosted shell mohl repozitář nastavit bez manuálního zásahu.

3. Validace a testy

Napište testy jako první krok u změn. Agent je pak schopen automaticky spouštět testy v hosted shell a iterovat, dokud jsou zelené. Přidejte smoke testy pro kritické uživatelské cesty.

4. Linty a formátování

Povinné lintery jsou jedním z nejlevnějších způsobů, jak navýšit kvalitu. Zavedení ESLint, Prettier nebo ekvivalentu výrazně sníží množství drobných oprav, které by jinak vyžadovaly ruční zásah.

5. Decision records a dot notes

Záznamy rozhodnutí jsou zásadní. Pokud agent nemá kontext, bude dělat volby podle své interpretace. Zapište rozhodnutí do repozitáře a povolte agentům zapisovat průběžné poznámky - ušetří to spoustu dohadů.

6. Work trees a izolované větve

Využívejte work trees nebo obdobný mechanismus pro paralelní experimenty bez nutnosti mnohonásobného klonování repozitáře. To usnadňuje paralelní práci více agentů a vývojových vláken.

7. Bezpečnost a whitelist

Při použití hosted shell explicitně omezte sítě, domény a služby, ke kterým má agent přístup. Nastavte bezpečnostní proměnné, aby agent nemohl nechtěně odesílat citlivé údaje mimo schválené endpointy.

8. Integrace a orchestrace

Napojte agenty na nástroje, které již tým používá: CI, Slack, issue tracker (Linear, Jira), design nástroje (Figma). To umožní agentům shromažďovat kontext a vracet výsledky v reálném pracovním toku.

📚 Doporučené zdroje a odkazy

Zde jsou klíčové materiály a zdroje, které stojí za přečtení, když začínáte s těmito přístupy:

  • Codex docs - dokumentace k použití Codex a skills.
  • API docs - popis hosted shell, code mode a WebSocket režimu.
  • GPT-5.4 blog - technické detaily o modelu a jeho schopnostech pro computer use.
  • Harness Engineering blog - hlubší pohled na filozofii a vzory, které pomáhají transformovat týmy.
  • Praktické repozitáře - příklady, se kterými lze klonovat a experimentovat (například build-hours GitHub).

🔎 Časté otázky a stručné odpovědi

Jak řešit rollback a checkpointing?

Nechte agenta commitovat postupně a vytvářet menší, ověřitelné PR. V appce jsou změny viditelné jako unstaged/staged a lze je snadno revertovat. Mít automatické commits s jasnými commit message pravidly je klíčové.

Měli byste povolit všechny skills pro progressive disclosure?

Ano, většinou ano. Důležité je popisy skills - krátké, výstižné front matter texty, které model použije k rozhodnutí, zda skill zvolit. Také testovat, jestli popisy opravdu vedou k požadovanému vyvolání skillu.

Jak organizovat pravidla a instrukce v brownfield projektu?

Začněte postupně. Vyberte několik kritických oblastí, vytvořte lokalizované agents.md a přidejte lintery. Postupně carve apart - vyčleňte business domény, přidejte rozhraní, a zkuste nasadit sub-agenty pro opakující se úlohy.

✅ Závěr

Agentní delegace není jen o tom, že "AI napíše kód". Jde o kompletní změnu v tom, jak organizuju práci: od přesunů myšlenek do repozitáře až po navrhování guardrailů, které zajistí, že agent bude spolehlivý a bezpečný. Praktické kroky, které doporučuji implementovat hned, jsou:

  • přidat agents.md a skills
  • zajistit spustitelné entry points (build, test, lint)
  • nasadit lintery a testy
  • povolit work trees a automatizace
  • záznam rozhodnutí a jasné vlastníky skills

Začít můžete postupně: vylepšete lint, napište jeden agents.md a připravte jednoho review agenta. Když tyto stavební kameny máte, agenti začnou automaticky zvyšovat vaši produktivitu. Já osobně vidím největší návratnost v tom, že můžu přestat řešit rutinní úkony a věnovat se strategickým rozhodnutím, které skutečně vytvářejí hodnotu.

"I do not tolerate AI slop" - přístup, který chápu jako: neakceptovat špatný agentní výstup a místo toho ho staticky zablokovat v kódu nebo pravidlech.

Jsem k dispozici odpovědět na konkrétní otázky o tom, jak tyto principy aplikovat u vás. Pokud budete postupovat systematicky, harness engineering dokáže proměnit váš způsob práce a výrazně zvýšit rychlost i kvalitu vývoje.


AI World Vision

AI and Technology News