AI pro firmy · 2Marsa — co reálně přinese, co ne

01 — Kde to reálně pomáhá

Co AI ve firmě dělá — konkrétně.

Šest reálných use case-ů, které dnes ve firmách běží v produkci. Žádné science fiction, žádné „AI vás nahradí“. Jen místa, kde dobře nastavený agent ušetří hodiny rutiny.

USE CASE 01

OCR a extrakce z dokumentů

Faktury, smlouvy, formuláře → structured JSON přímo do ERP. Vision modely (GPT-4o) zvládnou i ručně vyplněné PDF, tabulky a razítka.

GPT-4o visionERP integrace~94% accuracy

USE CASE 02

Klasifikace tiketů a routing

Příchozí dotazy/tikety se automaticky rozřadí podle obsahu (billing, technical, urgent) a přiřadí správnému týmu.

Haiku / 4o-miniL1 podporaLevné

USE CASE 03

Sumarizace & překlady

Týdenní digesty, výtahy z dlouhých e-mailů, překlady interní dokumentace. Šetří týmový čas.

Sonnet / 4oRutinaMěřitelný ROI

USE CASE 04

Code review & boilerplate

Developer agent vyvíjí podle vzoru: testy, migrace, CRUD endpointy. Návrh se ověří přes CI a projde human review.

Claude codePR-readyAlways reviewed

USE CASE 05

RAG — Q&A nad dokumenty

Interní knowledge base: firemní směrnice, dokumentace, smlouvy. Zaměstnanec se zeptá v češtině, agent odpoví s citací zdroje.

Vector DBEmbeddingsCitace

USE CASE 06

Anomálie v provozních datech

Logy, metriky, alert noise. Agent detekuje vzorce mimo normál a eskaluje on-call týmu se shrnutím kontextu.

Time-seriesTime savedSRE

02 — Realistické očekávání

Co LLM agenti umí. A co spolehlivě neumí.

Hype říká „všechno“. Realita je skromnější — a přesto velmi užitečná. Vědět, kde jsou hranice, je půlka úspěchu při nasazení.

UMÍ — spolehlivě

Strukturovat texty — extrakce, klasifikace, summary, JSON output
Klasifikovat — intent detection, routing, sentiment, kategorie
Generovat kód podle vzoru — tests, CRUD, migrace, boilerplate
Hledat v dokumentech — RAG, semantic search, Q&A s citacemi
Asistovat při rutinní analýze — SQL návrhy, charty, hypotézy
Překládat — CS/EN, technické termíny, kontext

NEUMÍ — bez tool-use

Přesné výpočty — LLM halucinují čísla. Použít kalkulačku jako tool.
Skutečné rozhodování bez kontroly — vždy human-in-the-loop pro kritické věci
Citlivé právní rozhodování — AI doporučuje, právník schvaluje
Reálný čas pod 100 ms — latence API je 0.5–5 s
Garantovat 100% accuracy — vždy „best effort“, eval & A/B
Chápat vlastní nejistotu — modely jsou často „sebevědomě špatně“

03 — Jak to technicky funguje

Vrstvy AI integrace ve firmě.

AI integrace není „napojení na ChatGPT“. Je to 5 oddělených vrstev s jasnými hranicemi. Každá má svou roli, vlastní auth, vlastní observability.

Uživatel · aplikace

Vstup do systému: webový formulář, mobile app, API call. Předá request orchestrátoru.

Orchestrátor · run engine

Zvolí workflow, vybere agenta, zajistí audit log, řídí retry a timeout. Vše projde tudy. OpenClaw nebo vlastní .NET runtime.

Agent layer

Konkrétní role: architect, developer, debugger, support, data-analysis, document. Každý má jasné vstupy/výstupy.

Model provider

Reálné volání modelu: OpenAI (GPT), Anthropic (Claude), NVIDIA NeMo (self-hosted), lokální Ollama. Routing podle role + cena/latence/citlivost dat.

External tools · data

DB, REST API, vector store (Qdrant/pgvector), MCP servers, file storage. Agent volá přes tool use protokol — nikdy ne přímo.

04 — Run-based execution

Co je „run“ a proč na tom záleží.

Rozdíl mezi ad-hoc promptem a řízeným AI procesem je rozdíl mezi hraním a produkcí. Run = jeden konkrétní řízený běh úkolu, který má vstup, pravidla, roli, výstup a auditní stopu.

1

Input `vstup`

Definovaný úkol s přiřazenou rolí (kdo to dělá), zdroji (jaká data může vidět) a cílem (co je očekávaný výstup). Žádné předpoklady.

2

Context `workspace state`

Realita načtená z workspace — soubory, dokumenty, předchozí runy. Jediný zdroj pravdy pro tento run.

3

Steps `guarded execution`

Whitelistované akce: čtení souborů, volání API, tool use. Žádný root execution, žádný shell access mimo schválený scope.

4

Output `structured`

Výstup uložený do workspace v definovaném formátu (JSON/markdown/PR diff). Dohledatelný, izolovaný od ostatních runů.

5

Audit log `observability`

Plná stopa: kdo, co, kdy, jaký model, kolik tokenů, jaký vstup/výstup, kolik to stálo. TISAX/AI Act ready.

6

Next `chained run`

Run může spustit další runy (architect → developer → debugger). Každý je samostatný, audit log se zřetězí.

Ad-hoc prompt (ChatGPT-style)

Otevřu chat, napíšu, dostanu odpověď. Žádný audit. Žádná opakovatelnost. Žádné guard rails. Pro průzkum OK, pro produkci selhává.

Řízený run

Definovaný workflow: input → agent → tool use → output → log. Auditovatelný, opakovatelný, testovatelný. Production-ready.

05 — Typy agentů

6 rolí. Každá má jasný účel.

Agenti se nemají míchat. Každý má specifickou roli, vstupy, výstupy a hranice. Univerzální agent neexistuje — specializace funguje líp.

Architect agent

Návrh systémů

Navrhuje architekturu — varianty, trade-offy, ADR. Nepíše kód, navrhuje řešení.

VstupPožadavky · omezení · existující stack

VýstupVariantní návrhy · rozhodovací matice · ADR

→ Nový projekt · architektonické rozhodnutí · refactoring

Developer agent

Implementace kódu

Píše kód podle architektova návrhu a vzoru existujícího codebase. Vždy s testy.

VstupSpec · existující codebase · testy

VýstupPR-ready commit · testy · dokumentace

→ Rutinní implementace · CRUD · migrace

Debugger agent

Hledání chyb

Analyzuje chybu, hledá root cause, navrhuje fix. Nezasahuje do kódu bez schválení.

VstupError log · stacktrace · kontext

VýstupHypotéza · reprodukce · navržený fix

→ P2/P3 bugy · prošetření chyby · post-mortem

Support agent

L1 podpora

Odpovídá na běžné dotazy podle KB, klasifikuje tikety, eskaluje složité případy.

VstupDotaz · KB index · history

VýstupOdpověď s citací · návrh tiketu · eskalace

→ FAQ · L1 podpora · interní helpdesk

Data analysis agent

Analýza dat

Píše SQL/Python, generuje charty, identifikuje insights. Výstup vždy s ověřeným kódem.

VstupDataset · otázka · schema

VýstupSQL/Python · graf · interpretace

→ Rutinní reporty · ad-hoc analýza · exploration

Document agent

Práce s dokumenty

Extrakce, generování reportů, šablonování. OCR pipeline pro faktury, smlouvy, formuláře.

VstupDokumenty (PDF/scan) · šablona

VýstupStructured JSON · vyplněný report · summary

→ Měsíční reporty · OCR · contracts review

06 — Technologický stack

Stack, na kterém AI ve firmě stavíme.

Konkrétní open-source a komerční nástroje. Zvolené tak, aby byly osvědčené, integrovatelné a auditovatelné. Žádné „vlastní AI“, žádné black-box krabice.

LLM provider

OpenAI · GPT

GPT-4o vision · multimodal · default volba pro OCR a reasoning.

LLM provider

Anthropic · Claude

200k context · code generation · structured output · sweet spot pro většinu úloh.

Self-hosted

NVIDIA NeMo

Self-hosted LLM platforma. Fine-tuning, RAG, guardrails — vše ve vašem cloudu nebo on-prem.

Runtime

OpenClaw

Runtime pro agentní workflow. Řídí runy, role, audit, tool use. Vendor-agnostic abstrakce.

Vector DB

Qdrant · pgvector

Embeddings & semantic search pro RAG. EU hosted, plně pod kontrolou.

Backend

.NET 8 · ASP.NET Core

Hlavní backend platforma. Type-safe, výkonná, cloud + on-prem ready. Production proven.

Library

LangChain · Vercel AI SDK

Tool use, streaming, function calling. Glue mezi modelem a business logikou.

Observability

Langfuse · audit log

Per-run logging: prompt, output, tokens, cost, latency. TISAX/AI Act ready.

07 — Stack v detailu

Co používáme — a proč.

Konkrétní open-source a komerční nástroje, které tvoří funkční AI integraci. Žádné „na to máme něco vlastního“.

NVIDIA NeMo Self-hosted

Self-hosted LLM framework. Použijeme tehdy, když data nesmí opustit firmu (TISAX, citlivá data, EU-only). Nabízí fine-tuning, RAG, guardrails na úrovni infrastruktury — vše ve vašem cloudu nebo on-prem.

OpenClaw Runtime

Runtime pro agentní workflow. Řídí runy, role, audit, tool use. Standardizovaná abstrakce nad model providery — agent neví, jestli za ním je GPT, Claude nebo NeMo. Routing určuje config.

OpenAI / Anthropic External API

Managed reasoning modely. GPT-4o pro multimodální (vision + text), Claude Sonnet/Opus pro dlouhý kontext a code generation. Pay-per-token, rychlé, vysoká kvalita.

Vector DB Self-hosted

Qdrant nebo pgvector pro RAG. Embeddings dokumentů, semantic search, citation grounding. EU hosted, plně pod kontrolou.

LangChain / Vercel AI SDK Libraries

Knihovny pro tool use, streaming, function calling. LangChain pro Python pipelines, Vercel AI SDK pro Next.js apps.

Langfuse / Custom logs Observability

Audit log každého runu: prompt, output, tokens, cost, latence. Eval pipeline pro regression testing po změně promptu nebo modelu.

Tokeny — jak fungují a kolik stojí

Token je jednotka textu — cca 4 znaky CZ/EN. Slovo „automotive“ = ~3 tokeny. Stránka A4 textu ~ 800 tokenů.

Input vs output cena: output je u Claude 4× dražší než input. Optimalizace: zkracovat output schémata, používat structured JSON.

Context window: 128k (GPT-4o) / 200k (Claude) / 1M (Gemini 2). Self-hosted NeMo s fine-tuningem nemá tento limit.

Jak šetřit: caching (Anthropic prompt cache snižuje cenu opakovaného kontextu o 90%), levné modely pro klasifikaci (Haiku, 4o-mini), dělit úkoly na menší runy.

Orchestrace — jak agenti spolupracují

Linear workflow: A → B → C. Output kroku A je vstup B. Jednoduché, snadno auditovatelné.

Branching: rozhodnutí v běhu. Klasifikační agent rozhodne, jestli pokračovat větví A (technický dotaz) nebo B (billing).

Self-verify loop: agent generuje, druhý kontroluje, retry pokud fail. Zvyšuje accuracy, zvyšuje cenu.

Multi-agent: architect → developer → debugger. Každý se svým modelem, kontextem, rolí. Run engine zřetězí výstupy.

Tool use: agent nevolá API přímo, požádá orchestrátor („potřebuju zavolat get_invoice“). Orchestrátor rozhodne, schválí, zaloguje.

08 — Případové studie

Šest situací, kde se AI vyplatí.

Konkrétní typy úloh s jasným ROI. Klikni na kartu pro detail — problém, řešení, přínos a technologie použité v produkci.

09 — Kdy investovat

Kdy AI integrace dává smysl. A kdy ne.

AI není kladivo na všechno. Před pilotem si projděte tyhle dva sloupce. Pokud jste převážně v pravém, pilot vás stáhne víc do mínusu než přidá hodnoty.

Smysl má, když:

Úloha je rutinní a opakovatelná (faktury, tikety)
Vstup je strukturovaný nebo ho lze strukturovat
Existuje feedback loop — lze měřit accuracy
Akceptujete určitou míru chyby + human review
Máte data pro RAG nebo fine-tuning
Máte ROI > 3× měsíčních nákladů na tokeny
Tým je připraven na maintenance (eval, monitoring)

Smysl nemá, když:

Vyžadujete 100% přesnost bez human review
Citlivé/právní rozhodování bez controls
Real-time pod 100 ms latence
Krajové scénáře s málo training daty
Tým neumí provoz (žádný on-call, žádný eval)
Snažíte se nahradit strategickou roli člověkem
Chcete jednorázový proof-of-concept bez plánu na produkci

10 — Bezpečnost & compliance

Data, přístupy, audit.

AI integrace přidává nový vektor — data tečou do externího modelu, agent vykonává akce. Bezpečnost se řeší před nasazením, ne po incidentu.

DATA RESIDENCY

EU-only providers

Anthropic má EU region. Mistral je EU-native. Pro TISAX/citlivá data: self-hosted NeMo nebo Llama na vlastním infra. Žádný transfer mimo EU bez DPA.

AUDIT

Run log = právní stopa

Každý run logguje: kdo (user), co (input), kdy (timestamp), který model, kolik tokenů, jaký output. Retence dle data klasifikace. TISAX-ready.

DLP

PII detection před voláním

Před odesláním do modelu projede vstup PII detector (rodná čísla, čísla karet, e-maily, jména). Citlivá pole se maskují nebo blokují.

AI ACT

Risk-level klasifikace

Každý use case se zařadí dle EU AI Act: minimal / limited / high-risk. High-risk vyžaduje human oversight, eval, transparency.

ACCESS CONTROL

Workspace isolation

Agent nemá přístup mimo svůj workspace. Žádný root execution. Tool use přes whitelist. Role-based access kontrolovaný runtime, ne promptem.

PROMPT INJECTION

Defense in depth

Uživatelský vstup se izoluje od system promptu. Output validation. Refusal patterns. Eval suite proti známým injection vektorům (Anthropic + OpenAI dělají research).

11 — Co implementace obnáší

Pět kroků od workshopu k produkci.

Realistický plán: 3–6 měsíců od prvního workshopu po první ověřený produkční use case. Bez slibů, bez agresivních deadlinů.

Workshop & use case discovery

90 minut zdarma. Identifikujeme 2–3 use case kandidáty, vyhodnotíme ROI, data readiness, risk profile. Výstup: prioritní list a next steps.

90 min · zdarma

Pilot scope & baseline

2–4 týdny. Jeden use case, jeden agent, jeden run flow. Sbíráme baseline data (manual baseline). Definujeme success metrics — jak poznáme, že to funguje.

2–4 týdny

Build & iterate

1–2 měsíce. Implementace agenta, prompt engineering, tool use integration, eval suite. A/B testy, regression eval po změnách.

1–2 měsíce

Production rollout

1 měsíc. Postupné rolling po týmech. Monitoring, fallback na manual flow, on-call rotace. Audit log + cost tracking.

1 měsíc

Scale & další use cases

Po prvním ověřeném: další agenti, další use cases. Sdílená runtime, sdílená evaluace, postupně se buduje agentní kapacita firmy.

průběžně

12 — Co sledujeme

Trendy 2026 — co se reálně mění.

Bez sci-fi. Konkrétní technologie, které se přesouvají z laboratoře do produkce a ovlivňují implementační rozhodnutí.

13 — Další krok

Tři způsoby, jak začít.

Bez tlaku, bez slajdů. Vyberte si podle toho, kde se ve svém AI rozhodování právě nacházíte.

Zpět na hlavní · AI sekci