AI zápisy z meetingů v češtině: jak měřit kvalitu shrnutí a snížit halucinace

Automatické zápisy z meetingů dávají smysl tehdy, když zkrátí administrativu bez toho, aby zkreslily rozhodnutí, úkoly a termíny. U češtiny je problém výraznější než u angličtiny: bohaté skloňování, volnější slovosled a časté míchání formálního a hovorového projevu zvyšují riziko chyb v přepisu i ve shrnutí. Hlavní otázka proto nezní, zda AI zápis používat, ale jak poznat, že je dost přesný pro interní provoz, audit nebo veřejnou správu, a jak systematicky omezit halucinace. For related context, see Jak postavit interní AI znalostní bázi z firemních dokumentů za 90 minut.

Článek se zaměřuje na měření kvality českých meeting summaries a na konkrétní postupy, které snižují výskyt nepravdivých nebo domyšlených tvrzení. Neřeší marketingové sliby nástrojů, ale rozhodovací pravidla: co kontrolovat, kdy to dělat ručně, jak nastavit proces schvalování a kde jsou limity samotných modelů. For related context, see Jak zavést interní AI policy pro tým do 20 lidí: šablona + kontrolní body.

Pro širší kontext využití generativních nástrojů v práci se hodí také přehled na aivyber.cz/ai-nastroje a související články v sekci aivyber.cz/blog, pokud se řeší výběr vhodné služby pro firemní provoz.

Proč jsou české zápisy z meetingů náchylné k chybám

První vrstva problému vzniká ještě před samotným shrnováním: v automatickém přepisu. Pokud systém špatně rozpozná jména, částky, negaci nebo termín, summary už pracuje s chybným vstupem. Druhá vrstva je samotná generace shrnutí, kde model může spojovat nesouvisející výroky, vynechat výjimky nebo doplnit údaj, který v hovoru vůbec nezazněl. Právě to se běžně označuje jako halucinace.

Čeština je pro NLP náročná kvůli komplexní gramatice a syntaxi; tato vlastnost je dlouhodobě popisovaná i v odborné literatuře. Praktický dopad je zřejmý: model může chybně určit, kdo je vykonavatel úkolu, komu patří rozhodnutí nebo zda šlo o návrh, nebo už o schválený krok. U meetingů navíc bývá řeč nedokončená, s odbočkami, přerušováním a s cizími termíny.

Co dělat: oddělit přepis od shrnutí a hodnotit obě vrstvy zvlášť. Pokud je přepis slabý, není efektivní ladit prompt pro summary.

Pro koho: týmy, které zapisují porady s úkoly, právními dopady nebo rozpočtovým rozhodnutím.

Kdy to nepoužívat: u jednání, kde není povolen záznam zvuku, nebo kde i interní shrnutí obsahuje zvlášť citlivé osobní údaje bez právního a procesního rámce.

Kde vznikají nejdražší chyby

Akční úkoly: model přiřadí úkol nesprávné osobě.
Termíny: z „příští týden ověřit“ udělá pevné datum.
Rozhodnutí vs. návrh: z otevřené debaty udělá schválené usnesení.
Negace a výjimky: opomene „zatím ne“, „s výjimkou“, „pokud rozpočet projde“.
Číselné údaje: špatně přepíše částku, verzi smlouvy nebo počet kusů.

Jak kvalitu shrnutí skutečně měřit

Nejčastější chyba firemního nasazení je měřit jen „jak to zní“. Plynulý text ještě neznamená přesný text. Pro vyhodnocení kvality summary je potřeba kombinovat alespoň tři vrstvy: automatické metriky, lidské hodnocení a provozní dopad.

Automatické metriky jako ROUGE a BLEU se používají pro porovnání strojového výstupu s referenčním shrnutím. Jsou užitečné pro srovnání variant modelů nebo promptů, ale samy o sobě nestačí. Dobře zachytí podobnost formulace a částečně i pokrytí obsahu, ale nepoznají spolehlivě, že model doplnil nepravdivý údaj. Proto je lidské hodnocení považováno za zlatý standard.

Co dělat: zavést minimální hodnoticí rubrici pro každý zápis. Praktická verze pro provoz může mít pět bodů: věcná přesnost, pokrytí klíčových rozhodnutí, správnost akčních úkolů, správnost jmen/čísel/datumů, čitelnost.

Pro koho: vedoucí týmů, operations, PMO, interní IT a správu dokumentace ve veřejném sektoru.

Kdy to nepoužívat: pokud vznikají jen neformální poznámky bez návazných úkolů a bez potřeby porovnávání kvality mezi nástroji nebo verzemi workflow.

Doporučená hodnoticí tabulka

Pro interní audit stačí jednoduchá škála 0–2 body na každé kritérium:

Věcná přesnost: 0 = obsahuje nepravdivá tvrzení; 1 = drobné nepřesnosti; 2 = bez zjevné chyby.
Pokrytí: 0 = chybí zásadní rozhodnutí; 1 = chybí vedlejší body; 2 = vše podstatné zachyceno.
Úkoly a odpovědnosti: 0 = chybné přiřazení; 1 = neúplné; 2 = správně a jednoznačně.
Čísla, data, jména: 0 = kritická chyba; 1 = drobná odchylka; 2 = správně.
Forma: 0 = nepoužitelné; 1 = použitelné po úpravě; 2 = použitelné rovnou.

Praktický výsledek je jedno číslo 0–10. Pro interní provoz lze nastavit, že vše pod 8 bodů jde do ruční revize a vše pod 6 bodů se nepublikuje bez nového shrnutí.

Jak kombinovat metriku a lidskou kontrolu

Automatická metrika je vhodná pro testování ve větším objemu, například při porovnání dvou promptů nebo dvou nástrojů. Lidské hodnocení je nutné u vzorku, který reprezentuje reálné porady: krátké stand-upy, obchodní schůzky, porady vedení i technické meetingy s terminologií. Kvalitu je vhodné benchmarkovat proti lidsky napsanému shrnutí stejného meetingu, protože právě to ukáže, zda AI zachycuje podstatu stejně spolehlivě jako člověk.

Jak nastavit workflow, které snižuje halucinace

Halucinace se obvykle neomezují jedním „lepším promptem“. Spolehlivější je proces s více zábranami. Základní pravidlo zní: model má shrnovat jen to, co je prokazatelně ve zdroji, a výstup má mít strukturu, která nutí k ověření.

OpenAI

Co dělat: používat pevnou šablonu výstupu s oddíly „Rozhodnutí“, „Otevřené body“, „Úkoly“, „Rizika“, „Citlivé údaje nezahrnovat“. Do promptu přidat instrukci „Nevymýšlej fakta mimo přepis; pokud něco není jisté, označ to jako neověřené.“

Pro koho: firmy s pravidelnými poradami, konzultační týmy, projektové kanceláře a úřady, kde zápis putuje dál mezi více lidmi.

Kdy to nepoužívat: pokud uživatelé očekávají kreativní přeformulování nebo manažerské dovysvětlení nad rámec zdroje. Tam je potřeba odlišit summary od interpretace.

Osvědčený řetězec kroků

Nejprve přepis, potom summary: neslučovat oba kroky, pokud nejde o velmi krátký meeting.
Detekce entit: před shrnutím vytáhnout jména, organizace, částky, data a termíny.
Kontrola citlivých údajů: odstranit nebo maskovat to, co nemá být v zápisu.
Strukturované shrnutí: model generuje jen do daných polí.
Verifikace kritických bodů: druhý krok porovná úkoly a rozhodnutí se zdrojovým přepisem.
Lidské schválení: minimálně u zápisů s právním, finančním nebo personálním dopadem.

Tento postup funguje lépe než jednorázové „shrň meeting“, protože izoluje nejdražší typy chyb. Zvlášť užitečné je nucené pole „Nejasnosti“, kam model uvede body, které v hovoru nebyly jednoznačné. Tím se snižuje tlak na domýšlení.

Jaké nástroje dávají smysl

V praxi se často používají služby jako Otter, Fireflies.ai, Fathom nebo přímé workflow nad modely od OpenAI. U češtiny je nutné ověřit dvě věci: kvalitu přepisu češtiny a možnost exportu zdrojových dat pro audit. Některé služby excelují v angličtině, ale u češtiny mohou mít slabší diarizaci mluvčích nebo horší zachycení jmen.

Orientační ceny: u zahraničních SaaS nástrojů se běžně pohybují zhruba od 0 do 30 USD za uživatele měsíčně podle tarifu a funkcí; podnikové plány bývají individuální. Jde o orientační údaj, který se mění podle rozsahu úložiště, délky záznamů, počtu workspace a compliance funkcí.

Čeho si v češtině všímat při auditu kvality

Čeština vyžaduje při kontrole jiné priority než angličtina. Nestačí hlídat obecný význam; je potřeba kontrolovat vztahy mezi slovy. Chyba ve skloňování sama o sobě nemusí vadit, ale chyba v pádu může změnit vykonavatele úkolu nebo adresáta rozhodnutí. U zápisů z porad je to podstatné.

Co dělat: do auditu přidat speciální checklist pro češtinu: negace, podmínky, termíny, přiřazení osob, odborné názvosloví a přepisy vlastních jmen.

Pro koho: organizace s českými meetingy, ale i bilingvní firmy, kde se v jedné poradě míchá čeština a angličtina.

Kdy to nepoužívat: u čistě anglických callů bez českého výstupu; tam je vhodnější audit podle jiných jazykových rizik.

Checklist českých rizik

Negace: „neschválili“, „nepočítá se“, „nebude do pátku“.
Podmíněnost: „pokud“, „v případě“, „zatím“, „po schválení rozpočtu“.
Mluvčí a role: rozdíl mezi „zadá IT“ a „zadáno IT“.
Termíny: „do pátku“ versus „v pátek“, „příští týden“ bez přesného data.
Zkratky a interní slang: projektová označení, názvy systémů, resortní zkratky.
Kombinace jazyků: anglické produktové termíny uvnitř české věty.

Právě zde dává smysl využít doménově specifická data. Odborné zdroje opakovaně ukazují, že modely pracující s oborovou terminologií podávají lepší výsledky než obecný model bez kontextu. U meeting summaries to znamená zejména interní slovník zkratek, seznam týmů, názvů produktů a typických agend.

Praktické scénáře: jak měřit a opravovat v reálném provozu

Stejný postup nefunguje pro každou poradu. Jinak se hodnotí denní stand-up, jinak porada vedení a jinak jednání ve veřejné správě. Rozdíl je hlavně v toleranci k chybám a v tom, co je kritický údaj.

Co dělat: rozdělit meetingy do tříd rizika a pro každou nastavit jinou hloubku kontroly.

Pro koho: firmy, které chtějí škálovat AI zápisy bez plošného ručního přepisování všeho.

Kdy to nepoužívat: pokud všechny typy porad házíte do jednoho workflow a není možné rozlišit, které zápisy mají právní nebo finanční dopad.

Scénář 1: Denní stand-up vývojového týmu

Cíl: rychlý přehled blokátorů a úkolů na den. Měřit: pokrytí úkolů, správné přiřazení lidí, minimum redakčních úprav. Tolerance: vyšší než u právně citlivých porad. Postup: AI vytvoří seznam „hotovo / blokery / další krok“, scrum master zkontroluje jen přiřazení a termíny. Pokud zápis nezahrnuje rozhodnutí s dopadem mimo tým, není nutná detailní jazyková revize.

Scénář 2: Obchodní schůzka se zákazníkem

Cíl: zachytit závazky, nabídku, další kroky a otevřené otázky. Měřit: čísla, termíny, odpovědnosti, přesnost formulací u slev a rozsahu plnění. Tolerance: nízká u cen a termínů. Postup: summary rozdělit na „Potvrzené“, „Navržené“, „K ověření“. Model nesmí spojit orientační debatu o ceně s finální nabídkou.

Scénář 3: Porada vedení nebo správní rada

Cíl: evidovat rozhodnutí a zdůvodnění. Měřit: věcnou přesnost, úplnost klíčových bodů, odlišení návrhů od schválených usnesení. Tolerance: velmi nízká. Postup: AI použít jen jako první návrh, finální verzi musí schválit člověk podle nahrávky nebo ověřeného přepisu.

Scénář 4: Veřejná správa a administrativní porady

Veřejný sektor AI pro administrativní agendy postupně zkoumá i nasazuje. U zápisů je ale důležitá auditovatelnost, archivace, přístupová práva a práce s osobními údaji. Měřit: dohledatelnost zdroje, konzistenci terminologie, soulad s interní spisovou logikou. Postup: uchovávat vazbu mezi shrnutím a zdrojovým přepisem, aby bylo možné zpětně ověřit spor o formulaci. Kdy to nepoužívat: pokud služba neumožňuje dostatečné smluvní a technické záruky pro práci s citlivými daty.

Jak pracovat se zpětnou vazbou a zlepšovat systém v čase

Jednorázové vyhodnocení nestačí. Kvalita se mění podle typu porad, nových zaměstnanců, slangových zkratek i podle toho, jak se mění samotný model. Uživatelská zpětná vazba je proto klíčová nejen pro opravy jednotlivých zápisů, ale i pro dlouhodobé snižování chybovosti.

Co dělat: evidovat typy chyb v jednoduché taxonomii: chyba přepisu, chyba přiřazení mluvčího, chybějící bod, domyšlený údaj, chyba čísla, chyba termínu.

Pro koho: týmy, které generují desítky až stovky zápisů měsíčně a chtějí workflow ladit datově, ne dojmem.

Kdy to nepoužívat: pokud nikdo chyby systematicky neoznačuje; bez kvalitních štítků zůstane feedback jen seznamem stížností.

Jednoduchý proces auditu

Vybrat vzorek, například 10 až 20 meetingů za měsíc.
Porovnat přepis, shrnutí a finálně schválenou verzi.
Každou opravu zařadit do typu chyby.
Spočítat opakující se patterny: jména, čísla, termíny, rozhodnutí.
Upravit prompt, slovník nebo krok lidské validace tam, kde je chyba nejdražší.

Pravidelné audity pomáhají odhalit, že problém často není „model obecně“, ale konkrétní situace: rychlá mluva, více mluvčích přes sebe, anglicismy, nebo schůzky bez jasné moderace. Teprve po takovém rozkladu dává smysl rozhodnout, zda pomůže jiný nástroj, jiný způsob nahrávání, nebo jiná struktura výstupu.

Limity, které nelze obejít promptem

Některé chyby mají procesní řešení, jiné technologické a některé zůstávají i při pečlivém nastavení. Zásadní limit je, že model neví, co se „opravdu myslelo“, pokud to ve zdroji nebylo řečeno jednoznačně. Další limit je kvalita audia: šum, překrývání hlasů a nekvalitní mikrofony degradují celý řetězec.

Co dělat: u kritických porad zajistit kvalitní záznam, identifikaci mluvčích a povinné lidské schválení finální verze.

Pro koho: právní, finanční, HR a vedení organizace, kde i malá nepřesnost může mít reálný dopad.

Kdy to nepoužívat: jako jediný zdroj pravdy při sporech, disciplinárních řízeních, smluvních závazcích nebo u jednání, která vyžadují doslovný protokol.

Typické neřešitelné nebo obtížně řešitelné situace

Více lidí mluví současně a diarizace není spolehlivá.
Meeting pracuje s neveřejným kontextem, který v hovoru nezazní nahlas.
Rozhodnutí vzniká neverbálně nebo implicitním souhlasem.
Účastníci mění názor v průběhu hovoru a finální závěr není zřetelně uzavřen.
Zkratky mají v různých týmech jiný význam.

V těchto případech je správná volba nepouštět zápis automaticky dál bez kontroly. Cílem není nulová chybovost za každou cenu, ale rozumné snížení administrativy při jasně vymezeném riziku.

FAQ

Jak poznat halucinaci v zápisu z meetingu?

Halucinace je tvrzení, které ve zdrojovém přepisu není doložitelné. Typicky jde o domyšlený termín, částku, důvod rozhodnutí nebo přiřazený úkol. Ověření se dělá porovnáním summary se zdrojovým přepisem, ne podle toho, zda text zní věrohodně.

Stačí pro měření kvality ROUGE nebo BLEU?

Ne. Tyto metriky jsou užitečné pro srovnání variant výstupu vůči referenčnímu shrnutí, ale samy neodhalí všechny věcné chyby. Pro provozní nasazení je nutná i lidská kontrola alespoň na reprezentativním vzorku.

Proč bývá čeština náročnější než angličtina?

Čeština má bohatší morfologii, volnější slovosled a větší riziko, že drobná forma změní vztah mezi aktérem a akcí. U meetingů navíc často dochází k míchání češtiny, angličtiny a interních zkratek.

Pomůže jemné doladění nebo doménová data?

Ano, zejména u interní terminologie, názvů produktů, zkratek a opakujících se typů porad. Odborné zdroje dlouhodobě potvrzují, že doménově specifická data zlepšují výkon modelu v úlohách se specializovaným jazykem.

Jak často dělat audit kvality?

U nového nasazení průběžně během prvních týdnů, potom alespoň měsíčně na vzorku. Audit je vhodné zopakovat i při změně nástroje, modelu, promptu nebo typu meetingů.

Může AI zápis nahradit oficiální zápis z jednání?

U méně rizikových interních porad často ano, ale u právně, personálně nebo finančně citlivých jednání by měl sloužit spíše jako návrh, který schválí odpovědná osoba podle interních pravidel.

Závěr

Kvalitní AI zápis z meetingu v češtině nevzniká jedním kliknutím, ale kombinací dobrého přepisu, strukturovaného shrnutí, cíleného měření a pravidelné kontroly chyb. Nejpraktičtější přístup je hodnotit věcnou přesnost, pokrytí rozhodnutí, správnost úkolů a přesnost jmen, dat a čísel. Teprve potom má smysl řešit stylistiku.

Pokud má být výstup použitelný v reálném provozu, je potřeba odlišit nízkorizikové porady od meetingů, kde chyba znamená rozpočtový, právní nebo reputační problém. Tam AI dobře funguje jako akcelerátor prvního návrhu, nikoli jako nekontrolovaný zdroj pravdy. U češtiny je navíc rozhodující doménový slovník, práce s nejasnostmi a audit založený na porovnání se zdrojem. Právě tato kombinace obvykle přináší největší pokles halucinací bez toho, aby se ztratila hlavní výhoda: úspora času při zpracování zápisů.

Doporučený AI stack pro realizaci

Vyber si nástroje podle rozpočtu a úrovně automatizace. Níže je přímý přehled služeb pro realizaci projektu.

Služba	Popis služby	Nabídka
NordVPN	VPN služba pro ochranu soukromí a bezpečné připojení.	Otevřít nabídku
Semrush	SEO a marketingová platforma pro analýzu a růst návštěvnosti.	Otevřít nabídku
Notion	Pracovní prostor pro poznámky, dokumentaci a řízení projektů.	Otevřít nabídku
Hostinger	Webhosting a domény pro rychlé spuštění webu.	Otevřít nabídku
Fiverr	Marketplace pro freelancery a externí specialisty.	Otevřít nabídku
Adobe	Kreativní nástroje pro grafiku, video a digitální obsah.	Otevřít nabídku
Canva	Online design nástroj pro grafiku, prezentace a sociální sítě.	Otevřít nabídku
Jasper	AI nástroj pro marketingové texty a obsahové kampaně.	Otevřít nabídku