Slovník
Large Language Model
Large Language Model (LLM, velký jazykový model) je typ neuronové sítě trénované na obrovských množstvích textových dat s cílem porozumět přirozenému jazyku a generovat smysluplné odpovědi. Modely jako GPT-4, Claude, Gemini nebo Llama mají stovky miliard parametrů a byly trénovány na podstatné části dostupného textu na internetu, v knihách a dalších zdrojích.
Principem fungování je predikce následujícího tokenu (přibližně slova nebo části slova) na základě předchozího kontextu. Přestože jde o zdánlivě jednoduchý úkol, trénování na dostatečně velkém objemu dat vede ke vzniku emergentních schopností: logického uvažování, psaní kódu, překladu, sumarizace nebo vedení koherentního dialogu. Tyto schopnosti nebyly explicitně naprogramovány – vynořily se samy ze škálu dat a parametrů.
Pro praktické nasazení se LLM typicky používají prostřednictvím API. Vývojáři posílají textový vstup (prompt) a model vrací odpověď. Díky instruktážnímu fine-tuningu a RLHF (Reinforcement Learning from Human Feedback) jsou moderní modely schopny sledovat pokyny, odmítat škodlivé požadavky a přizpůsobovat tón komunikace.
Omezení LLM zahrnují tendenci ke generování plausibilních, ale nesprávných informací (halucinace), datum ukončení tréninku omezující znalost aktuálních událostí a vysoké výpočetní náklady. RAG (Retrieval-Augmented Generation) je běžná architektura, která tato omezení zmírňuje propojením LLM s aktuální znalostní bází.