Slovník
Embeddings
Embeddings (vektorové reprezentace) jsou způsob, jak převést data – nejčastěji text, ale i obrázky nebo audio – do číselných vektorů v mnohodimenzionálním prostoru. Klíčová vlastnost je, že sémanticky podobné objekty mají podobné vektory, které leží blízko sebe. Věta o štěkajícím psovi bude mít bližší vektorovou reprezentaci k větě o zvuky vydávajícím zvířeti než k větě o rostoucích akciích.
Proces vytváření embeddingů probíhá trénováním neuronové sítě na obrovských datových sadách. Model se naučí zachytit vztahy a vzory v datech a zakódovat je do kompaktní číselné reprezentace – typicky vektor o 768 nebo 1536 číslech. Populární modely pro tvorbu embeddingů jsou text-embedding-ada od OpenAI nebo open-source alternativy jako sentence-transformers.
Embeddings jsou základním stavebním kamenem moderních AI aplikací. Umožňují sémantické vyhledávání, kde výsledky odpovídají záměru dotazu, nikoli jen klíčovým slovům. Využívají se v systémech doporučování obsahu, detekci duplicit, klasifikaci dokumentů nebo odhalování anomálií. Jsou rovněž klíčovým prvkem RAG (Retrieval-Augmented Generation) architektur, kde jazykový model získává relevantní kontext z vlastní znalostní báze firmy.
Pro webové vývojáře pracující s AI jsou embeddings praktickým nástrojem pro stavbu inteligentnějšího vyhledávání nebo personalizace. Embeddings se ukládají do vektorových databází a vyhledávání probíhá pomocí výpočtu kosinové podobnosti nebo euklidovské vzdálenosti mezi vektory.