Pojmovnik — LLM Machines

AI i modeli.

Sloj modela — što se izvršava, kako prezentira tekst i vokabular ugađanja oko toga.

LLM: Large Language Model. Neuronska mreža trenirana na ogromnim korpusima teksta da predviđa sljedeći token u nizu. Današnji chat asistenti su LLM-ovi s instrukcijskim ugađanjem i sigurnosnim slojevima povrh.
Open-weight model: Model čiji su trenirani parametri javno objavljeni, pa se može preuzeti, auditirati, fine-tunirati i pokretati lokalno. Primjeri: Llama, Mistral, Qwen, DeepSeek. Suprotno proprietary modelima dostupnima samo kroz vendor API.
Token tokenizacija: Atomska jedinica koju jezični model čita i piše. Jedan token je otprilike ¾ engleske riječi. Tokenizacija je predprocesni korak koji dijeli tekst u te jedinice; cijene cloud LLM API-ja su po tokenu.
Context window: Maksimalan broj tokena koje model može razmatrati istovremeno pri generiranju odgovora. Veći context window omogućuje rezoniranje nad duljim dokumentima, ali povećava memorijske i latencijske troškove.
Embedding: Numerička vektorska reprezentacija teksta (ili bilo kojih podataka) koja hvata semantičko značenje. Embeddinzi pokreću semantičko pretraživanje, RAG dohvat, klasteriranje i deduplikaciju.
Vector database vector store: Specijalizirana baza podataka koja pohranjuje embeddinge i podržava pretraživanje najbližih susjeda. Obvezna infrastruktura za RAG. Primjeri: Qdrant, Weaviate, Milvus, pgvector.
Inferencija inference: Pokretanje treniranog modela da proizvede izlaz, za razliku od treniranja, koje uopće proizvodi model. On-prem inferencija znači da se model izvršava na vašem hardveru.
Fine-tuning: Prilagodba pre-treniranog modela specifičnim zadacima ili jeziku domene nastavkom treninga na manjem, ciljanom skupu podataka. Različito od prompt engineeringa, koji oblikuje ulaz, a ne težine.
LoRA / QLoRA: Low-Rank Adaptation. Parametarski efikasna metoda fine-tuninga koja trenira mali skup dodatnih težina umjesto ažuriranja cijelog modela — drastično smanjuje kompjut i pohranu. QLoRA dodaje kvantizaciju za dodatne uštede.
Quantization kvantizacija: Smanjenje numeričke preciznosti težina modela (npr. s 16-bit na 4-bit) radi smanjenja veličine modela i ubrzanja inferencije, obično uz mali kompromis na točnosti.
Hallucination halucinacija: Kada model generira izlaz koji zvuči uvjerljivo, ali je činjenično netočan. Glavni razlog zašto produkcijski AI sustavi koriste tehnike utemeljenja kao što je RAG.
Temperature: Parametar uzorkovanja koji kontrolira nasumičnost u izlazu modela. Nula proizvodi determinističke, fokusirane odgovore; više vrijednosti proizvode kreativniji ili raznolikiji izlaz.
Llama · Mistral · Qwen · DeepSeek: Glavne familije open-weight LLM-ova od Mete, Mistral AI, Alibabe i DeepSeeka. Četiri koje većina poduzeća prva evaluira pri planiranju lokalne inferencije.

Arhitektura i infrastruktura.

Kako je AI sustav sastavljen, posluživan i omeđen — od razine appliance-a do pojedinačnih protokola.

On-prem on-premise: Softver ili hardver koji se izvršava unutar vlastitog data centra ili privatnog oblaka organizacije, umjesto u javnom oblaku treće strane. Arhitektonska suprotnost SaaS-a.
Appliance: Pre-integrirana hardversko-softverska jedinica isporučena kao jedan proizvod. Mrežni firewalli, storage arrays i naša AI platforma — sve su to appliance-i; klijent ne sastavlja komponente.
API gateway: Usluga koja stoji između klijenata i backend AI modela, obavljajući autentikaciju, rate limiting, usmjeravanje, logiranje i observability. U našem stacku: LiteLLM koji izlaže OpenAI-kompatibilne endpointe.
Endpoint: Specifični URL na kojem se API može pozvati (npr. /v1/chat/completions). "OpenAI-kompatibilni endpointi" znače da URL-ovi i format zahtjeva odgovaraju onome što OpenAI API očekuje, pa postojeći klijenti rade nepromijenjeni.
RAG: Retrieval-Augmented Generation. Arhitektura koja dohvaća relevantne dokumente iz baze znanja i ubacuje ih u prompt modela u trenutku upita, utemeljujući odgovore u pouzdanim podacima umjesto samo na pretreniranom znanju modela.
MCP: Model Context Protocol. Otvoreni standard koji je uveo Anthropic, koji omogućuje AI aplikacijama da se povežu s vanjskim alatima, izvorima podataka i uslugama kroz jedinstveno sučelje — zamjenjujući ad-hoc integracije jednim wire protokolom.
Tier model T1 / T2 / T3: LLM Machines sustav razina komponenti. T1 = certificirana jezgra, host-privilegirano; T2 = ograničeni kontejneri; T3 = sandbox-iran bez host pristupa. Svaka komponenta nosi potpisanu tier oznaku koju provodi manifest.
Pure Mode: Jedan klik admin akcija na appliance-u koja onemogućuje svaku T2 i T3 komponentu, ostavljajući samo certificiranu jezgru u radu. Koristi se tijekom sigurnosnih incidenata, audita ili dijagnostike podrške.
Manifest enforcement: Potpisana deklaracija što je svaka komponenta, kojoj razini pripada i koje privilegije može zatražiti. Appliance odbija učitati bilo što što nije na manifestu.
Certificirana jezgra certified core: Skup komponenti koje dolaze s appliance-om, potpisane od strane LLM Machines, i izvršavaju se na razini T1. Uključuje gateway, sloj inferencije, vector store i orkestrator.
Agent agentski workflow: AI sustav koji planira, odlučuje i poziva alate da završi višekorake zadatak — za razliku od jedne prompt-odgovor interakcije. Agentski sustavi koriste tool calling i često izvršavaju više LLM koraka po korisničkom zahtjevu.
Tool calling function calling: LLM sposobnost gdje model emitira strukturirane pozive vanjskim funkcijama ili API-jima (npr. pretraži bazu, pošalji email), omogućujući automatizaciju izvan čistog generiranja teksta.
Workflow orchestration: Koordiniranje višestrukih AI poziva, izvršavanja alata i ljudskih odobrenja u definiranom slijedu. U LLM Machines, workflow izvršavanje upravlja se kroz konzolu, odobrene predloške, lokalne vjerodajnice i audit logove.
Sandboxing: Izvršavanje koda u izoliranom okruženju s ograničenim pristupom sustavu. T3 komponente u našem stacku su sandbox-irane tako da ne mogu vidjeti podatke drugih komponenti ili pobjeći na host.
High availability HA: Dizajn sustava koji tolerira pad komponente bez prekida usluge, obično putem redundancije i automatske failover. Obvezno za enterprise SLA-jeve.
LiteLLM · LibreChat · vLLM · SGLang · Presidio: Komponente stacka koje isporučujemo na razini T1. LiteLLM je API gateway; LibreChat je chat površina; vLLM i SGLang su inference engine-i; Microsoft Presidio obrađuje PII detekciju i redakciju. RAG sloj isporučuje se kao lokalni knowledge workspace na on-box pohrani.

Privatnost, sigurnost i identitet.

Koncepti koji odlučuju gdje podaci žive, tko im može pristupiti i koji dokaz postoji da ništa nije izašlo.

PII: Personally Identifiable Information. Podaci koji mogu identificirati pojedinca — ime, email, OIB, IP adresa, u nekim slučajevima više. Središnji koncept GDPR-a i prva stvar koju PII-redakcijski slojevi traže.
Pseudonimizacija vs anonimizacija: Pseudonimizacija zamjenjuje identifikatore reverzibilnim tokenima — ostaje osobni podatak prema GDPR-u. Anonimizacija ireverzibilno uklanja identifikatore i rezultat više nije osobni podatak. Većina "anonimizacije" u industriji zapravo je pseudonimizacija.
Data residency: Zahtjev da podaci fizički borave na određenoj geografskoj lokaciji. Često se zamjenjuje sa suverenošću — residency je o tome gdje bajtovi sjede; suverenost je o tome koji ih pravni režim regulira.
Data sovereignty suverenost podataka: Načelo da podaci podliježu zakonima i jurisdikciji države u kojoj su prikupljeni ili obrađeni. Za EU podatke, suverenost znači da se primjenjuje EU zakon i da ne-EU vlade ne mogu prisiliti otkrivanje.
Sovereign AI suverena AI: AI sustavi gdje model, infrastruktura na kojoj se izvršava i podaci koji teku kroz njega ostaju pod jurisdikcijskom i operativnom kontrolom korisnika. Proizvodna kategorija koju LLM Machines prodaje.
Air-gapped: Implementacija bez mrežne veze s vanjskim sustavima. Air-gapped AI radi isključivo na internim podacima, a ažuriranja stižu preko prijenosnih medija. Koristi se u obrani, obavještajnom radu i kritičnoj infrastrukturi.
Zero-trust arhitektura: Sigurnosni model koji provjerava svaki zahtjev kao da dolazi iz nepovjerljive mreže, bez obzira na podrijetlo. Maksima: nikad ne vjeruj, uvijek provjeravaj.
RBAC: Role-Based Access Control. Dopuštenja se dodjeljuju ulogama (npr. "inženjer", "admin"); korisnici nasljeđuju dopuštenja svojih uloga. Standardni enterprise model autorizacije.
SSO: Single Sign-On. Korisnik se autenticira jednom kod centralnog identity providera i pristupa mnogim aplikacijama bez ponovnog unosa vjerodajnica.
SAML · OIDC: SAML je XML-bazirani SSO protokol koji poduzeća tipično koriste s naslijeđenim identity providerima. OIDC (OpenID Connect) je moderni JSON-bazirani ekvivalent izgrađen na OAuth 2.0; preferirano za nove aplikacije.
Identity federation: Odnos povjerenja između sustava koji omogućuje da korisnik autenticiran od strane jednog sustava bude prepoznat od drugog, bez dijeljenja lozinki. Mehanizam iza SSO-a.
mTLS: Mutual TLS. Standardni TLS dokazuje identitet servera klijentu; mTLS dodatno dokazuje identitet klijenta serveru, koristeći certifikate s obje strane. Uobičajeno između pouzdanih internih usluga.
Vault trezor: Usluga koja pohranjuje tajne (API ključeve, lozinke, certifikate) enkriptirano u mirovanju i dostupne samo kroz auditirane API-je. Appliance se isporučuje s on-box trezorom za sve vjerodajnice.
Audit log: Append-only zapis značajnih sistemskih događaja — tko je što napravio, kada, nad kojim resursom. Obvezno prema GDPR, NIS2, SOC 2 i većini drugih compliance režima.

Regulativa i compliance.

EU okvir koji sve više oblikuje koje su AI arhitekture prihvatljive, plus globalni standardi koje enterprise kupci prvo provjeravaju.

EU AI Act: Regulativa Europske unije koja klasificira AI sustave prema riziku i nameće obveze razvijateljima i deployerima, posebno za visokorizične primjene. Na snazi od 2024. s faznom provedbom kroz 2026.–2027. Prvi sveobuhvatan horizontalan AI zakon u bilo kojoj velikoj jurisdikciji.
GDPR: General Data Protection Regulation. Sveobuhvatan EU zakon o zaštiti podataka, na snazi od 2018. Uspostavlja prava ispitanika i obveze voditelja obrade i izvršitelja obrade; kazne mogu doseći 4% globalnog godišnjeg prometa.
NIS2: Network and Information Security Directive 2. EU okvir za cybersigurnost za bitne i važne subjekte. Dodaje odgovornost na razini uprave i zahtjeve sigurnosti opskrbnog lanca. Mora se transponirati u nacionalno pravo svake države članice.
EU Data Act: Regulativa o usklađenim pravilima za pristup i korištenje podataka, na snazi od 2024. Cilja cloud lock-in nalažući prava prenosivosti i prebacivanja za cloud usluge.
Schrems II: Odluka Suda EU iz 2020. koja je poništila EU-US Privacy Shield. Utvrdila je da EU osobni podaci poslani u SAD nisu adekvatno zaštićeni od američkog nadzora, čineći većinu transatlantskih prijenosa podataka pravno nestabilnima.
DPA: Data Processing Agreement. Ugovor između voditelja obrade i izvršitelja obrade naložen člankom 28. GDPR-a. Napomena: DPA također znači Data Protection Authority — nacionalni regulator (u Hrvatskoj: AZOP). Kontekst određuje značenje.
DPIA: Data Protection Impact Assessment. Procjena rizika koju GDPR nalaže prije implementacije sustava koji obrađuju osobne podatke u velikom obujmu ili s povišenim rizikom.
Voditelj obrade · Izvršitelj obrade: Prema GDPR-u, voditelj obrade odlučuje zašto i kako se obrađuju osobni podaci; izvršitelj obrade postupa prema uputama voditelja. AI vendori su obično izvršitelji; njihovi enterprise klijenti su obično voditelji.
Pravo na zaborav: Pravo iz GDPR-a (članak 17.) koje omogućuje ispitanicima da zatraže brisanje svojih osobnih podataka pod određenim uvjetima. Stvara prave inženjerske izazove za AI sustave trenirane na osobnim podacima.
SOC 2: Service Organization Control 2. Američki audit okvir fokusiran na pet načela povjerenja: sigurnost, dostupnost, integritet obrade, povjerljivost i privatnost. Uobičajeni B2B SaaS compliance baseline.
ISO 27001: Međunarodni standard za sustave upravljanja informacijskom sigurnošću. Obvezno za mnoge procese nabave u poduzećima i državnoj upravi.

Operacije i implementacija.

Vokabular dovođenja AI appliance-a od ugovora do žive usluge, plus komercijalni koncepti koji oblikuju odluku o kupnji.

Discovery: Početna faza enterprise implementacije, gdje mapiramo vaše okruženje, identity providera, mrežnu topologiju, izvore podataka i SLA očekivanja. Pokreće odluke o sizingu i konfiguraciji nizvodno.
Sizing: Izračun hardverskog otiska (broj GPU-ova, RAM, pohrana) potrebnog da se zadovolje vaši ciljevi performansi i konkurentnosti.
Pre-flight check: Validacija da su svi preduvjeti — mreža, identitet, pohrana, napajanje — na mjestu prije isporuke appliance-a.
Smoke test: Brzi end-to-end test koji potvrđuje da svježe instalirani sustav obavlja osnovne funkcije ispravno. Ne potpuni QA paket — samo dovoljno da se rano uhvate slomljene implementacije.
Self-test: Ugrađena dijagnostika koju appliance pokreće pri podizanju radi provjere zdravlja hardvera i integriteta softvera.
Pre-shipment: Sve što se događa prije nego što hardver napusti našu integracijsku ustanovu: vezivanje licence, priprema imagea, sastavljanje potpisanog manifesta.
Pass-through hardverski pass-through: Prodaja hardvera klijentu po cijeni proizvođača bez naknade. Prosljeđujemo Supermicro hardver s 0% komisije tako da vaša infrastrukturna investicija ostaje kod vas.
Retainer: Periodični ugovor o uslugama koji pokriva podršku, ažuriranja i sate inženjerstva platforme. Različito od jednokratne setup naknade.
SLA: Service-Level Agreement. Ugovorna obveza za specifične ciljeve dostupnosti, vremena odgovora ili performansi.
OPEX vs CAPEX: Operativni troškovi (periodični, npr. cloud računi) naspram kapitalnih izdataka (jednokratne investicije u imovinu u vlasništvu, npr. hardver). Suverena on-prem AI prebacuje cloud OPEX u vlasnički CAPEX, s operativnim posljedicama za računovodstvo i planiranje.
Naplata po tokenu: Cijena AI korištenja po broju obrađenih tokena. Standardni cloud LLM model — i izvor većine priča o "AI iznenađenju u troškovima" pri skaliranju.
Vendor lock-in: Ovisnost o platformi jednog dobavljača tako da prebacivanje postaje pretjerano skupo ili tehnički neizvedivo. EU Data Act izričito cilja cloud lock-in.
Pilot proof of concept: Vremenski i opsegom omeđena implementacija radi validacije appliance-a na vašim stvarnim radnim opterećenjima prije obvezivanja na potpuni rollout.

Pojmovnik.

AI i modeli.

Arhitektura i infrastruktura.

Privatnost, sigurnost i identitet.

Regulativa i compliance.

Operacije i implementacija.

Želite ovo u vašem stacku?