Tehnologija

Arhitektura on-prem AI appliance-a

Jedan privatni AI appliance s OpenAI-kompatibilnim API gateway-om, lokalnom inferencijom, RAG-om, agentima, MCP konektorima, audit logovima i Pure Mode-om. Potpisani manifest provodi što se izvršava gdje — i što ostaje unutar granice podrške.

01 — Arhitektura

Referentna arhitektura.

Vanjski subjekti na vrhu. Appliance ispod. Granica podrške čisto odvaja certificiranu jezgru od svega što gradite u T3.

Vanjsko
Krajnji korisnici

Developeri · analitičari · podrška · pravnici · operacije.
Preglednik · IDE · Slack/Teams · email · CLI.

Autentikacija putem klijentskog SSO-a
Vanjsko
Klijentski Identity Provider

Vaš postojeći IdP — federiramo ga, ne zamjenjujemo.
npr. Okta · Azure AD · Google · Ping.

OIDC · SAML 2.0 · SCIM
Vanjsko
Postojeći alati klijenta

Što god već koristite — chat, source control, ticketing, dokumenti, CRM, mail, pohrana.

OAuth · REST · GraphQL · Webhooks
LLM Machine · On-Prem Appliance Certificirana jezgra

Edge / Gateway

TLS terminacija · reverse proxy · usmjeravanje · rate-limiting

Traefik · Kong · NGINX

T1

Identitet i SSO

Federirano s vašim IdP-om putem OIDC / SAML — nikad ga ne zamjenjuje · SCIM provisioning korisnika · mapiranje uloga (Admin / Korisnik / Auditor / Read-Only)

Keycloak · Authentik · Zitadel

T1

Aplikacijske površine · korisničke

T1
Chat sučelje
RAG · više-korisnički · MCP
Open WebUI
IDE backend
VS Code · JetBrains plugin
Continue
Code completion
FIM · self-hosted
opencode / Tabby
Workflow editor
predlošci · webhooks
n8n
Knowledge workspace
RAG · radni prostor dokumenata
AnythingLLM

Inference gateway

OpenAI & Anthropic-kompatibilan API · usmjeravanje modela · proračuni po timu · audit logiranje

LiteLLM

T1

Inference serveri

Visokopropusno posluživanje modela · chat · kod · embeddinzi · klijentski fine-tunovi · učitano iz on-box potpisanog registra

SGLang · vLLM

T1

Sloj alata / integracija

Provjereni MCP katalog (T1) + verificirani partnerski konektori (T2). Sve vjerodajnice u on-box trezoru — nikad ne napuštaju appliance.

MCP serveri · chat · source control · ticketing · CRM · dokumenti · …

T1 T2

Agentski sloj

Agent runtime-ovi za višekoračne zadatke · zadani katalog agenata koje konfiguriramo · klijentski proširivo u T3

openclaw / nemoclaw

T1

Workflow i orkestracija

Automatizacija za citizen developere + planirani pozadinski workflow-ovi

n8n

T1

Podaci

Vector + RAG store unutar knowledge workspace-a · object storage · cache · opcionalni namjenski DB po dogovoru

AnythingLLM-vodi vektore · MinIO · Redis · (Postgres + pgvector)

T1

Observability i audit

LLM tracing · metrike · logovi — potpuno on-prem. Nijedna telemetrija ne napušta kutiju.

Langfuse · Grafana · Loki · Prometheus

T1

Platforma

Container orkestracija · VM upravljanje · OS · out-of-band management · signed-update i license daemon-i

Kubernetes · Portainer · Proxmox · Linux · BMC

T1

Hardver · enterprise / industry-grade

Računalstvo · memorija · pohrana · mreža · napajanje · fizička sigurnost

Supermicro GPU(s) · CPU · NVMe · 25 / 100 GbE NIC · redundantni PSU · TPM · tamper senzori

T1
GRANICA PODRŠKE · PURE MODE GASI SVE ISPOD

Klijentski BYO sandbox

Prilagođene aplikacije · prilagođeni konektori · prilagođeni workflow-ovi · klijentski trenirani modeli

Bez host privilegija · egress allowlist · izolirane tajne · ispad ovdje nikad ne blokira T1

Definirano od vas, vašim tempom — izvan našeg SLA-ja

T3
Tier model

T1 / T2 / T3 uz manifest enforcement.

Svaka komponenta je potpisana i označena. T1 se izvršava s host privilegijama. T2 u ograničenim kontejnerima. T3 sandboxiran bez host pristupa. Admin UI prikazuje tier oznake pored svake instalirane komponente — nikad dvosmisleno, nikad osporavano.

Pure Mode

Ugasite sve prilagođeno. Zadržite certificiranu jezgru.

Jedan klik admin akcija koja onemogućuje svaku T2/T3 komponentu. Koristite je za sigurnosne incidente, dijagnostiku podrške („ako se reproducira u Pure Mode-u, naš je tiket") ili da audit ostane čist.

MCP catalog

Provjereni konektori odmah po isporuci.

Chat, source control, ticketing, dokumenti, CRM, mail, pohrana — sve povezano kroz kurirane MCP servere. Svaka vjerodajnica živi u vašem on-box trezoru. Ništa ne napušta appliance.

02 — Za developere

Gradite protiv lokalne AI kao protiv standardnog API-ja.

LLM Machines daje inženjerskim timovima poznata sučelja, dok promet, vjerodajnice, modeli i logovi ostaju pod enterprise kontrolom.

API kompatibilnost

Zamijenite base URL.

Koristite OpenAI-kompatibilne endpointe za chat, embeddinge i usmjeravanje modela kako bi se postojeći SDK-alati mogli preseliti na lokalnu infrastrukturu.

Tooling

Radi s developer workflow-ovima.

Integrirajte privatne modele s IDE asistentima, internim aplikacijama, LangChain-style workflow-ovima, n8n automatizacijama i MCP serverima.

Operacije

Observabilno prema zadanim postavkama.

Držite logove zahtjeva, usmjeravanje modela, atribuciju korištenja, rate limite i metrike dostupnima adminima bez slanja telemetrije van.

[ 01 ]

LiteLLM — Gateway i router

Jedinstveni endpoint za sve LLM providere i lokalne modele. Praćenje korištenja, rate limiting, kontrola troškova.

[ 02 ]

Open WebUI — Korisničko sučelje

Uglađeno, ChatGPT-style sučelje za sve krajnje korisnike. Bez potrebe za obukom.

[ 03 ]

AnythingLLM — RAG engine

Unos dokumenata, vektorsko pretraživanje i retrieval-augmented generation za enterprise baze znanja.

[ 04 ]

Open Notebook — Research agent

AI-pokretano istraživanje i sinteza znanja. Deep-dive izvještaji generirani automatski.

[ 05 ]

NemoClaw / OpenClaw — Agentic framework

Autonomni agenti za složene, višekorake enterprise workflow-ove.

[ 06 ]

Microsoft Presidio — PII anonimizacija

Automatska detekcija i redakcija osjetljivih podataka prije nego ikada dođu do modela.

[ 07 ]

SGLang — Inference engine

Visokoperformantni engine za lokalno pokretanje open-weight modela — čisti OSS, bez NVIDIA AI Enterprise poreza.

[ 08 ]

LLM Machines — Sloj integracije

Vezivno tkivo koje te projekte pretvara u jedan, deployabilan, produkcijski spreman appliance. Potpisani manifest, tier model, granica podrške, runbook.

03 — FAQ

Pitanja o arhitekturi.

Detalji koje sigurnosni, platformski i developer timovi obično pitaju prije odobravanja on-prem AI implementacije.

Mogu li postojeći OpenAI API klijenti koristiti LLM Machines?

Da. Gateway izlaže OpenAI-kompatibilne endpointe, tako da aplikacije mogu pokazivati na appliance umjesto na javni cloud API, dok autentikacija, logiranje i usmjeravanje ostaju lokalni.

Može li appliance raditi air-gapped?

Da. Sigurnosno osjetljive implementacije mogu koristiti offline aktivaciju licence i lokalne registre modela, tako da osnovna inferencija, RAG i aplikacijske površine rade bez javnog internetskog pristupa.

Koji se modeli mogu pokretati lokalno?

Arhitektura je dizajnirana za open-weight familije modela kao što su Llama, Mistral i Qwen, s izborom modela dimenzioniranim prema vašim zahtjevima za hardver, latenciju i kvalitetu.

Gdje se pohranjuju vjerodajnice konektora?

Vjerodajnice konektora žive u on-box trezoru unutar vašeg okruženja. MCP serveri i integracijske usluge koriste te vjerodajnice lokalno, umjesto da ih šalju našoj infrastrukturi.

Što radi Pure Mode?

Pure Mode onemogućuje T2/T3 prilagođene komponente i drži certificiranu T1 jezgru u radu. Koristan je za reakciju na incidente, dijagnostiku podrške i pripremu audita.

Što je unutar granice podrške?

Podržani su potpisana certificirana jezgra, tier model, manifest, gateway, inferencijski servisi i dokumentirane T1/T2 komponente. Klijentske T3 ekstenzije ostaju izolirane od SLA-ja.

Što slijedi

Spremni za dublje?

Pogledajte kako tehnologija sleti unutar vašeg okruženja — onboarding, cijene ili jednostavno razgovor s nama.