RAG self-hosted – Fladi International Grup

Problema

Cand intrebi ChatGPT despre documentele tale

Trimiti continut sensibil catre o platforma third-party. Pretul nu e doar in dolari.

🚨 Privacy compromisa — continutul ajunge la third-party (training, log-uri, retentie incerta)
💸 Cost scalabil — $0.13–$15 per 1M tokens, multiplicat la volum real
⚖ GDPR / compliance — proces legal pentru fiecare flux de date externe
🔒 Vendor lock-in — migrare costisitoare, dependenta de API stability
🌐 Latency variabil — SLA-ul cloud nu e al tau

Nu poti intreba un LLM cloud despre: contractele firmei · jurnalele clientului · IP corporativ · date medicale · documente legale confidentiale.

Solutia

RAG complet, in reteaua ta

Web-ul orchestreaza, workers-ii fac inferenta. Comunicatie one-way: workers NU se conecteaza catre web (firewall-friendly, segment izolat).

Stack tehnologic

Componente best-in-class, integrate end-to-end

Fiecare element ales pentru performanta si stabilitate, integrat intr-o solutie coerenta.

Layer	Tehnologie	De ce
LLM	Ollama + qwen2.5:14b	Local, multilingual, 14B params — balans calitate/RAM
Embedding	bge-m3 (1024d)	Multilingual nativ, RO foarte bun, dense + sparse
Reranker	bge-reranker-v2-m3	Cross-encoder multilingual, boost precizie top-k
Vector DB	Qdrant	Open-source, HNSW, fast, persistent
Web	FastAPI + vanilla JS	Light, no build step, async-native
Pipeline	LangChain	Hybrid retriever + MultiQuery decomposition
OCR / Parse	LibreOffice + Tesseract + Unstructured	Toate formatele — PDF, Office, imagini, scanari

Licentiere enterprise-ready

Free tier built-in + 5 tier-uri paid

FREE

Tier built-in — zero config

Activat automat la prima pornire — instalezi si pornesti

1 utilizator · 3 fisiere · 10 MB / fisier
30 zile + 7 zile grace period
Validitatea legata de hardware-ul tau — timer real per server
Extindere durata: trimite-ne machine code-ul, primesti licenta semnata cu expirare custom

5 tier-uri paid + custom

Tier	Useri	Fisiere	MB / fisier	Caracteristici
Free built-in	1	3	10 MB	basic Q&A, 30 zile
Starter	3	100	100 MB	+ reporting, 1 an
Team (popular)	5	500	200 MB	+ advanced API, white-label optional
Team Plus	10	2.000	500 MB	+ bulk export, audit webhook
Enterprise	20	10.000	1 GB	+ custom features, SLA
Custom	N	M	K MB	oricat ai nevoie, billed la cerere

3 metode de autentificare

🔵

Google OAuth

Single sign-on cu contul Google al companiei. Sesiune sigura cu cookie criptat 24h.

🔑

Email + parola

Pentru utilizatori fara cont Google. Parolele stocate criptat (bcrypt). Admin creeaza utilizatori din interfata.

🆘

Recovery token

Cod 6 cifre care se schimba zilnic, util cand Google e indisponibil sau ai uitat parola.

Diferentiatori

Ce face produsul diferit

Sapte capabilitati care fac diferenta fata de orice alta solutie comparabila.

1

Multi-OS workers cu auto-bootstrap

Adaugi worker in UI → click 📥 Bootstrap → gata

🐧 Linux: apt + Ollama + systemd unit
🍎 macOS: brew + Ollama + launchd plist
Detect OS automat (uname -s)
Streaming output live in UI — vezi brew install, ollama pull, pip install in timp real

✅ De la zero la operational in 15–25 min

2

Dispatcher cu prioritizare throughput

Algoritm de routare bazat pe performanta reala observata

idle_workers.sort(key=avg_chunks_per_sec, descending=True)
chosen = ranked[0] if in_flight[chosen] < MAX

Rezultate reale:

Mac M1 Metal: 25 chunks/s
Linux x86 CPU: 5 chunks/s
→ Mac primeste 80% din workload automat

✅ Plus: TCP probe pe :11434 skip workers cu Ollama localhost-only

3

Observability built-in

Metrici, sparkline, alerte — din UI, fara stack extern

Prometheus /metrics — counter + gauge per worker
Sparkline live 24h — chunks / files / CPU / Mem / embed_avg
Alert engine — 4 reguli + webhook Slack/Telegram
Dashboard dedicat per worker (full-page mode TV/monitor)
SSE live update < 2s — modal Stats actualizat instant

🟢 active 3min 🔴 alerts 0 CPU avg 45% 1500 chunks/min

4

Cost economy real-time

Tab Cluster afiseaza in timp real cat economisesti vs cloud

💰 Embedding (vs OpenAI / Gemini / Voyage)

$X saved now

Saved/year extrapolat din volumul curent

💸 LLM Q&A (6 modele cloud)

vs gpt-4o, gpt-4o-mini, gemini, claude-haiku, claude-sonnet

Comparare la pretul oficial al fiecarui model

La 1000 queries/zi (volum mediu):

vs gpt-4o → $2.500–5.000/an evitat
vs claude-sonnet-3.5 → $3.500–7.000/an evitat

5

Editor prompts in UI

Tab ✏ Prompt — modificari INSTANT, zero restart

Editor RAG_PROMPT + CONDENSE_PROMPT
Persistent in prompts.json
Status: EDITAT vs default

Hint-uri pe tip de document:

📚 Literatura → «Sintetizeaza personaje / evenimente»
🔧 Tehnic → «Citate exacte, parametri, pasi»
⚖ Juridic → «Articole exacte, NU interpreta»
📊 Stiintific → «Metoda, rezultate, limitari»

6

White-label per-licenta

Branding-ul clientului in licenta semnata — UI dynamic la upload

App name custom → replace tab title browser + sidebar h1 + header chat
Logo (PNG/SVG/JPG max 100 KB) embedded base64 → favicon dinamic + preview UI
Primary + accent color → CSS vars --brand-primary / --brand-accent setate global
Contact email → replace mailto links peste tot
Footer text → override "© 2026 ..." personalizat

python mint_license.py --tier team \
  --brand-app-name "Acme Knowledge" \
  --brand-logo-file ~/logos/acme.svg \
  --brand-primary-color "#0a4d8c" \
  --brand-accent-color "#ff6b35"

✅ Aceeasi instalare RAG, branding-ul clientului — clientul nici nu stie ca e powered by tine

7

Tenant management complet

Mint Web UI Flask local + customers tracking + revocation pe 1 click

Mint Web UI — form HTML browser cu dropdown tier, color pickers, file upload logo, expiry picker. Submit → download license.json
Customers DB SQLite cu istoric complet emisiuni (license_id, customer, machine_code, tier, expires, status, emergency_secret per-licenta)
Revoke 1 click — updateaza CRL signed + notifica clientul prin upload revoked.json — license refuzata la urmatorul verify, no restart
Renewal auto-detect — upload licenta noua pt acelasi customer pastreaza userii existenti; customer diferit (revanzare) reseteaza users automat cu backup

✅ Vinzi RAG ca produs SaaS multi-tenant cu zero infrastructure overhead la tine

Demo Q&A

Cum arata o intrebare reala

Intrebari specifice documentelor tale. Raspunsuri sintetizate cu citate de pagina.

«Ce zice contractul despre clauza de confidentialitate?»

«Care e procedura de troubleshooting pentru eroarea X?»

«Cine este personajul Y din cartea Z?»

Raspuns RAG (qwen2.5:14b · ~60s):
Sinteza coerenta din pasaje multiple, cu fapte concrete extrase direct din documentele tale, citate cu pagina exacta (p.X, p.Y, p.Z). Zero halucinare — recunoaste explicit daca contextul e insuficient.

⏱ 30–90s 🖥 worker_mac 100% local

Comparatie

vs Claude.ai · ChatGPT · Gemini

Nu inlocuiesc cloud-ul pentru cunostinte generale — il completeaza pe plan privat.

	RAG self-hosted	Claude.ai / ChatGPT
Citare pagina exacta din editia ta	✅ p.X, p.Y, p.Z	❌ general
Privacy 100%	✅ on-prem	❌ cloud
Cost / query	$0	$0.01–0.10
Scalabil la 100k queries/zi	✅	$$$$
Calitate sinteza	✅ Excelenta	✅ Excelenta
Cunostinte generale	Limitat la docs	Largi (training)
Documente PRIVATE (NDA)	✅	❌ NU trimit
Multi-tenant white-label (vinzi ca produs)	✅ per-licenta	❌ n/a
Hardware-bound license (anti-piraterie)	✅	❌ n/a
Free tier built-in (try before buy)	✅ 30 zile	API trial limitat

Combo ideal: RAG pentru documente private + Claude/ChatGPT pentru general knowledge.

Use cases

Unde isi gaseste locul

Oriunde documentele sunt valoroase si sensibilitatea contextului e critica.

🏛

Carti / literatura

Biblioteci private digitale, sinteze de personaje si evenimente.

⚖

Contracte legale

Reglementari, jurisprudenta — anti-halucinare critica.

🔧

Documentatii tehnice

Manuale, RFC-uri, runbook-uri, baza de cunostinte.

🔬

Cercetare stiintifica

Papers, datasets, sinteze cu citare exacta.

📓

Note personale

Jurnale, knowledge workers, second brain.

🏢

Date business confidentiale

Reports interne, customer journey, IP corporativ.

📦

SaaS multi-tenant (revanzare)

Vinzi RAG ca produs cu branding-ul clientului. Tier-uri + revoke 1-click + audit central. Setup 30 min per cont.

RAG self-hostedpentru documente private