Retrieval-Augmented Generation

RAG self-hosted
pentru documente private

Generare augmentata prin recuperare in romana, fara cloud si fara costuri API. Cluster distribuit pe hardware propriu — pune intrebari despre contracte, jurnale, manuale tehnice sau orice corpus, cu raspunsuri citate exact din pagina.

FREE
tier inclus · 30 zile
30–90s
latency / query
100%
on-premises
5
tier-uri (free → enterprise)
Problema

Cand intrebi ChatGPT despre documentele tale

Trimiti continut sensibil catre o platforma third-party. Pretul nu e doar in dolari.

  • 🚨 Privacy compromisa — continutul ajunge la third-party (training, log-uri, retentie incerta)
  • 💸 Cost scalabil — $0.13–$15 per 1M tokens, multiplicat la volum real
  • ⚖ GDPR / compliance — proces legal pentru fiecare flux de date externe
  • 🔒 Vendor lock-in — migrare costisitoare, dependenta de API stability
  • 🌐 Latency variabil — SLA-ul cloud nu e al tau
Nu poti intreba un LLM cloud despre: contractele firmei · jurnalele clientului · IP corporativ · date medicale · documente legale confidentiale.
Solutia

RAG complet, in reteaua ta

Web-ul orchestreaza, workers-ii fac inferenta. Comunicatie one-way: workers NU se conecteaza catre web (firewall-friendly, segment izolat).

👤 Utilizator Browser / API HTTPS 🌐 Web orchestrator FastAPI REST + SSE Qdrant Vector DB local Hybrid retriever BM25 + dense MultiQuery Decomposition Auth + Licensing T3 ⚙ Worker pool 🐧 Linux x86 Ollama + bge-m3 🍎 Mac M1 Apple Metal GPU 🌐 Hybrid cluster 5+ nodes scale-out request push tasks pull SSE EXPUS GATEWAY orchestrator central IZOLAT no inbound · outbound only 💾 On-premises · Documente + vectori local pe disc · Firewall-friendly
Stack tehnologic

Componente best-in-class, integrate end-to-end

Fiecare element ales pentru performanta si stabilitate, integrat intr-o solutie coerenta.

LayerTehnologieDe ce
LLMOllama + qwen2.5:14bLocal, multilingual, 14B params — balans calitate/RAM
Embeddingbge-m3 (1024d)Multilingual nativ, RO foarte bun, dense + sparse
Rerankerbge-reranker-v2-m3Cross-encoder multilingual, boost precizie top-k
Vector DBQdrantOpen-source, HNSW, fast, persistent
WebFastAPI + vanilla JSLight, no build step, async-native
PipelineLangChainHybrid retriever + MultiQuery decomposition
OCR / ParseLibreOffice + Tesseract + UnstructuredToate formatele — PDF, Office, imagini, scanari
Licentiere enterprise-ready

Free tier built-in + 5 tier-uri paid

FREE

Tier built-in — zero config

Activat automat la prima pornire — instalezi si pornesti

  • 1 utilizator · 3 fisiere · 10 MB / fisier
  • 30 zile + 7 zile grace period
  • Validitatea legata de hardware-ul tau — timer real per server
  • Extindere durata: trimite-ne machine code-ul, primesti licenta semnata cu expirare custom

5 tier-uri paid + custom

Tier Useri Fisiere MB / fisier Caracteristici
Free built-in1310 MBbasic Q&A, 30 zile
Starter3100100 MB+ reporting, 1 an
Team (popular)5500200 MB+ advanced API, white-label optional
Team Plus102.000500 MB+ bulk export, audit webhook
Enterprise2010.0001 GB+ custom features, SLA
CustomNMK MBoricat ai nevoie, billed la cerere

3 metode de autentificare

🔵

Google OAuth

Single sign-on cu contul Google al companiei. Sesiune sigura cu cookie criptat 24h.

🔑

Email + parola

Pentru utilizatori fara cont Google. Parolele stocate criptat (bcrypt). Admin creeaza utilizatori din interfata.

🆘

Recovery token

Cod 6 cifre care se schimba zilnic, util cand Google e indisponibil sau ai uitat parola.

Diferentiatori

Ce face produsul diferit

Sapte capabilitati care fac diferenta fata de orice alta solutie comparabila.

1

Multi-OS workers cu auto-bootstrap

Adaugi worker in UI → click 📥 Bootstrap → gata

  • 🐧 Linux: apt + Ollama + systemd unit
  • 🍎 macOS: brew + Ollama + launchd plist
  • Detect OS automat (uname -s)
  • Streaming output live in UI — vezi brew install, ollama pull, pip install in timp real
✅ De la zero la operational in 15–25 min
2

Dispatcher cu prioritizare throughput

Algoritm de routare bazat pe performanta reala observata

idle_workers.sort(key=avg_chunks_per_sec, descending=True)
chosen = ranked[0] if in_flight[chosen] < MAX

Rezultate reale:

  • Mac M1 Metal: 25 chunks/s
  • Linux x86 CPU: 5 chunks/s
  • → Mac primeste 80% din workload automat
✅ Plus: TCP probe pe :11434 skip workers cu Ollama localhost-only
3

Observability built-in

Metrici, sparkline, alerte — din UI, fara stack extern

  • Prometheus /metrics — counter + gauge per worker
  • Sparkline live 24h — chunks / files / CPU / Mem / embed_avg
  • Alert engine — 4 reguli + webhook Slack/Telegram
  • Dashboard dedicat per worker (full-page mode TV/monitor)
  • SSE live update < 2s — modal Stats actualizat instant
🟢 active 3min 🔴 alerts 0 CPU avg 45% 1500 chunks/min
4

Cost economy real-time

Tab Cluster afiseaza in timp real cat economisesti vs cloud

💰 Embedding (vs OpenAI / Gemini / Voyage)

$X saved now

Saved/year extrapolat din volumul curent

💸 LLM Q&A (6 modele cloud)

vs gpt-4o, gpt-4o-mini, gemini, claude-haiku, claude-sonnet

Comparare la pretul oficial al fiecarui model

La 1000 queries/zi (volum mediu):

  • vs gpt-4o$2.500–5.000/an evitat
  • vs claude-sonnet-3.5$3.500–7.000/an evitat
5

Editor prompts in UI

Tab ✏ Prompt — modificari INSTANT, zero restart

  • Editor RAG_PROMPT + CONDENSE_PROMPT
  • Persistent in prompts.json
  • Status: EDITAT vs default

Hint-uri pe tip de document:

  • 📚 Literatura → «Sintetizeaza personaje / evenimente»
  • 🔧 Tehnic → «Citate exacte, parametri, pasi»
  • Juridic → «Articole exacte, NU interpreta»
  • 📊 Stiintific → «Metoda, rezultate, limitari»
6

White-label per-licenta

Branding-ul clientului in licenta semnata — UI dynamic la upload

  • App name custom → replace tab title browser + sidebar h1 + header chat
  • Logo (PNG/SVG/JPG max 100 KB) embedded base64 → favicon dinamic + preview UI
  • Primary + accent color → CSS vars --brand-primary / --brand-accent setate global
  • Contact email → replace mailto links peste tot
  • Footer text → override "© 2026 ..." personalizat
python mint_license.py --tier team \
  --brand-app-name "Acme Knowledge" \
  --brand-logo-file ~/logos/acme.svg \
  --brand-primary-color "#0a4d8c" \
  --brand-accent-color "#ff6b35"
✅ Aceeasi instalare RAG, branding-ul clientului — clientul nici nu stie ca e powered by tine
7

Tenant management complet

Mint Web UI Flask local + customers tracking + revocation pe 1 click

  • Mint Web UI — form HTML browser cu dropdown tier, color pickers, file upload logo, expiry picker. Submit → download license.json
  • Customers DB SQLite cu istoric complet emisiuni (license_id, customer, machine_code, tier, expires, status, emergency_secret per-licenta)
  • Revoke 1 click — updateaza CRL signed + notifica clientul prin upload revoked.json — license refuzata la urmatorul verify, no restart
  • Renewal auto-detect — upload licenta noua pt acelasi customer pastreaza userii existenti; customer diferit (revanzare) reseteaza users automat cu backup
✅ Vinzi RAG ca produs SaaS multi-tenant cu zero infrastructure overhead la tine
Demo Q&A

Cum arata o intrebare reala

Intrebari specifice documentelor tale. Raspunsuri sintetizate cu citate de pagina.

«Ce zice contractul despre clauza de confidentialitate?»
«Care e procedura de troubleshooting pentru eroarea X?»
«Cine este personajul Y din cartea Z?»
Raspuns RAG (qwen2.5:14b · ~60s):
Sinteza coerenta din pasaje multiple, cu fapte concrete extrase direct din documentele tale, citate cu pagina exacta (p.X, p.Y, p.Z). Zero halucinare — recunoaste explicit daca contextul e insuficient.
⏱ 30–90s 🖥 worker_mac 100% local
Comparatie

vs Claude.ai · ChatGPT · Gemini

Nu inlocuiesc cloud-ul pentru cunostinte generale — il completeaza pe plan privat.

  RAG self-hosted Claude.ai / ChatGPT
Citare pagina exacta din editia ta✅ p.X, p.Y, p.Z❌ general
Privacy 100%✅ on-prem❌ cloud
Cost / query$0$0.01–0.10
Scalabil la 100k queries/zi$$$$
Calitate sinteza✅ Excelenta✅ Excelenta
Cunostinte generaleLimitat la docsLargi (training)
Documente PRIVATE (NDA)❌ NU trimit
Multi-tenant white-label (vinzi ca produs)✅ per-licenta❌ n/a
Hardware-bound license (anti-piraterie)❌ n/a
Free tier built-in (try before buy)✅ 30 zileAPI trial limitat
Combo ideal: RAG pentru documente private + Claude/ChatGPT pentru general knowledge.
Use cases

Unde isi gaseste locul

Oriunde documentele sunt valoroase si sensibilitatea contextului e critica.

🏛

Carti / literatura

Biblioteci private digitale, sinteze de personaje si evenimente.

Contracte legale

Reglementari, jurisprudenta — anti-halucinare critica.

🔧

Documentatii tehnice

Manuale, RFC-uri, runbook-uri, baza de cunostinte.

🔬

Cercetare stiintifica

Papers, datasets, sinteze cu citare exacta.

📓

Note personale

Jurnale, knowledge workers, second brain.

🏢

Date business confidentiale

Reports interne, customer journey, IP corporativ.

📦

SaaS multi-tenant (revanzare)

Vinzi RAG ca produs cu branding-ul clientului. Tier-uri + revoke 1-click + audit central. Setup 30 min per cont.