Roadmap
Stato in tempo reale di ogni componente EULLM, le milestone che stiamo centrando e la cronologia completa di ogni release pubblicata.
Panoramica piattaforma
EULLM Engine
v0.4.3Runtime di inferenza in Rust. Sostituto drop-in di Ollama con API compatibile OpenAI.
259 tok/s
Throughput
2.5×
vs Ollama
131K
Context max
EULLM Forge
Pipeline di verticalizzazione modelli. Componenti pronti, integrazione CLI end-to-end in corso.
30B→7B
Riduzione
GGUF
Export
Beta
Pipeline
EULLM Hub
Registro modelli ospitato nell'UE con schede di conformità AI Act. Operativo come prototipo.
Prototipo
Modelli
3 previsti
Settori
Solo UE
Hosting
Benchmark Engine — v0.4.3 vs Ollama
16 richieste concorrenti · Mistral 7B · NVIDIA RTX 4090 · Linux x64
259 tok/s
Throughput EULLM
continuous batching
102 tok/s
Throughput Ollama
baseline sequenziale
9.3 s
Latenza EULLM
risposta finale
23.6 s
Latenza Ollama
risposta finale
Cosa stiamo costruendo
Fase 01 — Foundation
Q1 2026
Il motore di inferenza raggiunge la qualità di produzione. Componenti della pipeline Forge costruiti. Hub operativo come prototipo.
- Engine: binari precompilati (Linux, macOS x64/ARM)
- Continuous batching — 259 tok/s (2.5× vs Ollama)
- TurboQuant KV cache — context 131K su GPU da 16 GB
- API compatibile OpenAI + drop-in Ollama
- GPU: CUDA, ROCm, Vulkan, Metal
- Audit logging EU AI Act integrato
- Web browsing trasparente (senza overhead function-call)
- REPL interattivo: /temp, /maxtokens, /system
- Forge: structural pruning + knowledge distillation
- Forge: CLI end-to-end pipeline
- Modello demo: legal-it-7b
Fase 02 — Ecosystem
Q2 2026
I primi modelli Hub pronti per la produzione vanno live. CLI Forge stabile. Supporto piattaforma ampliato.
- Hub: modello settore legale (diritto UE/italiano)
- Hub: modello supporto triage medico
- Hub: modello conformità finanza e KYC
- Schede conformità AI Act per tutti i modelli Hub
- Forge: CLI stabile + documentazione completa
- Supporto Windows x64
- Inferenza multi-GPU
- Wizard quantizzazione per hardware consumer
Fase 03 — Enterprise
H2 2026
Hardening enterprise: inferenza distribuita, controllo accessi, Forge Studio UI visuale.
- Inferenza distribuita multi-nodo
- Kubernetes operator
- SSO / RBAC access control
- Forge Studio — UI visuale per il fine-tuning
- Versionamento e rollback modelli in Hub
- Partnership con data center EU certificati
- Livelli di supporto SLA
Cronologia release
- Sostituto drop-in di Ollama con continuous batching
- TurboQuant KV cache — context 131K su GPU da 16 GB
- Web browsing trasparente senza overhead di function-call
- Audit logging EU AI Act integrato
- REPL interattivo: comandi /temp, /maxtokens, /system
- Raccomandazioni automatiche qualità/accuratezza TurboQuant
- Miglioramenti accuratezza matematica TurboQuant
- Perdita di accuratezza dell'1% isolata alle sole operazioni su matrici
- Context window predefinita aumentata a 2 048 token
- Suite di benchmark accuratezza matematica aggiunta
- Supporto tipo KV cache misto
- Bug fix
- Aggiornamenti documentazione
- Raffinamenti batch scheduler
- Stabilizzazione pipeline di build
Contribuisci alla roadmap
Apri un issue, vota le feature o contribuisci con del codice. EULLM si costruisce in pubblico e ogni voce conta.
