Roadmap
Stato in tempo reale di ogni componente EULLM, le milestone che stiamo centrando e la cronologia completa di ogni release pubblicata.
Panoramica piattaforma
EULLM Engine
v0.5.3Runtime di inferenza in Rust. Sostituto drop-in di Ollama con API compatibile OpenAI e chat UI integrata su localhost:11435.
259 tok/s
Throughput
264K
Context max
✓ testato
Windows
EULLM Forge
Pipeline di verticalizzazione modelli. Componenti pronti, integrazione CLI end-to-end in corso.
30B→7B
Riduzione
GGUF
Export
Beta
Pipeline
EULLM Hub
Registro modelli ospitato nell'UE con schede di conformità AI Act. Operativo come prototipo.
Prototipo
Modelli
3 previsti
Settori
Solo UE
Hosting
TurboQuant context proof — v0.5.3
Qwen3-8B Q4_K_M · NVIDIA RTX 5070 Ti 16 GB · Windows x64 · 6 turni multi-turn
75 tok/s
132K ctx throughput
~10 GB VRAM, punto ideale
77 tok/s
264K ctx (TQ3_0)
~12.6 GB VRAM, 3 GB liberi
37 GB
KV F16 equivalente
impossibile su GPU consumer
6 turni
Stabilità multi-turn
70–77 tok/s stato stazionario
Cosa stiamo costruendo
Fase 01 — Foundation
Q1 2026
Il motore di inferenza raggiunge la qualità di produzione. Componenti della pipeline Forge costruiti. Hub operativo come prototipo.
- Engine: binari precompilati (Linux x64, Windows x64)
- Continuous batching — 259 tok/s
- TurboQuant — 264K context su GPU da 16 GB (TQ3_0)
- API compatibile OpenAI + drop-in Ollama
- GPU: CUDA, ROCm, Vulkan, Metal
- Audit logging EU AI Act integrato
- Web browsing trasparente (senza overhead function-call)
- REPL interattivo: /temp, /maxtokens, /system
- Web tool calling
- Chat UI integrata — localhost:11435, ~29 KB nel binario
- Installer Windows one-click (CPU / CUDA / CUDA+TQ)
- eullm -V con visualizzazione variante backend
- Forge: structural pruning + knowledge distillation
- Forge: CLI end-to-end pipeline
- Modello demo: legal-it-7b
Fase 02 — Ecosystem
Q2 2026
I primi modelli Hub pronti per la produzione vanno live. CLI Forge stabile. Supporto piattaforma ampliato.
- Hub: modello settore legale (diritto UE/italiano)
- Hub: modello supporto triage medico
- Hub: modello conformità finanza e KYC
- Schede conformità AI Act per tutti i modelli Hub
- Forge: CLI stabile + documentazione completa
- Supporto Windows x64
- Inferenza multi-GPU
- Wizard quantizzazione per hardware consumer
Fase 03 — Enterprise
H2 2026
Hardening enterprise: inferenza distribuita, controllo accessi, Forge Studio UI visuale.
- Inferenza distribuita multi-nodo
- Kubernetes operator
- SSO / RBAC access control
- Forge Studio — UI visuale per il fine-tuning
- Versionamento e rollback modelli in Hub
- Partnership con data center EU certificati
- Livelli di supporto SLA
Cronologia release
- Chat UI integrata su localhost:11435 — ~29 KB nel binario, zero CDN o dipendenze esterne
- Installer Windows one-click: CPU, CUDA, CUDA+TurboQuant (per utente, senza UAC)
- TurboQuant proof: 264K context a 77 tok/s su RTX 5070 Ti 16 GB (TQ3_0)
- eullm -V mostra la variante backend: CPU / CUDA / CUDA+TurboQuant / Metal
- Benchmark spostato su TQ4_0 vs Q4_0 a parità di bit-width (il vero claim di TurboQuant)
- Badge DOI Zenodo — concept DOI si aggiorna automaticamente a ogni release
- Label piattaforme oneste: Linux x64 + Windows testati · macOS e ARM64 sperimentali
- Sezione citazione Zenodo DOI aggiunta al README
- Implementazione engine roadmap fit flag
- Fix installer Windows CUDA
- Web tool calling — recupero trasparente di URL nella conversazione
- Modulo preparazione dataset legal-IT
- Miglioramenti GPU layer fitting
- Sostituto drop-in di Ollama con continuous batching
- TurboQuant KV cache — context 131K su GPU da 16 GB
- Web browsing trasparente senza overhead di function-call
- Audit logging EU AI Act integrato
- REPL interattivo: comandi /temp, /maxtokens, /system
- Raccomandazioni automatiche qualità/accuratezza TurboQuant
- Miglioramenti accuratezza matematica TurboQuant
- Perdita di accuratezza dell'1% isolata alle sole operazioni su matrici
- Context window predefinita aumentata a 2 048 token
- Suite di benchmark accuratezza matematica aggiunta
- Supporto tipo KV cache misto
- Bug fix
- Aggiornamenti documentazione
- Raffinamenti batch scheduler
- Stabilizzazione pipeline di build
Contribuisci alla roadmap
Apri un issue, vota le feature o contribuisci con del codice. EULLM si costruisce in pubblico e ogni voce conta.
