Sviluppiamo in pubblico · Fase 1 in corso

Roadmap

Stato in tempo reale di ogni componente EULLM, le milestone che stiamo centrando e la cronologia completa di ogni release pubblicata.

Stato componenti

Panoramica piattaforma

Pronto per la produzione

EULLM Engine

v0.5.3

Runtime di inferenza in Rust. Sostituto drop-in di Ollama con API compatibile OpenAI e chat UI integrata su localhost:11435.

Avanzamento88%

259 tok/s

Throughput

264K

Context max

✓ testato

Windows

In sviluppo

EULLM Forge

Pipeline di verticalizzazione modelli. Componenti pronti, integrazione CLI end-to-end in corso.

Avanzamento42%

30B→7B

Riduzione

GGUF

Export

Beta

Pipeline

Anteprima

EULLM Hub

Registro modelli ospitato nell'UE con schede di conformità AI Act. Operativo come prototipo.

Avanzamento25%

Prototipo

Modelli

3 previsti

Settori

Solo UE

Hosting

TurboQuant context proof — v0.5.3

Qwen3-8B Q4_K_M · NVIDIA RTX 5070 Ti 16 GB · Windows x64 · 6 turni multi-turn

75 tok/s

132K ctx throughput

~10 GB VRAM, punto ideale

77 tok/s

264K ctx (TQ3_0)

~12.6 GB VRAM, 3 GB liberi

37 GB

KV F16 equivalente

impossibile su GPU consumer

6 turni

Stabilità multi-turn

70–77 tok/s stato stazionario

Fasi di sviluppo

Cosa stiamo costruendo

01In corso

Fase 01Foundation

Q1 2026

Il motore di inferenza raggiunge la qualità di produzione. Componenti della pipeline Forge costruiti. Hub operativo come prototipo.

13/15 elementi87%
  • Engine: binari precompilati (Linux x64, Windows x64)
  • Continuous batching — 259 tok/s
  • TurboQuant — 264K context su GPU da 16 GB (TQ3_0)
  • API compatibile OpenAI + drop-in Ollama
  • GPU: CUDA, ROCm, Vulkan, Metal
  • Audit logging EU AI Act integrato
  • Web browsing trasparente (senza overhead function-call)
  • REPL interattivo: /temp, /maxtokens, /system
  • Web tool calling
  • Chat UI integrata — localhost:11435, ~29 KB nel binario
  • Installer Windows one-click (CPU / CUDA / CUDA+TQ)
  • eullm -V con visualizzazione variante backend
  • Forge: structural pruning + knowledge distillation
  • Forge: CLI end-to-end pipeline
  • Modello demo: legal-it-7b
02Pianificata

Fase 02Ecosystem

Q2 2026

I primi modelli Hub pronti per la produzione vanno live. CLI Forge stabile. Supporto piattaforma ampliato.

1/8 elementi13%
  • Hub: modello settore legale (diritto UE/italiano)
  • Hub: modello supporto triage medico
  • Hub: modello conformità finanza e KYC
  • Schede conformità AI Act per tutti i modelli Hub
  • Forge: CLI stabile + documentazione completa
  • Supporto Windows x64
  • Inferenza multi-GPU
  • Wizard quantizzazione per hardware consumer
03Futura

Fase 03Enterprise

H2 2026

Hardening enterprise: inferenza distribuita, controllo accessi, Forge Studio UI visuale.

0/7 elementi0%
  • Inferenza distribuita multi-nodo
  • Kubernetes operator
  • SSO / RBAC access control
  • Forge Studio — UI visuale per il fine-tuning
  • Versionamento e rollback modelli in Hub
  • Partnership con data center EU certificati
  • Livelli di supporto SLA
Changelog

Cronologia release

v0.5.3Ultima31 mag 2026
  • Chat UI integrata su localhost:11435 — ~29 KB nel binario, zero CDN o dipendenze esterne
  • Installer Windows one-click: CPU, CUDA, CUDA+TurboQuant (per utente, senza UAC)
  • TurboQuant proof: 264K context a 77 tok/s su RTX 5070 Ti 16 GB (TQ3_0)
  • eullm -V mostra la variante backend: CPU / CUDA / CUDA+TurboQuant / Metal
v0.5.231 mag 2026
  • Benchmark spostato su TQ4_0 vs Q4_0 a parità di bit-width (il vero claim di TurboQuant)
  • Badge DOI Zenodo — concept DOI si aggiorna automaticamente a ogni release
  • Label piattaforme oneste: Linux x64 + Windows testati · macOS e ARM64 sperimentali
v0.5.130 mag 2026
  • Sezione citazione Zenodo DOI aggiunta al README
  • Implementazione engine roadmap fit flag
  • Fix installer Windows CUDA
v0.4.427 mag 2026
  • Web tool calling — recupero trasparente di URL nella conversazione
  • Modulo preparazione dataset legal-IT
  • Miglioramenti GPU layer fitting
v0.4.38 apr 2026
  • Sostituto drop-in di Ollama con continuous batching
  • TurboQuant KV cache — context 131K su GPU da 16 GB
  • Web browsing trasparente senza overhead di function-call
  • Audit logging EU AI Act integrato
v0.3.136 apr 2026
  • REPL interattivo: comandi /temp, /maxtokens, /system
  • Raccomandazioni automatiche qualità/accuratezza TurboQuant
v0.3.105 apr 2026
  • Miglioramenti accuratezza matematica TurboQuant
  • Perdita di accuratezza dell'1% isolata alle sole operazioni su matrici
v0.3.53 apr 2026
  • Context window predefinita aumentata a 2 048 token
  • Suite di benchmark accuratezza matematica aggiunta
v0.3.31 apr 2026
  • Supporto tipo KV cache misto
v0.3.230 mar 2026
  • Bug fix
  • Aggiornamenti documentazione
v0.2.9829 mar 2026
  • Raffinamenti batch scheduler
  • Stabilizzazione pipeline di build

Contribuisci alla roadmap

Apri un issue, vota le feature o contribuisci con del codice. EULLM si costruisce in pubblico e ogni voce conta.