Roadmap
État en temps réel de chaque composant EULLM, les jalons que nous atteignons et l'historique complet de chaque version publiée.
Vue d'ensemble de la plateforme
EULLM Engine
v0.6.2Runtime d'inférence en Rust. Multimodal vision + audio, remplacement drop-in d'Ollama avec API OpenAI-compatible et interface de chat intégrée sur localhost:11435.
259 tok/s
Throughput
Vision+Audio
Multimodal
✓ testé
Windows
EULLM Forge
Pipeline de verticalisation de modèles. Composants prêts, intégration CLI end-to-end en cours.
30B→7B
Réduction
GGUF
Export
Beta
Pipeline
EULLM Hub
Registre de modèles hébergé dans l'UE avec fiches de conformité AI Act. Opérationnel en tant que prototype.
Prototype
Modèles
3 prévus
Secteurs
UE uniquement
Hébergement
Capacités Engine — v0.6.2
Runtime Rust · continuous batching · multimodal vision + audio · entièrement local sur GPU grand public
259 tok/s
Throughput
16 requêtes simultanées
Vision+Audio
Multimodal
OCR, scènes, transcription
~2-4×
Quantized KV
contexte, Q4_0/Q5/Q8
--web
Navigation web
model-agnostic, n'importe quel GGUF
Ce que nous construisons
Phase 01 — Fondation
Q1 2026
Le moteur d'inférence atteint la qualité de production. Composants de la pipeline Forge construits. Hub opérationnel en tant que prototype.
- Engine : binaires standalone (Linux x64, Windows x64)
- Multimodal vision + audio (Gemma 4)
- Continuous batching — 259 tok/s
- Quantized KV cache — Q4_0/Q5/Q8 (~2-4× contexte)
- API OpenAI-compatible + drop-in Ollama
- GPU : CUDA (testé), ROCm, Vulkan, Metal
- Audit logging EU AI Act intégré
- Navigation web transparente (--web, model-agnostic)
- REPL interactif : /temp, /maxtokens, /system
- Interface de chat intégrée — localhost:11435, ~29 Ko dans le binaire
- Forge : structural pruning + knowledge distillation
- Forge : CLI pipeline end-to-end
- Modèle de démonstration : legal-it-7b
Phase 02 — Écosystème
Q2 2026
Les premiers modèles Hub prêts pour la production sont mis en ligne. CLI Forge stable. Support de la plateforme étendu.
- Hub : modèle secteur juridique (droit UE/italien)
- Hub : modèle de soutien au triage médical
- Hub : modèle de conformité finance et KYC
- Fiches de conformité AI Act pour tous les modèles Hub
- Forge : CLI stable + documentation complète
- Support Windows x64
- Inférence multi-GPU
- Assistant de quantisation pour matériel grand public
Phase 03 — Entreprise
H2 2026
Durcissement enterprise : inférence distribuée, contrôle d'accès, Forge Studio UI visuelle.
- Inférence distribuée multi-nœuds
- Opérateur Kubernetes
- SSO / RBAC access control
- Forge Studio — UI visuelle pour le fine-tuning
- Versionnage et rollback des modèles dans le Hub
- Partenariats avec des centres de données UE certifiés
- Niveaux de support SLA
Historique des versions
- Multimodal in the Chat UI — drop in an image or audio clip, fully local
- Vision + audio understanding stable (Gemma 4): OCR, scene description, transcription
- BOS token handling fix for multimodal prompts
- Multimodal vision launched — image OCR and scene description on consumer GPUs
- Audio understanding (experimental, CLI) — transcription and in-content search
- Runs fully local, zero telemetry
- Math expression rendering in the Chat UI
- Quantized KV cache — Q4_0/Q5/Q8 for ~2-4× context on the same GPU
- Embedded chat UI on localhost:11435 — ~29 KB in binary, zero CDN or external dependencies
- eullm -V now shows the active backend variant
- Standalone Windows binaries: CPU and CUDA
- Web tool calling — transparent URL fetching in conversation
- Legal-IT dataset preparation module
- GPU layer fitting improvements
- Drop-in Ollama replacement with continuous batching
- Quantized KV cache for larger context on 16 GB GPUs
- Transparent web browsing without function-call overhead
- EU AI Act audit logging built-in
- Interactive REPL: /temp, /maxtokens, /system commands
- Quantized KV cache quality/accuracy automatic recommendations
- Quantized KV cache math accuracy improvements
- 1% accuracy loss isolated to matrix operations only
- Default context window increased to 2 048 tokens
- Math accuracy benchmarking suite added
- Mixed KV cache type support
- Bug fixes
- Documentation updates
- Batch scheduler refinements
- Build pipeline stabilization
Influencez la feuille de route
Ouvrez un issue, votez pour des fonctionnalités ou contribuez au code. EULLM est développé en public et chaque voix compte.
