Développement en public · Phase 1 en cours

Roadmap

État en temps réel de chaque composant EULLM, les jalons que nous atteignons et l'historique complet de chaque version publiée.

Releases GitHub Voir le code source

État des composants

Vue d'ensemble de la plateforme

Prêt pour la production

EULLM Engine

v0.6.2

Runtime d'inférence en Rust. Multimodal vision + audio, remplacement drop-in d'Ollama avec API OpenAI-compatible et interface de chat intégrée sur localhost:11435.

Avancement88%

259 tok/s

Throughput

Vision+Audio

Multimodal

✓ testé

Windows

En développement

EULLM Forge

Pipeline de verticalisation de modèles. Composants prêts, intégration CLI end-to-end en cours.

Avancement42%

30B→7B

Réduction

GGUF

Export

Beta

Pipeline

Aperçu

EULLM Hub

Registre de modèles hébergé dans l'UE avec fiches de conformité AI Act. Opérationnel en tant que prototype.

Avancement25%

Prototype

Modèles

3 prévus

Secteurs

UE uniquement

Hébergement

Capacités Engine — v0.6.2

Runtime Rust · continuous batching · multimodal vision + audio · entièrement local sur GPU grand public

259 tok/s

Throughput

16 requêtes simultanées

Vision+Audio

Multimodal

OCR, scènes, transcription

~2-4×

Quantized KV

contexte, Q4_0/Q5/Q8

--web

Navigation web

model-agnostic, n'importe quel GGUF

Phases de développement

Ce que nous construisons

01En cours

Phase 01 — Fondation

Q1 2026

Le moteur d'inférence atteint la qualité de production. Composants de la pipeline Forge construits. Hub opérationnel en tant que prototype.

11/13 éléments85%

Engine : binaires standalone (Linux x64, Windows x64)
Multimodal vision + audio (Gemma 4)
Continuous batching — 259 tok/s
Quantized KV cache — Q4_0/Q5/Q8 (~2-4× contexte)
API OpenAI-compatible + drop-in Ollama
GPU : CUDA (testé), ROCm, Vulkan, Metal
Audit logging EU AI Act intégré
Navigation web transparente (--web, model-agnostic)
REPL interactif : /temp, /maxtokens, /system
Interface de chat intégrée — localhost:11435, ~29 Ko dans le binaire
Forge : structural pruning + knowledge distillation
Forge : CLI pipeline end-to-end
Modèle de démonstration : legal-it-7b

02Planifiée

Phase 02 — Écosystème

Q2 2026

Les premiers modèles Hub prêts pour la production sont mis en ligne. CLI Forge stable. Support de la plateforme étendu.

1/8 éléments13%

Hub : modèle secteur juridique (droit UE/italien)
Hub : modèle de soutien au triage médical
Hub : modèle de conformité finance et KYC
Fiches de conformité AI Act pour tous les modèles Hub
Forge : CLI stable + documentation complète
Support Windows x64
Inférence multi-GPU
Assistant de quantisation pour matériel grand public

03Future

Phase 03 — Entreprise

H2 2026

Durcissement enterprise : inférence distribuée, contrôle d'accès, Forge Studio UI visuelle.

0/7 éléments0%

Inférence distribuée multi-nœuds
Opérateur Kubernetes
SSO / RBAC access control
Forge Studio — UI visuelle pour le fine-tuning
Versionnage et rollback des modèles dans le Hub
Partenariats avec des centres de données UE certifiés
Niveaux de support SLA

Changelog

Historique des versions

v0.6.2Dernière9 Jun 2026

Multimodal in the Chat UI — drop in an image or audio clip, fully local
Vision + audio understanding stable (Gemma 4): OCR, scene description, transcription
BOS token handling fix for multimodal prompts

v0.6.07 Jun 2026

Multimodal vision launched — image OCR and scene description on consumer GPUs
Audio understanding (experimental, CLI) — transcription and in-content search
Runs fully local, zero telemetry

v0.5.206 Jun 2026

Math expression rendering in the Chat UI
Quantized KV cache — Q4_0/Q5/Q8 for ~2-4× context on the same GPU

v0.5.331 May 2026

Embedded chat UI on localhost:11435 — ~29 KB in binary, zero CDN or external dependencies
eullm -V now shows the active backend variant
Standalone Windows binaries: CPU and CUDA

v0.4.427 May 2026

Web tool calling — transparent URL fetching in conversation
Legal-IT dataset preparation module
GPU layer fitting improvements

v0.4.38 Apr 2026

Drop-in Ollama replacement with continuous batching
Quantized KV cache for larger context on 16 GB GPUs
Transparent web browsing without function-call overhead
EU AI Act audit logging built-in

v0.3.136 Apr 2026

Interactive REPL: /temp, /maxtokens, /system commands
Quantized KV cache quality/accuracy automatic recommendations

v0.3.105 Apr 2026

Quantized KV cache math accuracy improvements
1% accuracy loss isolated to matrix operations only

v0.3.53 Apr 2026

Default context window increased to 2 048 tokens
Math accuracy benchmarking suite added

v0.3.31 Apr 2026

Mixed KV cache type support

v0.3.230 Mar 2026

Bug fixes
Documentation updates

v0.2.9829 Mar 2026

Batch scheduler refinements
Build pipeline stabilization

Voir toutes les releases sur GitHub →

Influencez la feuille de route

Ouvrez un issue, votez pour des fonctionnalités ou contribuez au code. EULLM est développé en public et chaque voix compte.

Ouvrir un issue Rejoindre la discussion