Desarrollo en público · Fase 1 en curso

Roadmap

Estado en tiempo real de cada componente EULLM, los hitos que estamos alcanzando y el historial completo de cada versión publicada.

Estado de los componentes

Visión general de la plataforma

Listo para producción

EULLM Engine

v0.6.2

Runtime de inferencia en Rust. Multimodal visión + audio, reemplazo drop-in de Ollama con API OpenAI-compatible e interfaz de chat integrada en localhost:11435.

Progreso88%

259 tok/s

Throughput

Visión+Audio

Multimodal

✓ probado

Windows

En desarrollo

EULLM Forge

Pipeline de verticalización de modelos. Componentes listos, integración CLI end-to-end en curso.

Progreso42%

30B→7B

Reducción

GGUF

Export

Beta

Pipeline

Vista previa

EULLM Hub

Registro de modelos alojado en la UE con fichas de conformidad AI Act. Operativo como prototipo.

Progreso25%

Prototipo

Modelos

3 previstos

Sectores

Solo UE

Alojamiento

Capacidades Engine — v0.6.2

Runtime Rust · continuous batching · multimodal visión + audio · completamente local en GPUs de consumo

259 tok/s

Throughput

16 solicitudes simultáneas

Vision+Audio

Multimodal

OCR, escenas, transcripción

~2-4×

Quantized KV

contexto, Q4_0/Q5/Q8

--web

Navegación web

model-agnostic, cualquier GGUF

Fases de desarrollo

Lo que estamos construyendo

01Actual

Fase 01Fundación

Q1 2026

El motor de inferencia alcanza calidad de producción. Componentes de la pipeline Forge desarrollados. Hub operativo como prototipo.

11/13 elementos85%
  • Engine: binarios standalone (Linux x64, Windows x64)
  • Multimodal visión + audio (Gemma 4)
  • Continuous batching — 259 tok/s
  • Quantized KV cache — Q4_0/Q5/Q8 (~2-4× contexto)
  • API OpenAI-compatible + drop-in Ollama
  • GPU: CUDA (probado), ROCm, Vulkan, Metal
  • Audit logging EU AI Act integrado
  • Navegación web transparente (--web, model-agnostic)
  • REPL interactivo: /temp, /maxtokens, /system
  • Interfaz de chat integrada — localhost:11435, ~29 KB en el binario
  • Forge: structural pruning + knowledge distillation
  • Forge: CLI pipeline end-to-end
  • Modelo de demostración: legal-it-7b
02Planificada

Fase 02Ecosistema

Q2 2026

Los primeros modelos Hub listos para producción entran en funcionamiento. CLI Forge estable. Soporte de plataforma ampliado.

1/8 elementos13%
  • Hub: modelo para el sector jurídico (derecho UE/italiano)
  • Hub: modelo de apoyo al triaje médico
  • Hub: modelo de cumplimiento financiero y KYC
  • Fichas de conformidad AI Act para todos los modelos Hub
  • Forge: CLI estable + documentación completa
  • Soporte Windows x64
  • Inferencia multi-GPU
  • Asistente de cuantización para hardware de consumo
03Futura

Fase 03Empresa

H2 2026

Refuerzo enterprise: inferencia distribuida, control de acceso, Forge Studio interfaz visual.

0/7 elementos0%
  • Inferencia distribuida multi-nodo
  • Operador Kubernetes
  • SSO / RBAC access control
  • Forge Studio — interfaz visual para el fine-tuning
  • Versionado y rollback de modelos en el Hub
  • Alianzas con centros de datos UE certificados
  • Niveles de soporte SLA
Changelog

Historial de versiones

v0.6.2Última9 Jun 2026
  • Multimodal in the Chat UI — drop in an image or audio clip, fully local
  • Vision + audio understanding stable (Gemma 4): OCR, scene description, transcription
  • BOS token handling fix for multimodal prompts
v0.6.07 Jun 2026
  • Multimodal vision launched — image OCR and scene description on consumer GPUs
  • Audio understanding (experimental, CLI) — transcription and in-content search
  • Runs fully local, zero telemetry
v0.5.206 Jun 2026
  • Math expression rendering in the Chat UI
  • Quantized KV cache — Q4_0/Q5/Q8 for ~2-4× context on the same GPU
v0.5.331 May 2026
  • Embedded chat UI on localhost:11435 — ~29 KB in binary, zero CDN or external dependencies
  • eullm -V now shows the active backend variant
  • Standalone Windows binaries: CPU and CUDA
v0.4.427 May 2026
  • Web tool calling — transparent URL fetching in conversation
  • Legal-IT dataset preparation module
  • GPU layer fitting improvements
v0.4.38 Apr 2026
  • Drop-in Ollama replacement with continuous batching
  • Quantized KV cache for larger context on 16 GB GPUs
  • Transparent web browsing without function-call overhead
  • EU AI Act audit logging built-in
v0.3.136 Apr 2026
  • Interactive REPL: /temp, /maxtokens, /system commands
  • Quantized KV cache quality/accuracy automatic recommendations
v0.3.105 Apr 2026
  • Quantized KV cache math accuracy improvements
  • 1% accuracy loss isolated to matrix operations only
v0.3.53 Apr 2026
  • Default context window increased to 2 048 tokens
  • Math accuracy benchmarking suite added
v0.3.31 Apr 2026
  • Mixed KV cache type support
v0.3.230 Mar 2026
  • Bug fixes
  • Documentation updates
v0.2.9829 Mar 2026
  • Batch scheduler refinements
  • Build pipeline stabilization

Dé forma a la hoja de ruta

Abra un issue, vote por funcionalidades o contribuya con código. EULLM se desarrolla en público y cada voz cuenta.