A construir em público · Fase 1 em curso

Roadmap

Estado em tempo real de cada componente EULLM, os marcos que estamos a atingir e o historial completo de cada versão lançada.

GitHub Releases Ver código-fonte

Estado dos componentes

Visão geral da plataforma

Pronto para produção

EULLM Engine

v0.6.2

Runtime de inferência em Rust. Multimodal vision + audio, substituto direto do Ollama com API compatível com OpenAI e interface de chat incorporada em localhost:11435.

Progresso88%

259 tok/s

Débito

Vision+Audio

Multimodal

✓ testado

Windows

Em desenvolvimento

EULLM Forge

Pipeline de verticalização de modelos. Componentes prontos, integração CLI end-to-end em curso.

Progresso42%

30B→7B

Redução de tamanho

GGUF

Exportação

Beta

Pipeline

Pré-visualização

EULLM Hub

Registo de modelos alojado na UE com cartões de conformidade com o EU AI Act. Operacional como protótipo.

Progresso25%

Protótipo

Modelos

3 planeados

Setores

Apenas UE

Alojamento

Capacidades do Engine — v0.6.2

Runtime Rust · batching contínuo · multimodal vision + audio · totalmente local em GPUs de consumo

259 tok/s

Débito

16 pedidos simultâneos

Vision+Audio

Multimodal

OCR, cenas, transcrição

~2-4×

KV Quantizado

contexto, Q4_0/Q5/Q8

--web

Navegação web

agnóstico ao modelo, qualquer GGUF

Fases de desenvolvimento

O que estamos a construir

01Atual

Fase 01 — Fundação

Q1 2026

O motor de inferência principal atinge qualidade de produção. Componentes do pipeline Forge construídos. Hub operacional como protótipo.

11/13 itens85%

Engine: binários autónomos (Linux x64, Windows x64)
Multimodal vision + audio (Gemma 4)
Batching contínuo — 259 tok/s
Cache KV quantizada — Q4_0/Q5/Q8 (~2-4× contexto)
API compatível com OpenAI + substituto direto Ollama
GPU: CUDA (testado), ROCm, Vulkan, Metal
Registo de auditoria integrado EU AI Act
Navegação web transparente (--web, agnóstico ao modelo)
REPL interativo: /temp, /maxtokens, /system
Interface de chat incorporada — localhost:11435, ~29 KB no binário
Forge: poda estrutural + destilação de conhecimento
Forge pipeline CLI end-to-end
Modelo de demonstração: legal-it-7b

02Planeada

Fase 02 — Ecossistema

Q2 2026

Primeiros modelos Hub prontos para produção entram em funcionamento. CLI Forge estável. Suporte de plataforma expandido.

1/8 itens13%

Hub: modelo para setor jurídico (direito da UE/italiano)
Hub: modelo de apoio à triagem médica
Hub: modelo de conformidade Finance & KYC
Cartões de conformidade EU AI Act para todos os modelos Hub
Forge: CLI estável + documentação completa
Suporte Windows x64
Inferência multi-GPU
Assistente de quantização para hardware de consumo

03Futura

Fase 03 — Enterprise

H2 2026

Robustecimento enterprise: inferência distribuída, controlo de acesso, interface visual Forge Studio.

0/7 itens0%

Inferência distribuída multi-nó
Operador Kubernetes
Controlo de acesso SSO / RBAC
Forge Studio — interface visual de ajuste fino
Versionamento de modelos e rollback no Hub
Parcerias certificadas com centros de dados da UE
Níveis de suporte SLA

Changelog

Histórico de versões

v0.6.2Mais recente9 Jun 2026

Multimodal in the Chat UI — drop in an image or audio clip, fully local
Vision + audio understanding stable (Gemma 4): OCR, scene description, transcription
BOS token handling fix for multimodal prompts

v0.6.07 Jun 2026

Multimodal vision launched — image OCR and scene description on consumer GPUs
Audio understanding (experimental, CLI) — transcription and in-content search
Runs fully local, zero telemetry

v0.5.206 Jun 2026

Math expression rendering in the Chat UI
Quantized KV cache — Q4_0/Q5/Q8 for ~2-4× context on the same GPU

v0.5.331 May 2026

Embedded chat UI on localhost:11435 — ~29 KB in binary, zero CDN or external dependencies
eullm -V now shows the active backend variant
Standalone Windows binaries: CPU and CUDA

v0.4.427 May 2026

Web tool calling — transparent URL fetching in conversation
Legal-IT dataset preparation module
GPU layer fitting improvements

v0.4.38 Apr 2026

Drop-in Ollama replacement with continuous batching
Quantized KV cache for larger context on 16 GB GPUs
Transparent web browsing without function-call overhead
EU AI Act audit logging built-in

v0.3.136 Apr 2026

Interactive REPL: /temp, /maxtokens, /system commands
Quantized KV cache quality/accuracy automatic recommendations

v0.3.105 Apr 2026

Quantized KV cache math accuracy improvements
1% accuracy loss isolated to matrix operations only

v0.3.53 Apr 2026

Default context window increased to 2 048 tokens
Math accuracy benchmarking suite added

v0.3.31 Apr 2026

Mixed KV cache type support

v0.3.230 Mar 2026

Bug fixes
Documentation updates

v0.2.9829 Mar 2026

Batch scheduler refinements
Build pipeline stabilization

Ver todas as versões no GitHub →

Molde o roadmap

Abra uma issue, vote em funcionalidades ou contribua com código. A EULLM é construída de forma aberta e cada voz conta.

Abrir uma issue Participar na discussão