A construir em público · Fase 1 em curso

Roadmap

Estado em tempo real de cada componente EULLM, os marcos que estamos a atingir e o historial completo de cada versão lançada.

Estado dos componentes

Visão geral da plataforma

Pronto para produção

EULLM Engine

v0.6.2

Runtime de inferência em Rust. Multimodal vision + audio, substituto direto do Ollama com API compatível com OpenAI e interface de chat incorporada em localhost:11435.

Progresso88%

259 tok/s

Débito

Vision+Audio

Multimodal

✓ testado

Windows

Em desenvolvimento

EULLM Forge

Pipeline de verticalização de modelos. Componentes prontos, integração CLI end-to-end em curso.

Progresso42%

30B→7B

Redução de tamanho

GGUF

Exportação

Beta

Pipeline

Pré-visualização

EULLM Hub

Registo de modelos alojado na UE com cartões de conformidade com o EU AI Act. Operacional como protótipo.

Progresso25%

Protótipo

Modelos

3 planeados

Setores

Apenas UE

Alojamento

Capacidades do Engine — v0.6.2

Runtime Rust · batching contínuo · multimodal vision + audio · totalmente local em GPUs de consumo

259 tok/s

Débito

16 pedidos simultâneos

Vision+Audio

Multimodal

OCR, cenas, transcrição

~2-4×

KV Quantizado

contexto, Q4_0/Q5/Q8

--web

Navegação web

agnóstico ao modelo, qualquer GGUF

Fases de desenvolvimento

O que estamos a construir

01Atual

Fase 01Fundação

Q1 2026

O motor de inferência principal atinge qualidade de produção. Componentes do pipeline Forge construídos. Hub operacional como protótipo.

11/13 itens85%
  • Engine: binários autónomos (Linux x64, Windows x64)
  • Multimodal vision + audio (Gemma 4)
  • Batching contínuo — 259 tok/s
  • Cache KV quantizada — Q4_0/Q5/Q8 (~2-4× contexto)
  • API compatível com OpenAI + substituto direto Ollama
  • GPU: CUDA (testado), ROCm, Vulkan, Metal
  • Registo de auditoria integrado EU AI Act
  • Navegação web transparente (--web, agnóstico ao modelo)
  • REPL interativo: /temp, /maxtokens, /system
  • Interface de chat incorporada — localhost:11435, ~29 KB no binário
  • Forge: poda estrutural + destilação de conhecimento
  • Forge pipeline CLI end-to-end
  • Modelo de demonstração: legal-it-7b
02Planeada

Fase 02Ecossistema

Q2 2026

Primeiros modelos Hub prontos para produção entram em funcionamento. CLI Forge estável. Suporte de plataforma expandido.

1/8 itens13%
  • Hub: modelo para setor jurídico (direito da UE/italiano)
  • Hub: modelo de apoio à triagem médica
  • Hub: modelo de conformidade Finance & KYC
  • Cartões de conformidade EU AI Act para todos os modelos Hub
  • Forge: CLI estável + documentação completa
  • Suporte Windows x64
  • Inferência multi-GPU
  • Assistente de quantização para hardware de consumo
03Futura

Fase 03Enterprise

H2 2026

Robustecimento enterprise: inferência distribuída, controlo de acesso, interface visual Forge Studio.

0/7 itens0%
  • Inferência distribuída multi-nó
  • Operador Kubernetes
  • Controlo de acesso SSO / RBAC
  • Forge Studio — interface visual de ajuste fino
  • Versionamento de modelos e rollback no Hub
  • Parcerias certificadas com centros de dados da UE
  • Níveis de suporte SLA
Changelog

Histórico de versões

v0.6.2Mais recente9 Jun 2026
  • Multimodal in the Chat UI — drop in an image or audio clip, fully local
  • Vision + audio understanding stable (Gemma 4): OCR, scene description, transcription
  • BOS token handling fix for multimodal prompts
v0.6.07 Jun 2026
  • Multimodal vision launched — image OCR and scene description on consumer GPUs
  • Audio understanding (experimental, CLI) — transcription and in-content search
  • Runs fully local, zero telemetry
v0.5.206 Jun 2026
  • Math expression rendering in the Chat UI
  • Quantized KV cache — Q4_0/Q5/Q8 for ~2-4× context on the same GPU
v0.5.331 May 2026
  • Embedded chat UI on localhost:11435 — ~29 KB in binary, zero CDN or external dependencies
  • eullm -V now shows the active backend variant
  • Standalone Windows binaries: CPU and CUDA
v0.4.427 May 2026
  • Web tool calling — transparent URL fetching in conversation
  • Legal-IT dataset preparation module
  • GPU layer fitting improvements
v0.4.38 Apr 2026
  • Drop-in Ollama replacement with continuous batching
  • Quantized KV cache for larger context on 16 GB GPUs
  • Transparent web browsing without function-call overhead
  • EU AI Act audit logging built-in
v0.3.136 Apr 2026
  • Interactive REPL: /temp, /maxtokens, /system commands
  • Quantized KV cache quality/accuracy automatic recommendations
v0.3.105 Apr 2026
  • Quantized KV cache math accuracy improvements
  • 1% accuracy loss isolated to matrix operations only
v0.3.53 Apr 2026
  • Default context window increased to 2 048 tokens
  • Math accuracy benchmarking suite added
v0.3.31 Apr 2026
  • Mixed KV cache type support
v0.3.230 Mar 2026
  • Bug fixes
  • Documentation updates
v0.2.9829 Mar 2026
  • Batch scheduler refinements
  • Build pipeline stabilization

Molde o roadmap

Abra uma issue, vote em funcionalidades ou contribua com código. A EULLM é construída de forma aberta e cada voz conta.