14 providers, 4 Ollama local, Qdrant RAG, cascade 0 EUR β souverainete totale
llama-3.3-70b DEFAULT. 18 modeles disponibles. Latence ~200ms. Rate: 30 req/min
Qwen2.5-72B-Instruct. Inference API serverless. Fallback Groq
Nemotron-49B-Instruct. nvapi key active. GPU A100 cloud
qwen-3-235b + 3 autres. Inference ultra-rapide ASIC. 4 modeles
DeepSeek-V3.1 + Llama-3.3. Custom silicon. Latence faible
Google AI Studio. 1M tokens context. Multimodal (images+audio)
Llama-3.1-8B + DeepSeek-R1-32B. GPU edge gratuit. 10K neurons/jour
Mistral-Large + Small. Paris-based. EU data sovereignty
Google Gemma 4 extended. 4B params. Port 11434 localhost
Alibaba Qwen 3. 4B params. Code + math + raisonnement
Embeddings 768d pour Qdrant RAG. Semantic search
Sentence embeddings rapides. 384d. Classification + similarity
14,368 vecteurs β competences et patterns WEVIA. Base de connaissances principale
1,390 vecteurs β apprentissages autonomes. +16 vec/heure via autolearn
386 vecteurs β knowledge base editoriale. Documentation technique
48 vecteurs β mΓ©moire conversationnelle. Context long-terme