Benchmark réel — 16 capabilities testées — Session marathon — 8 avril 2026
Score validation Opus (6 critères)
Score estimé (mêmes critères WEVAL)
Pas de RAG/pipeline WEVAL
Pas de connaissance infra
| 253 routes chatbot wirées | ✅ Unique | Aucune autre IA |
| 14 providers IA parallèle (Consensus) | ✅ Unique | 3,500B+ combinés |
| 14,884 vectors RAG souverains | ✅ Unique | On-premise Qdrant |
| Pipeline dev 10 étapes autonome | ✅ Unique | Playwright+Selenium+L99 |
| Gap Detector auto (97.8%) | ✅ Unique | Cross-ref /opt/ vs routes |
| CORTEX v3.0 (13 checks autonomes) | ✅ Unique | JSON+Mattermost */4h |
| Souveraineté 100% données | ✅ | S204/S95/S151 on-premise |
| Coût mensuel | 0€ | vs $200/mo Opus |
Stratégie 80/20: WEVIA Master fait 80% du travail (0€), Opus 20% ($50/mo)
Toutes tâches routine: scan infra, monitoring, tests L99, NonReg, wiki update, gap detection. Questions techniques simples → Cerebras 235B gratuit (400ms). RAG → Qdrant 14,884 vectors local. Consensus → 14 providers gratuits.
Architecture système complexe. Décisions business (Vistex, Huawei). Fine-tuning WEVIA Master. Debug multi-fichiers complexe. Raisonnement profond qui nécessite 200K+ contexte.
Prompt caching (réutiliser system prompts). Batch API (-50% pour non-urgent). Claude Haiku ($0.25/M vs $15/M). Fine-tuned brain-v3 Ollama (0€). Stocker réponses fréquentes dans Qdrant.
| Tâche | Qui? | Coût token | Pourquoi |
|---|---|---|---|
| Scan infra/monitoring | WEVIA | 0 | 253 routes + CORTEX |
| Tests L99/NonReg | WEVIA | 0 | Pipeline autonome |
| Questions techniques simples | WEVIA | 0 | Cerebras 235B gratuit |
| RAG/recherche documentaire | WEVIA | 0 | Qdrant 14,884 vectors |
| Consensus multi-IA | WEVIA | 0 | 14 providers gratuits |
| Wiki/documentation | WEVIA | 0 | 759 entries auto-scan |
| Architecture complexe | Opus | $$ | Raisonnement profond |
| Décisions stratégiques | Opus | $$ | Context business |
| Fine-tuning WEVIA | Opus | $ | Contrôle qualité |
| Debug multi-fichiers | Opus | $$ | 200K context needed |
| Tier | Provider | Modèle | Params | Coût | Status WEVAL |
|---|---|---|---|---|---|
| S | Anthropic | Claude Opus 4.6 | ? | $200/mo | Contrôleur |
| S | OpenAI | GPT-4.5 | ? | $200/mo | Non utilisé |
| A | Gemini 2.5 Flash | ? | Free | ✅ Wiré T2 | |
| A | Mistral | Mistral Large | 123B | Free tier | ✅ Wiré T1 |
| B | Cerebras | Qwen-3 235B | 235B | Free | ✅ Wiré T0 PRIMARY |
| B | Groq | Llama 3.3 70B | 70B | Free | ✅ Wiré T0 |
| B | Groq | Kimi-K2 | 1000B | Free | ✅ Wiré T0 |
| B | SambaNova | DeepSeek V3.2 | 671B | Free | ✅ Wiré T0 |
| B | NVIDIA | Llama 70B | 70B | Free | ✅ Wiré T1 |
| B | Together | Llama 70B Turbo | 70B | Free | ✅ Wiré T1 |
| B | Cohere | Command-R+ | 104B | Free | ✅ Wiré T1 |
| B | DeepSeek | DeepSeek Chat | 671B | Free | ✅ Wiré T1 |
| B | OpenRouter | Llama 70B Free | 70B | Free | ✅ Wiré T1 |
| B | Alibaba | Qwen Turbo | 72B | Free | ✅ Wiré T2 |
| B | ZhiPu | GLM-4 Flash | 130B | Free | ✅ Wiré T2 |
| C | Ollama Local | brain-v3 (Qwen3 8B) | 8B | 0€ | ✅ Wiré T3 |
Total: 14 providers actifs | 3,500B+ paramètres combinés | 0€/mois
| Étape | Action | Impact tokens | Status |
|---|---|---|---|
| 1 | Utiliser WEVIA Master pour scan/monitoring/tests | -60% | ✅ FAIT |
| 2 | RAG Qdrant pour questions techniques (14,884 vectors) | -15% | ✅ FAIT |
| 3 | Consensus Engine pour opinions multi-IA | -10% | ✅ FAIT |
| 4 | Pipeline dev autonome (Playwright+Selenium+L99) | -5% | ✅ FAIT |
| 5 | Fine-tuner brain-v3 avec 5,649 paires | -5% | ✅ FAIT |
| 6 | Prompt caching Claude API | -3% | ✅ FAIT |
| 7 | Batch API pour tâches non-urgentes | -2% | ✅ FAIT |
Résultat attendu: $200/mo → $0/mo (économie $2,400/an)