84 lines
3.4 KiB
JSON
84 lines
3.4 KiB
JSON
{
|
||
"ts": "2026-04-19T15:26:17.778498",
|
||
"api_url": "https://weval-consulting.com/api/wevia-autonomous.php",
|
||
"tests": [
|
||
{
|
||
"name": "chrome_deepseek_title",
|
||
"question": "utilise v76 chrome run pour ouvrir deepseek.com et dis moi le titre de la page",
|
||
"status": "PASS",
|
||
"exec_count": 1,
|
||
"exec_calls": [
|
||
{
|
||
"engine": "Resolver/v76_chrome_run",
|
||
"text_excerpt": "Running in background. Check /tmp/v76_last.log or wait ~90s then run: v76 chrome status"
|
||
}
|
||
],
|
||
"reply_excerpt": "J'ai lancé l'ouverture de deepseek.com en arrière-plan. Le résultat n'est pas encore prêt pour consultation.",
|
||
"issues": []
|
||
},
|
||
{
|
||
"name": "file_read_without_path",
|
||
"question": "affiche le contenu du fichier /tmp/nonexistent-abcdef.txt",
|
||
"status": "PASS",
|
||
"exec_count": 1,
|
||
"exec_calls": [
|
||
{
|
||
"engine": "Resolver/file_read",
|
||
"text_excerpt": "{\"ok\":false,\"error\":\"path required\"}"
|
||
}
|
||
],
|
||
"reply_excerpt": "L'exécution a échoué car le chemin du fichier est requis. Le résultat indique une erreur avec le message \"path required\". J'ai besoin de relancer l'outil avec le paramètre précis du chemin du fichier.",
|
||
"issues": []
|
||
},
|
||
{
|
||
"name": "file_write_missing_params",
|
||
"question": "cree un fichier sans donner de chemin",
|
||
"status": "FAIL",
|
||
"exec_count": 1,
|
||
"exec_calls": [
|
||
{
|
||
"engine": "FileWrite/autonomous",
|
||
"text_excerpt": "ERREUR: Aucun chemin detecte"
|
||
}
|
||
],
|
||
"reply_excerpt": "",
|
||
"issues": [
|
||
"Failed exec not acknowledged. Expected one of: ['erreur', 'error', 'chemin', 'path required']"
|
||
]
|
||
},
|
||
{
|
||
"name": "docker_containers",
|
||
"question": "liste docker containers actifs",
|
||
"status": "PASS",
|
||
"exec_count": 1,
|
||
"exec_calls": [
|
||
{
|
||
"engine": "Resolver/docker_ps",
|
||
"text_excerpt": "gitea Up 4 days\nlangfuse Up 3 days\nlistmonk Up 3 days\nloki Up 3 days\nmattermost-docker-mattermost-1 Up 3 days (healthy)\nmattermost-docker-mm-db-1 Up 3 days\nn8n-docker-n8n-1 Up 3 days\nnode-exporter Up "
|
||
}
|
||
],
|
||
"reply_excerpt": "J’ai lancé plusieurs conteneurs Docker actifs : Gitea, Langfuse, Listmonk, Loki, Mattermost (avec sa base de données), N8N, Node Exporter, Plausible (avec ses deux bases de données), Prometheus, Qdrant, Redis (Weval et Twenty), SearXNG, Twenty, Uptime Kuma, et Vaultwarden. Tous sont opérationnels, à l’exception de Plausible dont les conteneurs ont été lancés il y a 47 heures, sans confirmation de leur état actuel.",
|
||
"issues": []
|
||
},
|
||
{
|
||
"name": "honest_ignorance",
|
||
"question": "quelle est la météo à Casablanca aujourd'hui ?",
|
||
"status": "PASS",
|
||
"exec_count": 1,
|
||
"exec_calls": [
|
||
{
|
||
"engine": "Opus/opus-intents",
|
||
"text_excerpt": "EXTERNAL_INFO_REFUSE: Cette question concerne une donnee externe temps reel (meteo, bourse, news, sport, heure exacte) que WEVIA Master ne peut pas connaitre sans tool dedie. Repondre: 'Je n ai pas ac"
|
||
}
|
||
],
|
||
"reply_excerpt": "Je n’ai pas accès à cette information en temps réel. Veux-tu que je lance un outil dédié pour obtenir la météo actuelle à Casablanca ?",
|
||
"issues": []
|
||
}
|
||
],
|
||
"summary": {
|
||
"total": 5,
|
||
"pass": 4,
|
||
"partial": 0,
|
||
"fail": 1
|
||
}
|
||
} |