Files
wevads-gpu/RUNBOOK_SSH_AUTH_UNBLOCK_NO_GLOBAL_SSH_CHANGE.md
2026-03-09 23:35:22 +00:00

2.6 KiB

Mini runbook - deblocage SSH auth multi-install (sans toucher config SSH globale)

Date: 2026-03-10 Scope: lever le blocage preflight multi-install avec zero modification de sshd_config, PMTA, Java/JAR, multiInstall.js.

1) Objectif

Obtenir au moins un lot ready=YES sur multiinstall-safe-preflight.sh en traitant uniquement:

  • disponibilite reseau des IP publiques PMTA
  • validite des credentials en base
  • hygiene des listes serveurs cibles

2) Prechecks (non intrusifs)

Depuis S89:

# Reachability TCP/22 (reseau)
timeout 5 bash -c "exec 3<>/dev/tcp/110.238.76.155/22" && echo OK || echo FAIL
timeout 5 bash -c "exec 3<>/dev/tcp/122.8.135.130/22" && echo OK || echo FAIL
timeout 5 bash -c "exec 3<>/dev/tcp/204.168.152.13/22" && echo OK || echo FAIL

# Credentials actifs en DB
PGPASSWORD=admin123 psql -h 127.0.0.1 -U admin -d adx_system -c \
"SELECT id,host,username,active,last_used FROM admin.pmta_servers ORDER BY id;"

Decision:

  • si TCP/22 FAIL => incident reseau/provider/NAT (pas un probleme d'auth)
  • si TCP/22 OK + auth FAIL => credentials obsoletes ou policy host

3) Construction lot preflight propre

Ne pas lancer le preflight sur des hosts deja TCP/22 FAIL.

cat > /tmp/servers_active_pmta.csv <<'CSV'
ip,username,password
110.238.76.155,root,<password_db>
122.8.135.130,root,<password_db>
CSV

Puis:

SERVERS_CSV=/tmp/servers_active_pmta.csv ./multiinstall-safe-preflight.sh

4) Cas d'echec et action autorisee

A) TCP/22 timeout ou connection refused

Action:

  1. Ouvrir ticket provider/NOC: verifier Security Group/ACL/firewall upstream/NAT rules.
  2. Verifier que l'instance est running cote provider.
  3. Revalider reachability avec test /dev/tcp.

Interdit:

  • ne pas modifier sshd_config
  • ne pas toucher PMTA

B) TCP/22 OK mais ssh_auth_failed

Action:

  1. Revalider mot de passe root source-of-truth (DB + coffre).
  2. Tester sshpass depuis S89 vers 1 host.
  3. Mettre a jour uniquement le credential en DB si obsolete.

Interdit:

  • ne pas desactiver auth hardening SSH global
  • ne pas ouvrir des acces permanents non valides

5) Validation de sortie

Critere de deblocage minimal:

  • au moins un batch avec ready=YES dans le CSV de sortie preflight
  • rerun ./execute_all_p0_p1_p2.sh avec lot valide
  • rerun STRICT_CONFIDENTIALITY=1 API_KEY=... ./nonreg-framework.sh

6) Etat observe pendant cette execution

  • 110.238.76.155:22 timeout depuis S89
  • 122.8.135.130:22 timeout depuis S89
  • 204.168.152.13:22 connection refused depuis S89

Conclusion:

  • blocage principal actuel = reseau/NAT/provider
  • pas de correction possible cote repo sans violer les contraintes DP