ACDZero: Agente MCTS per la Padronanza della Difesa Informatica Automatica
La difesa informatica automatica (ACD) mira a proteggere le reti informatiche con un intervento umano minimo o nullo, reagendo alle intrusioni intraprendendo azioni correttive come l’isolamento degli host, il ripristino dei servizi, l’implementazione di esche o l’aggiornamento dei controlli di accesso. Tuttavia, gli approcci esistenti per l’ACD, come l’apprendimento per rinforzo profondo (RL), spesso affrontano una difficile esplorazione in reti complesse con ampi spazi decisionali/statali e richiedono quindi un’elevata quantità di campioni.
Ispirati dalla necessità di apprendere politiche di difesa efficienti in termini di campionamento, inquadriamo l’ACD nella CAGE Challenge 4 (CAGE-4 / CC4) come un problema decisionale di Markov parzialmente osservabile basato sul contesto e proponiamo una politica di difesa incentrata sulla pianificazione basata su Monte Carlo Tree Search (MCTS). Modella esplicitamente il compromesso esplorazione-sfruttamento nell’ACD e utilizza il campionamento statistico per guidare l’esplorazione e il processo decisionale. Facciamo un uso innovativo delle reti neurali a grafo (GNN) per incorporare osservazioni dalla rete come grafici attributi, per consentire il ragionamento invariante alla permutazione sugli host e le loro relazioni.
Per rendere la nostra soluzione pratica in spazi di ricerca complessi, guidiamo MCTS con embedding di grafici appresi e a priori sulle azioni di modifica del grafo, combinando la generalizzazione model-free e la distillazione della politica con la pianificazione look-ahead. Valutiamo l’agente risultante su scenari CC4 che coinvolgono diverse strutture di rete e comportamenti avversari e dimostriamo che la nostra pianificazione basata sull’embedding di grafi e guidata dalla ricerca migliora la ricompensa della difesa e la robustezza rispetto ai benchmark RL all’avanguardia.
Paper: ArXiv.org