Safety Not Found (404): Rischi Nascosti nel Decision Making Robotico basato su LLM
Un errore di un sistema di intelligenza artificiale in un contesto critico per la sicurezza può costare vite umane. Con l’integrazione dei Large Language Models (LLM) nel decision-making robotico, la dimensione fisica del rischio cresce; una singola istruzione errata può mettere direttamente in pericolo la sicurezza umana. Questo articolo affronta l’urgente necessità di valutare sistematicamente le prestazioni degli LLM in scenari in cui anche errori minori sono catastrofici.
Attraverso una valutazione qualitativa di uno scenario di evacuazione antincendio, sono stati identificati casi di fallimento critici nel decision-making basato su LLM. Sulla base di questi, sono stati progettati sette compiti per la valutazione quantitativa, suddivisi in: Informazioni Complete, Informazioni Incomplete e Ragionamento Spaziale Orientato alla Sicurezza (SOSR). I compiti di informazioni complete utilizzano mappe ASCII per minimizzare l’ambiguità di interpretazione e isolare il ragionamento spaziale dall’elaborazione visiva. I compiti di informazioni incomplete richiedono ai modelli di dedurre il contesto mancante, testando la continuità spaziale rispetto alle allucinazioni. I compiti SOSR utilizzano il linguaggio naturale per valutare il processo decisionale sicuro in contesti in cui la vita è in pericolo. Sono stati confrontati vari LLM e modelli di linguaggio visivo (VLM) in questi compiti.
I risultati rivelano gravi vulnerabilità: diversi modelli hanno ottenuto un tasso di successo dello 0% nella navigazione ASCII, mentre in una simulazione di esercitazione antincendio, i modelli hanno istruito i robot a muoversi verso aree pericolose invece che verso le uscite di emergenza. La conclusione è che gli attuali LLM non sono pronti per l’implementazione diretta in sistemi critici per la sicurezza. Un tasso di accuratezza del 99% è pericolosamente fuorviante in robotica, poiché implica che un’esecuzione su cento potrebbe causare danni catastrofici.
Paper: ArXiv.org