La sfida HumDial ICASSP 2026: valutare i sistemi di dialogo vocale simili all’uomo nell’era LLM

L’avanzamento dei Large Language Models (LLM), in particolare Audio-LLM e modelli Omni, ha rivoluzionato i sistemi di dialogo vocale, riducendo le differenze tra le interazioni uomo-macchina e uomo-uomo. Per una comunicazione veramente “simile all’umano”, è essenziale l’intelligenza emotiva per comprendere gli stati d’animo degli utenti e meccanismi di interazione solidi per gestire il flusso naturale della conversazione, come l’alternanza dei turni in tempo reale. Per questo, abbiamo lanciato la prima sfida HumDial all’ICASSP 2026 per valutare queste capacità.

Basata su un ampio dataset derivato da conversazioni umane autentiche, l’iniziativa offre una piattaforma di valutazione equa su due percorsi: (1) Intelligenza Emotiva, focalizzata sulla comprensione delle emozioni a lungo termine e sulla generazione empatica; (2) Interazione Full-Duplex, per valutare il processo decisionale in tempo reale in condizioni di “ascolto mentre si parla”. Questo documento riassume il dataset, le configurazioni dei percorsi e i risultati finali.

Paper: ArXiv.org