La sfida HumDial ICASSP 2026: valutare i sistemi di dialogo vocale simili all’uomo nell’era LLM

La sfida HumDial ICASSP 2026: valutare i sistemi di dialogo vocale simili all’uomo nell’era LLM

L’avanzamento dei Large Language Models (LLM), in particolare Audio-LLM e modelli Omni, ha rivoluzionato i sistemi di dialogo vocale, riducendo le differenze tra le interazioni uomo-macchina e uomo-uomo. Per una comunicazione veramente “simile all’umano”, è essenziale l’intelligenza emotiva per comprendere gli stati d’animo degli utenti e meccanismi di interazione solidi per gestire il flusso naturale della conversazione, come l’alternanza dei turni in tempo reale. Per questo, abbiamo lanciato la prima sfida HumDial all’ICASSP 2026 per valutare queste capacità.

Basata su un ampio dataset derivato da conversazioni umane autentiche, l’iniziativa offre una piattaforma di valutazione equa su due percorsi: (1) Intelligenza Emotiva, focalizzata sulla comprensione delle emozioni a lungo termine e sulla generazione empatica; (2) Interazione Full-Duplex, per valutare il processo decisionale in tempo reale in condizioni di “ascolto mentre si parla”. Questo documento riassume il dataset, le configurazioni dei percorsi e i risultati finali.


Paper: ArXiv.org

La Sfida HumDial ICASSP 2026: Valutare Sistemi di Dialogo Vocale Simili all’Umano nell’Era dei LLM

La Sfida HumDial ICASSP 2026: Valutare Sistemi di Dialogo Vocale Simili all’Umano nell’Era dei LLM

L’avanzamento rapido dei Large Language Models (LLM), in particolare Audio-LLM e modelli Omni, ha trasformato i sistemi di dialogo vocale, riducendo le distanze tra le interazioni uomo-macchina e uomo-uomo. Per raggiungere una comunicazione veramente “umana”, è essenziale possedere intelligenza emotiva, per comprendere e rispondere agli stati emotivi degli utenti, e meccanismi di interazione robusti per gestire il flusso naturale delle conversazioni, come la gestione dei turni in tempo reale.

Per questo motivo, è stata lanciata la prima Human-like Spoken Dialogue Systems Challenge (HumDial) all’ICASSP 2026 per valutare queste capacità. Basata su un ampio dataset derivato da conversazioni umane autentiche, questa iniziativa offre una piattaforma di valutazione equa su due percorsi: (1) Intelligenza Emotiva, focalizzata sulla comprensione delle emozioni a lungo termine e sulla generazione empatica; (2) Interazione Full-Duplex, per valutare il processo decisionale in tempo reale in condizioni di “ascolto mentre si parla”. Questo documento riassume il dataset, le configurazioni dei percorsi e i risultati finali.


Paper: ArXiv.org