The past few years have seen an increasing interest in developing neural-network-based agents for visually-grounded dialogue, where the conversation participants communicate about visual content. I will start by discussing how visual grounding can be integrated with traditional task-oriented dialogue system components. Most current work in the field focuses on reporting numeric results solely based on task success. I will argue that we can gain more insight by (i) analysing the linguistic output of alternative systems and (ii) probing the representations they learn. I will also introduce a new dialogue dataset we have developed using a data-collection setup designed to investigate linguistic common ground as it accumulates during visually-grounded interaction.
Raquel Fernández è Professore Associato presso l'Istituto di Logica, Lingua e Calcolo (ILLC), Università di Amsterdam, dove dirige il Gruppo di Modelli di Dialogo. Ha conseguito il dottorato di ricerca presso il King's College London e ha ricoperto incarichi di ricerca presso l'Università di Potsdam e il CSLI, Università di Stanford. Il suo lavoro e i suoi interessi ruotano attorno all'uso della lingua, che comprende argomenti che spaziano dalla semantica computazionale e pragmatica alle dinamiche di interazione dialogica, all'elaborazione visiva del linguaggio e all'acquisizione del linguaggio infantile.