Lo dimostra un curioso esperimento della New York University, in cui i ricercatori hanno addestrato un sistema di apprendimento automatico usando registrazioni video e audio realizzate dalla prospettiva di una bambina, grazie a una telecamera montata su un caschetto indossato durante le consuete attività quotidiane nel periodo compreso tra i 6 mesi e i due anni di età .
Risultati rivoluzionari pubblicati su Science
I risultati, pubblicati sulla rivista Science, aiuteranno a sviluppare sistemi di intelligenza artificiale in grado di apprendere il linguaggio in modo più simile agli umani.
Bambini come modello ideale di studio
Per questo genere di ricerche, i bambini rappresentano il modello ideale da studiare: basti pensare che già a partire dai sei mesi di età iniziano ad acquisire le prime parole, collegandole a oggetti e concetti del mondo reale, ed entro i due anni arrivano a comprenderne in media 300.
L’approccio innovativo con l’intelligenza artificiale
Per capire come vengono apprese queste parole e come vengono associate alle loro controparti visive, i ricercatori hanno pensato di usare un approccio innovativo, ricorrendo appunto all’intelligenza artificiale.
Addestramento del modello di IA
Per il loro esperimento hanno scelto una rete neurale relativamente generica e l’hanno addestrata dandole in pasto 61 ore di registrazioni video e audio riprese dalla prospettiva di una bambina impegnata in attività quotidiane (come giocare sullo scivolo, prendere un tè con i peluche o sfogliare un libro in braccio alla mamma) in modo da associare ciò che la bimba vedeva davanti a sé con le parole rivoltele dagli adulti.
Risultati promettenti del modello di IA
I risultati dimostrano che il modello di IA è riuscito a imparare la mappatura parola-oggetto presente nell’esperienza quotidiana della bambina; è stato inoltre capace di generalizzare i concetti oltre gli specifici oggetti visti durante l’addestramento e di allineare le loro rappresentazioni visive e linguistiche.
Ricercatori
Secondo i ricercatori, il modello (con input sensoriali limitati e meccanismi di apprendimento relativamente generici) fornisce una base computazionale per studiare come i bambini acquisiscono le loro prime parole e come tali parole possono essere associate a ciò che vedono.