Perché una mucca che cade in sogno mi ha fatto ripensare all'intelligenza artificiale

Qualche notte fa ho fatto un sogno stupido. Una mucca cercava di scalare una montagna, a un certo punto perdeva l’appiglio e rotolava giù lungo il pendio. Niente di memorabile, se non per un particolare: la caduta era riconoscibile. Il peso dell’animale, il modo in cui il corpo scivolava e rimbalzava, la traiettoria. Tutto sembrava obbedire a una logica che non avevo deciso io.

Il fatto è che non ho mai visto una mucca scalare una montagna, e tanto meno precipitare da un costone. Quella scena non esisteva nella mia memoria. Eppure il cervello l’ha montata nel dettaglio, di notte, senza chiedermi il permesso.

Da lì è partita una domanda che mi è rimasta addosso per giorni, e che a un certo punto ha smesso di parlare di mucche e ha iniziato a parlare di intelligenza artificiale.

Il cervello non è una videocamera

Vale la pena chiarire subito una cosa, perché è facile prenderla per il verso sbagliato. Non sto dicendo che i sogni rispettino la fisica. I sogni la violano di continuo: si vola, si cade senza mai toccare terra, le stanze cambiano forma mentre le attraversi. Chiunque abbia sognato lo sa.

La cosa interessante non è la fedeltà fisica. È un’altra: una scena che non ho mai visto risulta comunque coerente. Il cervello prende il concetto di mucca, il concetto di montagna e il concetto di caduta, li combina e produce una simulazione che sta in piedi, almeno per i pochi secondi in cui dura il sogno.

Questo succede perché quando osserviamo il mondo non registriamo immagini come farebbe una telecamera. Costruiamo di continuo un modello interno della realtà. Nel corso della vita vediamo migliaia di oggetti cadere, persone perdere l’equilibrio, liquidi scorrere, corpi urtarsi. Da tutta questa esperienza emerge una specie di fisica intuitiva che usiamo senza accorgercene. Non conosciamo le equazioni di Newton, ma sappiamo che una palla lanciata in alto tornerà giù e che qualcosa che perde l’equilibrio tende a cadere.

Nel sogno il cervello continua a girare quel modello. Non recupera un video archiviato. Genera. La mucca che cade è una combinazione nuova di pezzi vecchi, e il modello interno fa il resto.

In un certo senso, il sogno è una simulazione.

Gli errori che le AI fanno e noi no

Questo mi ha portato dritto alle AI generative, perché è proprio qui che si vede la differenza.

Per anni il modo più rapido per smascherare un’immagine generata era guardare le mani. Sei dita, dita che si fondono, anelli che spuntano dal nulla. Oggi quel trucco funziona molto meno: i modelli di immagini sono migliorati al punto che la singola foto statica regge quasi sempre.

Il punto debole si è spostato sul movimento. Guardate un video generato con attenzione e iniziano i problemi seri: oggetti che spariscono dietro un altro e ricompaiono diversi, liquidi che si comportano in modo sbagliato, un piede che poggia su una superficie e affonda di un centimetro, due corpi che entrano in contatto senza che il contatto significhi davvero qualcosa. La fisica statica è risolta. La fisica dinamica, quella che richiede di seguire un sistema nel tempo, no.

E secondo me la ragione è esattamente la stessa che rende credibile la mucca.

Questi modelli imparano da immagini e video. Ne vedono miliardi, ma non vivono nel mondo. Non hanno mai afferrato un oggetto, non hanno mai perso l’equilibrio, non hanno mai fatto esperienza del peso o dell’inerzia.

Possono imparare benissimo come appare una caduta. Cosa significhi cadere è un’altra storia.

È una distinzione sottile ma è il cuore di tutto.

La fisica si impara sbagliando

Un bambino non impara la fisica leggendo un manuale. La impara facendo danni. Lascia cadere le cose, sbatte contro i mobili, corre, inciampa, si rialza. Ogni errore aggiorna il modello interno del mondo.

Per questo diversi ricercatori sostengono che, per arrivare a un livello di comprensione più profondo, i sistemi futuri dovranno fare qualcosa di più che guardare dati. Dovranno interagire con un ambiente, fisico o simulato che sia. In altre parole, dovranno avere una forma di esperienza. È più o meno la linea di chi, come Yann LeCun, lavora da anni sui world models e ripete che il linguaggio da solo non basta a costruire un modello del mondo solido come il nostro.

Tengo questa idea da parte, perché tra un attimo torna utile dall’altro lato del ragionamento.

E qui arriva il pappagallo

A questo punto scatta l’obiezione che tutti conoscono. Un modello linguistico, in fondo, fa una cosa sola: prende un testo e predice la parola successiva. Da qui nasce l’accusa di pappagallo stocastico, formulata nel 2021 da Emily Bender e colleghi: se un sistema si limita a fare previsioni statistiche sulla forma del linguaggio, non sta ragionando, sta solo ricombinando ciò che ha già visto.

Come critica a certe narrazioni gonfiate sull’AI, l’argomento è sano e va preso sul serio. Il problema è che, se lo guardi bene, taglia più in profondità di quanto vorresti.

Perché anche il cervello, in buona parte, sembra funzionare per previsione. Le teorie del predictive processing, da Andy Clark a Karl Friston, descrivono il cervello come una macchina che cerca continuamente di anticipare: cosa vedrà tra un istante, dove sarà un oggetto, cosa farà la persona davanti a te, quale sarà la conseguenza di un gesto. Quando sogno la mucca che cade, il cervello sta prevedendo l’evoluzione della scena fotogramma dopo fotogramma. Non risolve le equazioni della dinamica. Predice. Eppure quella cosa lì la chiamiamo simulazione mentale, o immaginazione.

Allora la domanda diventa scomoda. Se il cervello costruisce modelli del mondo attraverso la previsione, perché un sistema artificiale che costruisce modelli attraverso la previsione non dovrebbe poter sviluppare qualche forma di ragionamento?

Faccio un’analogia, con la dovuta cautela. Un aereo vola grazie a una turbina. Dire un aereo non vola, gira soltanto una turbina sarebbe tecnicamente vero e concettualmente inutile. La turbina è il meccanismo locale, il volo è il comportamento che emerge. Allo stesso modo, un modello predice la parola successiva è il meccanismo locale. Il ragionamento, se c’è, sarebbe il comportamento emergente che nasce da miliardi di predizioni integrate in una struttura coerente.

L’analogia regge contro lo slogan, non lo nego. Ma dimostra una cosa sola: che il meccanismo non coincide con il comportamento. Non dimostra che il comportamento ci sia davvero. Quella è una questione separata, e su quella conviene essere onesti.

Dove l’obiezione ha ragione

Dietro lo slogan c’è un argomento serio, ed è il problema del grounding. Bender lo aveva illustrato con l’esempio di un sistema addestrato a osservare solo la forma del linguaggio, senza alcun aggancio con ciò a cui le parole si riferiscono. Per quanto bene impari a continuare le frasi, non avrebbe mai un modo per collegarle al mondo. Imiterebbe la comprensione senza averla.

Questa critica è vera, ed è proprio la ragione per cui il senso fisico di un modello puramente linguistico resta molto più debole del nostro. Il cervello costruisce il suo modello del mondo attraverso vista, udito, tatto, movimento, esperienza del corpo. Un modello linguistico costruisce il suo soprattutto a partire dal linguaggio. Sono due basi diverse, e si vede.

Però c’è un dettaglio che complica il quadro. Per prevedere bene il linguaggio devi modellare, almeno in parte, ciò che il linguaggio descrive: persone, intenzioni, relazioni causali, un po’ di logica, un po’ di fisica, dinamiche sociali. Non perché qualcuno te lo abbia insegnato in modo esplicito, ma perché il testo è pieno di tracce di tutto questo.

Imparare a prevedere il futuro di qualcosa, in pratica, costringe a costruire un modello di quel qualcosa.

E qui non siamo nel campo delle opinioni. C’è un esperimento che mi ha colpito: hanno addestrato un piccolo modello solo su sequenze di mosse del gioco dell’Othello, senza mai mostrargli una scacchiera. Andando a sondare le sue rappresentazioni interne, si è scoperto che dentro aveva ricostruito lo stato della scacchiera, caselle occupate comprese, pur non avendone mai vista una. Una rappresentazione interna del mondo emersa dal solo compito di prevedere la mossa successiva.

Sarebbe comodo chiudere qui, ma sarebbe disonesto. Gli stessi modelli mostrano fragilità che un vero modello del mondo non dovrebbe avere: imparano un fatto in una direzione e non lo sanno usare in quella inversa, si appoggiano a scorciatoie statistiche, sbagliano in modi che tradiscono l’assenza di una comprensione stabile.

La verità non sta nei due estremi, lookup table da una parte e mente dall’altra. Sta in mezzo, su un continuum, ed è esattamente lì che si gioca il dibattito vero.

E se un giorno avessero un corpo

Da qui la riflessione scivola, quasi per forza, verso il terreno filosofico.

Se un sistema avesse un corpo, sensori, memoria, obiettivi e la capacità di costruire un modello di sé e dell’ambiente, potrebbe sviluppare qualcosa che assomiglia alla coscienza?

Non lo so, e diffido di chi risponde con sicurezza in un senso o nell’altro. Oggi le AI non sono coscienti. Generano testo, immagini e codice, ma non esiste alcuna prova che abbiano un’esperienza soggettiva. La domanda però resta aperta, e non in modo banale: se gran parte della nostra comprensione del mondo nasce dallo scambio continuo tra cervello e corpo, allora forse il salto verso sistemi più avanzati non passa solo da modelli più grandi, ma anche dalla possibilità di abitare e mettere alla prova un ambiente.

Una domanda nata da una mucca

Mi piace che tutto questo sia partito da una scemenza. Come fa una mucca a cadere in modo credibile dentro un sogno che non ha alcun senso?

La risposta, credo, è che il cervello non immagina semplicemente delle immagini. Simula dei mondi. E forse il vero salto che l’intelligenza artificiale dovrà compiere nei prossimi anni non sarà generare immagini più belle o codice migliore, ma costruire modelli del mondo sempre più simili a quelli che noi usiamo senza nemmeno accorgercene.

Resta il punto da cui sono partito, e mi pare il più solido di tutti. La mucca che cade nel sogno e il modello che predice la parola successiva sembrano due fenomeni lontanissimi, eppure suggeriscono la stessa idea: prevedere non è necessariamente l’opposto del comprendere. In molti casi comprendere potrebbe essere proprio la capacità di prevedere bene come evolverà un sistema. La domanda interessante non è se un’AI predice, perché anche il cervello lo fa di continuo. La domanda è quanto ricco, profondo e radicato nella realtà diventi il modello che quella previsione costruisce nel tempo.

La prossima volta che farò un sogno assurdo, probabilmente starò meno attento alla scena e più attento alle regole che la governano. Certe volte sono proprio quelle regole a dirci qualcosa di interessante su come funziona la mente. E, forse, su cosa manca ancora alle macchine per avvicinarvisi.