Yann LeCun sostiene che gli LLM siano utili ma non bastino per l’intelligenza generale, e spiega perché punta su world model, open model e nuove architetture.
LeCun apre con una formula brutale: i modelli di linguaggio sono utili, ma non sono la strada verso l’intelligenza generale. Da lì costruisce tutto il resto, dalla nuova società AMI Labs ai world model, fino al suo addio a Meta. Il suo punto è semplice e insieme controverso: se un sistema non sa prevedere le conseguenze delle proprie azioni, non sta davvero pensando. Per questo, dice, il futuro non sta nel generare token, ma nel costruire modelli del mondo.
LeCun parte da una linea netta, quasi provocatoria: i modelli di linguaggio sono già prodotti utili, ma non sono la strada verso un’intelligenza umana o animale. La tesi gli serve per spostare subito la conversazione dal successo industriale degli LLM alla domanda che, per lui, conta davvero: cosa manca perché una macchina capisca il mondo reale.
Non c’è nulla di sbagliato negli LLM nel senso che sono la base di molti prodotti di AI molto utili che usiamo tutti, me compreso. Sono ottimi per quello che fanno, ma non sono una via verso un’intelligenza a livello umano o simile all’umano, o persino all’animale.
Il mondo reale? Il mondo reale è molto più complicato del linguaggio, perché è ad alta dimensionalità, continuo, rumoroso, disordinato. Addestrare un sistema a capire il mondo reale è molto, molto più difficile.
La distinzione che propone è semplice e anche strategica. AMI, dice, significa advanced machine intelligence e porta come motto “AI for the real world”: non testo, non codice, ma sistemi capaci di trattare il fisico, il continuo, il rumoroso. Da qui il passaggio dai token ai world model, cioè modelli che non si limitano a generare risposte, ma cercano di rappresentare le conseguenze delle azioni.
AMI sta per advanced machine intelligence. Il sottotitolo, il motto se vuoi, è AI for the real world.
La realtà è molto più complicata del linguaggio. È ad alta dimensionalità, continua, rumorosa, disordinata.
LeCun sposta il confronto da un terreno familiare, i testi, a uno più scomodo: il mondo fisico. Per lui il punto non è che i modelli generativi non servano, ma che la strada verso l’intelligenza passi da sistemi capaci di , non di ricostruire pixel o token. È qui che colloca e, più in generale, le architetture non generative che hanno segnato il lavoro di Meta e poi di AMI Labs.
I modelli generativi che predicono i pixel, per me, sono stati un vicolo cieco. Tutte le architetture riuscite per imparare rappresentazioni di immagini e video sono non generative.
Se hai la capacità di prevedere le conseguenze delle tue azioni, allora puoi pianificare una sequenza di azioni per raggiungere un obiettivo. Non lo fai prevedendo un’azione dopo l’altra in modo autoregressivo.
La sua tesi è che la mente non ragioni al livello del dettaglio, ma a un livello di rappresentazione astratto. L’esempio della bottiglia d’acqua è il più chiaro: si può immaginare che cada, scivoli o si rovesci, ma non si può prevedere con precisione ogni pixel del movimento. Da qui LeCun ricava una gerarchia semplice, che per lui spiega perché i modelli visivi di successo abbiano imparato a comprimere e rappresentare, non a copiare il mondo.
LeCun racconta di essere arrivato a questa conclusione dopo anni di tentativi falliti con i metodi generativi classici, dagli autoencoder ai masked autoencoder, fino al progetto a Fair. Il pattern, dice, era sempre lo stesso: qualcosa si otteneva, ma il risultato restava deludente rispetto alle aspettative. La svolta, per lui, è arrivata con i metodi a embedding congiunto, dove si corrompe l’input e si chiede al sistema di predire la rappresentazione dell’originale, non i suoi pixel.
Il progetto MAE è stato molto deludente. C’era molta competizione e il risultato non era davvero soddisfacente.
Le tecniche di architettura a embedding congiunto hanno finito per funzionare molto meglio per rappresentare immagini e video.
La promessa, per Yann LeCun, non sta nei robot che imitano bene un gesto già visto. Sta nei sistemi che sanno , e che quindi si spostano da un compito all’altro senza essere rieducati ogni volta. È qui che la sua critica all’imitation learning diventa anche una critica economica: se ogni nuova abilità richiede montagne di dati, la robotica resta un mestiere costoso, fragile, quasi artigianale.
Ciò che serve è la generalizzazione. Il grado di generalizzazione che avresti con un sistema basato su un world model è molto, molto più ampio di un sistema addestrato con imitation learning e fine tuning.
LeCun contrappone a quel modello la logica del : un sistema che prevede l’esito di un’azione e poi pianifica, invece di reagire per somiglianza. La distinzione conta perché sposta il centro di gravità dal dato dimostrativo alla capacità di inferenza, cioè dalla raccolta di esempi alla costruzione di una rappresentazione del mondo. In questa lettura, la vera barriera non è far muovere un robot una volta, ma farlo adattare a un compito nuovo senza un nuovo ciclo di addestramento.
Noi siamo capaci di farlo con una quantità piccola di dati o con nessun dato di addestramento, e solo un po’ di fine tuning in stile reinforcement learning. È questo il problema: l’efficienza dei dati.
Qui LeCun spinge oltre l’argomento tecnico e lo porta sulla robotica domestica e sull’industria. Dice che oggi nessuna azienda sa ancora costruire robot davvero utili, neppure in fabbrica, se non su un numero ristretto di gesti appresi per imitazione. Per lui il punto non è moltiplicare dimostrazioni o video sintetici, ma arrivare a macchine che apprendano con la rapidità di un adolescente al volante, perché solo lì la robotica smette di dipendere da raccolte dati interminabili.
Dove è il tuo robot domestico? Dove è la tua auto a guida autonoma di livello cinque? Nessuna di queste aziende sa davvero come renderli abbastanza intelligenti da essere utili.
Il passaggio all’industria allarga ancora il campo. LeCun elenca jet engine, impianti chimici, centrali elettriche, linee di produzione, pazienti e cellule umane come sistemi troppo complessi per essere descritti con poche equazioni; in questo scenario, il modello neurale diventa una specie di surrogato fenomenologico che impara la dinamica dai dati e poi consente controllo e previsione. È una visione potente, ma anche molto ambiziosa: sposta l’intelligenza artificiale dalla lingua e dalle immagini verso la manutenzione delle infrastrutture che reggono il mondo materiale.
Per LeCun, la vera posta in gioco non è solo tecnica ma anche politica: se l’AI diventa la principale interfaccia con il mondo, lasciarla nelle mani di poche aziende significa importare le loro lingue, i loro valori e i loro limiti. , ha spiegato, nasce proprio come risposta a quel rischio, con l’idea di un modello aperto che ogni paese o comunità possa adattare senza consegnare i propri dati a un attore esterno. In questa lettura, la sovranità non è uno slogan, ma la condizione per non dipendere da una delle due grandi potenze digitali.
Se sei qualcuno fuori dagli Stati Uniti o dalla Cina, e il tuo assistente AI è stato costruito in California o a Pechino, non è buono per te.
La soluzione è una piattaforma aperta, un foundation model in stile LLM che chiunque possa rifinire per adattarlo a una lingua, una cultura, un sistema di valori, dei pregiudizi politici, qualsiasi cosa.
LeCun lega a un mutamento d’uso già in corso: meno motori di ricerca tradizionali, più assistenti che filtrano quasi tutto ciò che leggiamo e chiediamo. Se quella mediazione diventa la norma, dice, il problema non è più solo l’efficienza del modello, ma chi decide cosa entra nel flusso informativo di un cittadino in India, in Marocco o in Francia. Per questo insiste su una piattaforma internazionale che raccolga conoscenza e cultura senza obbligare i partecipanti a cedere il controllo dei propri dati.
I contributori contribuirebbero con dati e risorse di calcolo, ma manterrebbero il controllo sui loro dati. Non dovrebbero condividere quei dati con gli altri contributori.
Sei un paese che non è né gli Stati Uniti né la Cina e vuoi un certo livello di sovranità per l’AI, non solo per la tua industria ma anche per i cittadini.
La frattura, qui, non passa tra ottimisti e pessimisti sull’AI, ma tra due idee diverse di rischio. Yann LeCun sostiene che il vero problema degli LLM non sia quanto siano spaventosi, bensì quanto siano fragili per costruzione: possono sembrare utili finché restano dentro compiti stretti, ma non offrono, a suo dire, il tipo di controllo necessario per un sistema che agisce nel mondo. È la linea che lo separa da Geoffrey Hinton e da chi ha letto GPT-4 come una soglia quasi antropologica.
Nel 2023. Non ho cambiato idea, sono stati loro a cambiare idea.
LeCun ricostruisce la spaccatura come una reazione a GPT-4. Hinton, dice, avrebbe visto in quei sistemi qualcosa di vicino all’intelligenza umana, persino una possibile esperienza soggettiva; LeCun legge invece quella svolta come un abbaglio, o come un cambio di cornice che confonde capacità impressionanti con comprensione. Il punto non è solo tecnico, è epistemologico: per lui l’LLM resta un sistema che risponde bene a prompt già familiari, non una mente che sa cosa sta facendo.
I LLM sono intrinsecamente insicuri. Non penso che possano essere resi affidabili e sicuri.
Qui LeCun alza il tiro. Non dice soltanto che gli LLM sbagliano, dice che non possono essere resi affidabili perché non sanno prevedere le conseguenze delle proprie azioni, e quindi non possono garantire un comportamento coerente quando diventano agenti. La sua critica è più dura della classica obiezione sulle allucinazioni: per lui il difetto non è un bug da correggere, è un limite strutturale del paradigma.
A Meta, LeCun racconta di aver visto per anni due aziende nella stessa azienda. Da una parte c’era FAIR, un laboratorio che produceva idee, strumenti e persone; dall’altra c’era il motore industriale che, con l’arrivo di GenAI e poi della corsa agli LLM, cominciò a vivere di tempi più stretti e obiettivi più difensivi. Il suo racconto non è quello di un addio improvviso, ma di una separazione lenta tra ricerca e prodotto, tra ambizione scientifica e pressione organizzativa.
Il nostro obiettivo era sempre costruire sistemi intelligenti. Io avevo messo tra parentesi la mia ricerca mentre guidavo FAIR, poi ho pensato che fosse importante progettare l’architettura di sistemi di IA di livello umano.
Il passaggio alla sanità gli serve per mettere alla prova la sua tesi: gli LLM, dice, possono essere utili quando il problema è riassumere conoscenza o imitare il meglio della pratica esistente, ma si fermano davanti ai casi che dipendono da una dinamica fisica o biologica da capire davvero. Per questo sposta l’esempio dal medico al paziente, e poi alla cellula, dove il punto non è ripetere ciò che si è letto in un libro, ma prevedere come cambiare uno stato del mondo.
Se sto vedendo un paziente, può essere una cellula. Come si fa a dire a una cellula staminale di diventare una beta cellula del pancreas che produce insulina? Hai un paziente con diabete di tipo 1 e il suo sistema immunitario, in pratica, mangia le proprie beta cellule. Come fai a continuare a produrne?
LeCun concede che la parte iniziale di FAIR è stata una storia di successo quasi scolastica: un laboratorio capace di produrre PyTorch *, di diffondere metodi e persone, di tenere insieme curiosità scientifica e utilità per il resto dell’industria. Poi però descrive il punto in cui, a suo dire, il meccanismo si inceppa: quando un’organizzazione di ricerca resta troppo lontana dal prodotto, le idee non vengono raccolte; quando si avvicina troppo al prodotto, si irrigidisce.
Abbiamo perso quella struttura. FAIR è diventato sostanzialmente isolato dentro l’azienda, con molte idee che nessuno riprendeva.
Per LeCun, il nodo non è più se la self-supervised learning funzioni. Il nodo è come evitarne il collasso quando smette di lavorare su simboli discreti e prova a tenere dentro il mondo reale. Per questo, dice, la prossima svolta non verrà dai token, ma da rappresentazioni stabili, capaci di portare informazione utile senza ridursi a una soluzione costante.
Un LLM funziona perché, quando hai una sequenza di simboli discreti, fare previsioni è facile. Nel mondo reale, non puoi usare un modello generativo, quindi devi addestrare un sistema che impari una rappresentazione e faccia previsioni nello spazio delle rappresentazioni.
La grande questione della self-supervised learning per JEPA è come impedire il collasso. Se vuoi massimizzare il contenuto informativo in uscita da una rete neurale, devi poterlo misurare o almeno avere un limite inferiore, e noi abbiamo solo limiti superiori.
A quel punto LeCun sposta il baricentro sui metodi che, a suo dire, stanno davvero facendo avanzare il campo. Rilegge la storia della self-supervised learning come una lunga ricerca di modi per prevenire il collasso: prima il contrastive learning, poi i metodi di distillazione, oggi i regolarizzatori espliciti. Il suo giudizio è prudente e insieme selettivo: alcune strade funzionano, ma non sempre sa spiegare perché.
Il contrastive learning funziona, ma non scala con la dimensione. Ci sono poi i metodi di distillazione, che impediscono il collasso, ma non sappiamo perché.
Il sigreg è davvero promettente, in mia opinione. Forza la distribuzione delle variabili in uscita dall’encoder a essere approssimativamente gaussiana, ed è un modo molto diverso di farlo rispetto ai lavori di Schmidt, Becker o Hinton.
Perché LeCun critica gli LLM?
Secondo LeCun, gli LLM sono ottimi per lingua e codice, ma non sanno prevedere le conseguenze delle loro azioni. Per questo li considera inadatti all’intelligenza generale e alla robotica affidabile.
Che cos’è AMI Labs?
AMI significa advanced machine intelligence. LeCun la descrive come una società dedicata a un’AI per il mondo reale, basata su world model e nuove architetture, non sulla sola generazione di testo.
A cosa serve Tapestry?
Tapestry è la sua proposta per un modello aperto, globale e fine-tunabile localmente. L’idea è dare a paesi e comunità controllo sui dati e sulla cultura che un assistente AI rappresenta.
Perché ha lasciato Meta?
LeCun dice che Meta aveva spostato il focus quasi interamente sugli LLM, rendendo meno centrale la ricerca esplorativa su cui stava lavorando. A suo avviso, non era più il posto giusto per spingere quei progetti.
Cosa pensa della sicurezza degli LLM?
LeCun li considera intrinsecamente insicuri perché possono allucinare e, se resi agentici, possono compiere azioni senza prevederne bene gli effetti. Sostiene che servano sistemi con obiettivi e vincoli espliciti.
Sintesi assistita dall'AI del podcast di Unsupervised Learning: With Jacob Effron, verificata sulla trascrizione originale.
L’analogia con Linux è utile ma incompleta. Il software infrastrutturale si è aperto perché gli incentivi economici erano chiari e l’interoperabilità premiava tutti, mentre i modelli fondativi restano legati a costi elevati, dati sensibili e cicli di aggiornamento rapidi. La storia mostra che l’apertura vince spesso, non sempre, e soprattutto non automaticamente nelle fasi iniziali di un mercato.
Il coding è qualcosa in cui puoi verificare che il codice generato soddisfi la specifica. Ma non tutto è coding.
45:40
Le persone migliori sono quelle che sanno fiutare cosa vale la pena fare, tu dai loro i mezzi per riuscirci e poi ti togli dai piedi.
1:00:09