Tra compressione e comprensione le macchine rubano il linguaggio ma perdono il significato

È ancora fresca la news che Microsoft ha rilasciato la nuova versione del motore di ricerca Bing che avrà come base la piattaforma di proprietà dell’innovativa OpenAI ChatGPT e iniziando, di fatto, una guerra frontale con il colosso delle ricerche on-line come Google. Il tutto, quando è appena iniziata una delle cause legali più importanti in fatto di intelligenze artificiali, quella di un collettivo di artisti contro varie piattaforme di creazione di immagini sintetiche, i cui esiti forgeranno il futuro del copyright.

Sono ormai milioni gli utenti, non necessariamente esperti del settore che, ormai, usano abitualmente – e consapevolmente – i servizi offerti dalle varie piattaforme governate da intelligenze artificiali mai così efficaci, facili da utilizzare e… simpatiche. Già, ricordiamoci cosa voglia dire la parola “simpatia” dal greco sympátheia, composto di syn “con” e pathos “sensazione, emozioneuna delle più belle “disposizioni d’animo” umane che, mai fino a oggi, avremmo potuto attribuire a una macchina. E invece, quando abbiamo a che fare con questi nuovi modelli di intelligenze artificiali è proprio questo che ispirano: simpatia, per i modi in cui ci accolgo, per i tempi con cui ci rispondono (praticamente subito) e per la mole di informazioni che ci forniscono (praticamente il mondo) e il tutto con pochissime parole. Sull’argomento si è persino scomodato uno dei più grandi linguisti viventi come Noam Chomsky che, in questo articolo, dal titolo piuttosto emblematico ” ChatGPT è un JPEG sfocato del Web” fa un’analisi piuttosto caustica sul presente e sul modo in cui, oggi, le intelligenze artificiali “rigurgitano” testo senza capirlo. Una tendenza che, se le intelligenze artificiali continueranno a evolversi così velocemente, ben presto sarà un argomento del passato.

Come siamo arrivati a questo

In un bellissimo articolo del Newyorker a opera di uno degli scrittori di fantascienza più talentuosi di oggi Ted Chiang autore, fra gli altri, di un racconto che è stato trasposto sullo schermo con il titolo Arrival da Denis Villeneuve. Chiang, oltre a essere uno scrittore di bestseller è anche uno stimato redattore tecnico nell’industria del software e quindi sa di cosa sta parlando. 

Nel suo articolo parte con l’esempio di una bizzarra stampante Xerox che, nel 2013 i lavoratori di una società di costruzioni tedesca usavano per fare le fotocopie delle planimetrie di una casa. A una prima occhiata, quelle che uscivano dalla macchine erano semplici fotocopie ma, a un’occhiata più attenta, differivano dall’originale in modo sottile ma significativo: non erano la copia fedele del documento originale. Questo perché la scansione digitale usava un vecchio algoritmo di compressione, il jbig 2, progettato per l’uso con immagini in bianco e nero. Per risparmiare spazio, la fotocopiatrice identifica le aree dell’immagine dall’aspetto simile e memorizza una singola copia per tutte; quando il file veniva decompresso, usava ripetutamente quella copia per ricostruire l’immagine. il motivo di questa incongruenza era che l’algoritmo di compressione non comprendeva l’importanza di ciò che stava riproducendo. Il risultato finale era una planimetria simile all’originale ma non utilizzabile per un lavoro professionale e preciso.

Ed è esattamente quello che sta accadendo oggi dove, anche le parole che gli esseri umani usano nel loro linguaggio, vengono assimilate, catalogate e quantificate in quelle che i ricercatori di intelligenza artificiale chiamano modelli di linguaggio di grandi dimensioni.

“Questa analogia con la compressione con perdita non è solo un modo per comprendere la facilità di ChatGPT nel riconfezionare le informazioni trovate sul Web utilizzando parole diverse.” Scrive Chiang “È anche un modo per comprendere le “allucinazioni”, o risposte prive di senso a domande fattuali, a cui i grandi modelli linguistici come ChatGPT sono fin troppo inclini. Queste allucinazioni sono artefatti di compressione, ma, come le etichette errate generate dalla fotocopiatrice Xerox, sono così plausibili che, per identificarle, è necessario confrontarle con gli originali, che in questo caso significa o il Web o la nostra stessa conoscenza del mondo. Quando li pensiamo in questo modo, tali allucinazioni sono tutt’altro che sorprendenti; se un algoritmo di compressione è progettato per ricostruire il testo dopo che il novantanove per cento dell’originale è stato scartato.”

In parole povere, le “allucinazioni” di cui parla Chiang non sono la realtà di partenza (un linguaggio, un’immagine, un suono) ma una ricostruzione statistica e senza alcuna comprensione di senso dell’originale. Perduto quello, ciò che rimane è una mera interpretazione, più o meno affidale in senso meramente statistico. La “perdita” dell’informazione originale non è altro che un’interpretazione che non tiene conto del senso di qualcosa e che, statisticamente parlando, è irrilevante. 

“Dato che i modelli di linguaggio di grandi dimensioni come ChatGPT sono spesso esaltati come l’avanguardia dell’intelligenza artificiale,” continua Chiang, “può sembrare sprezzante, o riduttivo, descriverli come algoritmi di compressione del testo con perdita. Penso che questa prospettiva offra un utile correttivo alla tendenza ad antropomorfizzare i grandi modelli linguistici.”

Tra significanze e significati che le macchine non capiscono

Quando hai a disposizione una mole di informazioni così ampia (in internet c’è tutto) non è difficile costruire dei modelli statistici che possano rispondere in modo plausibile a una domanda. Ted Chiang analizza anche questo aspetto.

“I modelli linguistici di grandi dimensioni identificano le regolarità statistiche nel testo. Qualsiasi analisi del testo del Web rivelerà che frasi come «l’offerta è bassa» spesso appaiono in prossimità di frasi come «i prezzi salgono». Un chatbot che incorpora questa correlazione potrebbe, quando viene posta una domanda sull’effetto della carenza di offerta, rispondere con una risposta sull’aumento dei prezzi. Se un modello linguistico di grandi dimensioni ha compilato un vasto numero di correlazioni tra termini economici, così tante da poter offrire risposte plausibili a un’ampia varietà di domande, dovremmo dire che comprende effettivamente la teoria economica?” 

La risposta è, ovviamente no. Ed è questa la grande sfida del futuro. le prossime AI dovranno essere efficaci su due versanti: il primo sulla compressione di informazioni che dovranno gestire per poter offrire, praticamente in tempo reale, la risposta cercata. Che sia Un testo, un’immagine o una canzone, i tempi di accesso a una enorme mole di informazioni, interpolazioni e interpretazioni statistiche dovranno necessariamente migliorare. Ma la vera sfida è il secondo versante: quello della comprensione. Ed è su questo che si giocherà la partita del futuro. 

Oggi, per fortuna (lo pensano in molti) i risultati che escono dalle macchine sono principalmente derivativi e non creativi ma mettono comunque in discussione in nostro concetto di arte perché, come le fotocopie bizzarre di quella Xerox, a prima vista sembrano ineccepibili. Chi troverà il modo di “far capire” ciò che le macchine scrivono avrà le chiavi del futuro e, con esse, anche il destino dell’umanità come lo conosciamo oggi.

Il senso dell’arte e la creazione di epigoni sintetici

Interrogandoci sul senso della parola arte umana, però non possiamo che considerarla per quello che è: una manipolazione della realtà. Un atto “innaturale” perpetrato coscientemente è sistematicamente dall’essere umano. Un atto che ha come obiettivo la modifica, spesso radicale, della visione della realtà. Questo modifica percettiva, per l’artista, ha il compito di far evolvere la cultura umana, arricchendola di significanze che, prima dell’opera, non erano nemmeno immaginabili. La prova di questo assunto è che tantissimi artisti che oggi riteniamo grandi non vennero capiti dai loro contemporanei. L’arte riprodotta dagli epigoni di un artista è “scuola”. Tali figure artistiche successive possono, pedissequamente, portare avanti l’opera dell’artista di riferimento (e quindi trasformandosi in meri messaggeri di un’idea già espressa che merita però di essere ribadita) o portarla oltre i suoi limiti, trasformando così l’idea iniziale in qualcosa di nuovo che porta con sé anche una nuova progressione culturale.

Esattamente quello che che stiamo insegnando a fare alle macchine, i nostri nuovi epigoni. Riusciranno a “capire” questo grande dono? Per rispondere a questa domanda dobbiamo prima chiederci se saremo stati dei buoni insegnanti. Mancando da quasi un secolo delle vere avanguardie artistiche, le intelligenze artificiali potrebbero plasmare un nuovo immaginario. Sperando che non sia sfocato, per il momento, il futuro è un posto straordinario da vivere oggi. Cerchiamo di ricordarcelo.

Published by
Gero Giglio