Quando le Gen AI inciampano: 2 casi di errore con compiti in apparenza banali
Le Generative AI (Gen AI) sono modelli di intelligenza artificiale all’avanguardia che promettono di rivoluzionare il modo in cui creiamo e interagiamo con i contenuti. Tuttavia, nonostante i recenti progressi, queste tecnologie possono ancora commettere errori, anche con compiti apparentemente semplici. In questo post, esamineremo due casi in cui le Gen AI possono sbagliare, nonostante il compito assegnato risulti veramente banale.
Vedremo inizialmente due esempi concreti in cui le performance delle Gen AI si dimostrano scarse, nonostante gli si dia in pasto compiti che dovrebbero essere alla loro portata. Successivamente cercheremo di comprendere il perché di tale comportamento.
Primo esempio di errore delle Gen AI: contare
Sembra strano, quasi paradossale, ma le Gen AI non sono molto brave a contare. Me ne sono accorto settimana scorsa. Avevo bisogno di controllare alcuni testi, in particolare dovevano avere una lunghezza (espressa in numero di parole) ben definita, o per lo meno non superiore ad un certo valore. Ho provato a passare diversi paragrafi, di lunghezze differenti, sia a Gemini (by Google) che a ChatGPT (by OpenAI) ed entrambe mi presentavano valori errati.
Per quello che ho potuto constatare, potrebbe tranquillamente essere un caso, ChatGPT tende a sottostimare il numero di parole che compongono la frase passata, mentre Gemini tende a sovrastimarlo. La cosa più strana però l’ho notata con Gemini. Se passate a questa Gen AI il prompt “Quante parole compongono la frase: …?” Gemini svolge il compito scomponendo, inizialmente, la frase in parole e mettendole in un elenco puntato. In questa operazione però a volte conta come parole anche i simboli di punteggiatura e fornisce come numero di parole totali un numero comunque diverso da quello fornito dall’elenco puntato.
Secondo esempio di errore delle Gen AI: lettura al contrario
Ecco un altro compito, apparentemente semplice, in cui ho rilevato un errore da parte delle Gen AI. Non capita sempre, ma abbastanza spesso, soprattutto con parole che presentano fonetica o sequenze di lettere che tendono, in un certo senso, a “imbrogliare” la macchina. Provate a chiedere a Gemini di scrivere al contrario la parola “lollipop“. Io ho ottenuto risultati di questo genere: “poppillol” oppure “pippol ol lol“. Con ChatGPT i risultati sono stati simili: “poppillol“. Provate con la parola “bambino“. Le risposte che ho ottenuto sono state: “inimab“, “inabmi” oppure anche “onimbab“.
La spiegazione
Come abbiamo visto, due compiti molto semplici, ma entrambi con risultati deludenti. Viene da chiedersi come mai? In realtà la spiegazione di un tale comportamento sta nel principio stesso di funzionamento delle Gen AI. Facciamo un passo indietro e cerchiamo di capire cosa sono le Gen AI e su cosa si basano. Secondo quanto riportato da Wikipedia, le Gen AI utilizzano modelli linguistici statistici che producono dati a partire da un dataset di addestramento usato per crearli.
Più formalmente sono “modelli statistici di una distribuzione congiunta di una variabile osservabile e di una variabile dipendente, che nel contesto del data mining è detta variabile target“. Semplificando molto, questi modelli (i cosiddetti Large Language Models) generano un testo componendolo, parola per parola, calcolando la probabilità statistica della parola successiva, basandosi sul contesto e su quanto generato fino alla parola precedente.
Faccio un semplice esempio per chiarire. Se io inizio a scrivere la frase: “La capitale della Francia è…” e faccio continuare la composizione della stessa a una qualsiasi Gen AI, mi aspetto che la parola successiva sia Parigi. Questo avviene perché statisticamente nell’enorme mole di dati che sono stati usati per addestrare la Gen AI, Parigi avrà una percentuale di occorrenza estremamente elevata. Se invece io proseguissi la frase con “La capitale della Francia è incantevole…” e lasciassi poi continuare la Gen AI, ovviamente le probabilità che la parola successiva sia Parigi precipiterebbero, mentre aumenterebbe, ad esempio, quella che scriva “in” per continuare con “questo periodo dell’anno” oppure con “primavera” o altro ancora.
Nella spiegazione che ho dato poco sopra scrivevo sempre in termini di parole, perché il nostro modo di comporre le frasi è proprio questo: allineare una parola dopo l’altra per formare frasi di senso compiuto. Le Gen AI e i Large Language Model in particolare non “ragionano” in termini di parole, ma di “token“, dove con “token” intendiamo le unità fondamentali di informazione che vengono utilizzate per rappresentare un testo. Come le parole, ma un token può essere una singola lettera, un gruppo di lettere o anche una parte di una parola o una parola stessa.
Capite quindi come quando chiediamo di contare il numero di parole all’interno di una frase, le Gen AI non vedano le parole che compongono la frase, ma i singoli token. Di qui la ragione di questo comportamento apparentemente errato. Stessa cosa quando chiediamo a una Gen AI di scrivere al contrario una parola. Se questa parola fosse scomponibile in token con corrispondenza biunivoca uno a uno con le lettere, allora ci sarebbero ottime probabilità che il risultato finale sia quello corretto.
Diversamente, vedi i casi sopra citati, il risultato potrebbe anche essere corretto, ma verosimilmente sarà abbastanza imprevedibile. Nello specifico caso della parola bambino ciò che, per così dire, manda in confusione la Gen AI, credo sia l’accoppiata “mb” che immagino venga interpretata come un unico token.
Conclusioni
Le Gen AI sono strumenti con un enorme potenziale, ma è importante essere consapevoli dei loro limiti. È fondamentale rivedere attentamente i contenuti generati dalle Gen AI e verificarne l’accuratezza e la coerenza prima di utilizzarli. In casi come questi l’errore potrebbe essere di poco conto e facilmente identificabile. Non dobbiamo dimenticare però due concetti fondamentali. Il primo è che i dati di con cui abbiamo addestrato il modello potrebbero essere viziati da bias umani, magari involontari, che potrebbero creare risposte errate o persino offensive e discriminatorie.
Il secondo è che, anche se chiamiamo questi sistemi “intelligenti”, le risposte che ci forniscono sono semplicemente il risultato di una probabilità statistica e non il frutto di un “ragionamento intelligente”. Ricordo a questo proposito che il mio professore di Statistica al Politecnico si era presentato alla prima lezione con una domanda assolutamente spiazzante: “Secondo voi, qual è la probabilità che mettendo una macchina da scrivere davanti a una scimmia, questa riesca a comporre l’opera Macbeth di Shakespeare?“.
I giornalisti di Co Notizie News Zoom lavorano duramente per informare e seguono l'evoluzione di ogni fatto. L'articolo che state leggendo va, però, contestualizzato alla data in cui è stato scritto. Qui in basso c'è un libero spazio per i commenti. Garantisce la nostra libertà e autonomia di giornalisti e il vostro diritto di replica, di segnalazione e di rettifica. Usatelo!Diventerà un arricchimento della cronaca in un mondo governato da internet, dove dimenticare e farsi dimenticare è difficile, ma dove la verità ha grande spazio.
Interessante come articolo. Anch’io uso molto l’AI e mi sono accorto che le risposte alle domande non sono di qualità. Lui risponde in base alla statistica dei dati che ha e non in base alla veridicità
Esatto. Le Gen AI sono uno strumento estremamente potente, ma l’apporto “umano” resta sempre fondamentale. Di fatto, ogni singola frase è una probabilità statistica. Grazie per il commento Flavio.