Radio. Nature, I.A. batte umani in poesia. Domanda spontanea: siamo sicuri che il pubblico, qualche volta, non la preferirebbe anche in radio?

Stampa 🖨

Un inquietante studio della prestigiosa rivista Nature porta a riflettere sulla possibilità che (a breve) il pubblico potrebbe preferire la conduzione radiofonica artificiale rispetto a quella umana.
Già oggi, secondo Nature, le poesie generate dalle Intelligenze Artificiali sono preferite dal pubblico dei lettori medi rispetto a quelle che portano la firma di un autore umano.
Analizziamo in questo articolo lo studio, avanzando, qualche ipotesi relativamente a contenuti più comuni ed importanti nei campi musicale e radiofonico, sulla scorta di una semplice domanda: siamo sicuri che il pubblico non apprezzerebbe maggiormente una conduzione artificiale piuttosto che quella, spesso banale, di alcuni conduttori umani?

Sintesi

Un recente studio pubblicato su Nature ha dimostrato che le poesie generate dall’intelligenza artificiale (I.A.) – nello specifico GPT 3.5 – non solo sono indistinguibili da quelle scritte da poeti umani, ma anche giudicate più favorevolmente dai lettori.
L’esperimento ha coinvolto “lettori non esperti”, che hanno valutato poesie di autori celebri come Shakespeare, Whitman e Dickinson accanto a testi generati dall’I.A., senza riuscire a identificarne l’origine: con una precisione del 46,6% (inferiore al caso di specie), hanno spesso attribuito alle poesie di matrice non umana qualità superiori in termini di ritmo, bellezza e capacità emotiva.
Questo risultato, ottenuto con un modello di I.A. ormai obsoleto (posto che da febbraio è disponibile GPT 4.5), sottolinea il potenziale dell’intelligenza artificiale in ambiti creativi.
Le implicazioni dello studio vanno oltre la poesia, toccando settori come la musica e la comunicazione.
Nella musica, l’I.A. può generare brani rapidamente, ottimizzandoli alle tendenze e offrendo novità, come dimostrano piattaforme del tipo Jukedeck o MusicLM.
Ma qualcuno ipotizza l’uso dell’I.A. per sostituire figure quali i conduttori radiofonici impegnati in ruoli non particolarmente di spessore (cioè non personality), anche se mancano dati concreti sui comportamenti del pubblico.

Le legioni di imbecilli di Eco

Esistono i social media, che “danno la parola a legioni di imbecilli” (come scriveva Umberto Eco). Esistono i quotidiani, che spesso riportano fake news o, più semplicemente, fatti non ben compresi. Esistono i libri di testo: e poi esiste Nature.

Nature

Fondata nel 1869, Nature è una delle pubblicazioni scientifiche più prestigiose e influenti al mondo, nota per il suo ruolo centrale nella diffusione delle scoperte più significative in tutti i campi della scienza.

I.A. non distinguibile

Ebbene, proprio Nature ha pubblicato a fine 2024 un paper intitolato “AI-generated poetry is indistinguishable from human-written poetry and is rated more favorably“: le poesie generate dall’Intelligenza Artificiale sono indistinguibili da quelle scritte da esseri umani e sono valutate più favorevolmente.

Conseguenze

In questo articolo cerchiamo di approfondire la metodologia utilizzata dallo studio di Nature e immaginare le conseguenze nei vari settori di nostro interesse.

La metodologia

Nature ha condotto due esperimenti con lettori di poesia “non esperti”, dove si indicava che il 90,4% dei partecipanti aveva dichiarato di aver letto poesie saltuariamente durante l’anno e di questi il 55,8% di non avere particolare familiarità con poesie e poeti.

Primo risultato

Innanzitutto, si è appurato che i partecipanti si sono comportati al di sotto dei livelli casuali nell’identificare poesie generate dall’I.A. (precisione del 46,6%, χ²(1, N = 16.340) = 75,13, p < 0,0001).

Sotto i livelli casuali

Cerchiamo di definire meglio.
Dire che i partecipanti si sono comportati “al di sotto dei livelli casuali” significa che la loro accuratezza (in questo caso 46,6%) è stata peggiore di quella che si otterrebbe, appunto, per puro caso (a fronte di una domanda con due possibili risposte, rispondendo a caso si sarebbe nel giusto il 50% delle volte).

Impossibile distinguere I.A. da autore umano

Questo suggerisce che non solo i lettori di Nature non sono riusciti a identificare correttamente le poesie scritte dall’I.A., ma che hanno avuto una tendenza sistematica a sbagliare; ad esempio giudicando più spesso quelle di matrice artificiale come umane rispetto a quanto avrebbero fatto scegliendo a caso.

Gibberish matematico

Il lettore ci perdonerà, ma come nel caso dell’analisi dei dati TER/Audiradio riteniamo importante chiarire i termini numerici.

Questione di precisione

Precisione del 46,6% significa, come abbiamo detto, che solo il 46,6% delle loro risposte era corretto. X quadrato (in χ²(1, N = 16.340) = 75,13, P<0.0001) è un test che verifica se c’è una differenza significativa tra quello che ci si aspetta (50% di precisione) e quello che è stato rilevato (46,6%). La cifra 1 indica i gradi di libertà (solo uno, risposta sì o no) e 16.340 è il numero totale di risposte: un numero molto elevato.

La formula

Per chi volesse verificare i calcoli in prima persona la formula è:

dove nel nostro caso Osservato è 7614 (campione x numero risposte esatte) e Atteso è 8170 (50% del campione).

Risultato molto significativo

Infine P<0,0001 significa di fatto che il risultato è davvero affidabile (formalmente possiamo dire che la probabilità che non lo sia è una su 10.000, e questo si ricava da specifiche tabelle relative al test del chi-quadrato).

Lettori in errore

Detto in altre parole, i partecipanti erano più propensi a giudicare le poesie generate dall’I.A. come scritte da esseri umani rispetto alle poesie effettivamente scritte da esseri umani e giudicarle come tali.
Ma non basta.

Secondo risultato

I ricercatori hanno poi scoperto che le poesie generate dall’I.A. sono state valutate più favorevolmente per qualità come ritmo e bellezza e che questo ha contribuito alla loro errata identificazione come poesie scritte da esseri umani.

Più gradevoli le poesie scritte da GPT 3.5

In altre parole, non solo i lettori pensano che le poesie scritte dalle I.A. siano migliori di quelle prodotte dai poeti in carne ed ossa, ma aggiungono valutazioni positive specifiche sull’uso della metrica e sulla gradevolezza generale della lettura.

Criteri di valutazione

Per la valutazione sono stati usati i criteri seguenti: il ritmo, l’immaginario e il suono; la misura in cui la poesia risultava commovente, profonda, spiritosa, lirica, ispiratrice, bella, significativa e originale; e quanto bene la poesia trasmettesse un tema specifico e quanto bene comunicasse uno stato d’animo o un’emozione specifici.

Scala a 7 punti

Ognuno di questi aspetti è stato riportato su una scala a 7 punti. Il risultato è visibile nel grafico.

I.A. batte umano

Il grafico a barre non deve intimorire e il suo significato è chiaro. Prendiamo il primo parametro, la bellezza: mediamente le opere umane sono state valutate tra 3 e 5, mentre quelle IA da 4 a 6 (il massimo è 7).

Gli autori

Chi erano gli autori umani prescelti? Questo quanto affermato dai ricercatori: “Abbiamo scelto 10 poeti di lingua inglese: Geoffrey Chaucer, William Shakespeare, Samuel Butler, Lord Byron, Walt Whitman, Emily Dickinson, T.S. Eliot, Allen Ginsberg, Sylvia Plath e Dorothea Lasky.

Il target

Il nostro obiettivo era coprire un’ampia gamma di generi, stili e periodi temporali. Abbiamo raccolto un totale di 50 poesie: 5 poesie per ciascuno dei nostri 10 poeti. Le poesie sono state raccolte da mypoeticside.com, un database di poesia online.

Popolarità

Le poesie di ogni poeta sono state ordinate per popolarità; abbiamo selezionato poesie che non rientravano tra le 10 più popolari per quel poeta e che avessero una lunghezza ragionevole (meno di 30 versi)”.

CanarDab 900x1000 1 900x1000 - Radio. Nature, I.A. batte umani in poesia. Domanda spontanea: siamo sicuri che il pubblico, qualche volta, non la preferirebbe anche in radio?

GPT 3.5

Quale modello è stato utilizzato? Questo è a nostro avviso ancora più sorprendente. Continuano i ricercatori: “Abbiamo generato un totale di 50 poesie utilizzando ChatGPT 3.5. Al modello è stato dato un semplice prompt: “Scrivi una breve poesia nello stile di…”. Sono state scelte le prime 5 poesie generate da quel prompt”.

Un modello obsoleto

Dunque questo test è stato effettuato con l’originale ChatGPT, quello del dicembre 2023, ormai vecchio di almeno tre generazioni rispetto allo stato dell’arte odierno, Grok3 di Elon Musk (xAI) e Claude 3.7 di Anthropic (e/o forse il cinese DeepSeek R1) (per maggiori approfondimenti seguire il link: https://grok.com/share/bGVnYWN5_89137f75-475f-487a-a6f3-02be6bf38e0c)

Considerazioni

Fin qui abbiamo parlato della poesia, il campo di studio di questa particolare ricerca. A noi interessa ovviamente anche il settore dei media (si pensi all’ipotesi di sostituire gli speaker radiofonici con agenti I.A.) e della musica.

Musica

La gran parte dei brani che fanno da colonna sonora alle stazioni radiofoniche sono ovviamente composti da musica e dalle lyrics: i testi che potremmo considerare non tanto lontani dalla poesia.

Rischio reale?

C’è il rischio che l’industria preferisca generare brani a raffica, basati su I.A. piuttosto che pagare gli autori? Ecco alcune considerazioni frutto di una ricerca su varie fonti.

Volume e rapidità

La capacità dell’I.A. di generare musica rapidamente è un vantaggio significativo. Può produrre numerosi brani, aumentando la probabilità di successi attraverso il mero volume. Ad esempio, Jukedeck, acquisita da ByteDance nel 2019, ha creato oltre un milione di pezzi musicali, usati da marchi come Coca-Cola.

Produzione umana limitata vs infinita by I.A.

Questo contrasta con la produzione limitata dei musicisti umani, potenzialmente inondando il mercato con brani I.A., alcuni delle quali potrebbero diventare virali, come la falsa canzone di Drake e The Weeknd su TikTok nel 2023.

Novità e unicità

L’I.A. può creare musica diversa da quella composta da umani, offrendo novità. Strumenti come MusicLM di Google e Jukebox di OpenAI generano nuova musica, potenzialmente attirando ascoltatori che cercano sonorità inedite.

Ottimizzazione per popolarità e tendenze

L’I.A., addestrata su vasti dataset, può creare musica allineata con le tendenze attuali, aumentandone la probabilità di successo.

Musica artificiale difficilmente distinguibile da quella umana

Secondo uno studio, l’82% degli ascoltatori trova difficile distinguere musica creata dall’I.A. da quella composta da umani, risultato in linea (anzi superiore) a quello del nostro studio di partenza. Questa ottimizzazione per le tendenze potrebbe rendere i brani I.A. più propensi a diventare virali su piattaforme come Spotify.

Caffè prima della doccia

Concludiamo con la parte per così dire redazionale, delle nostre emittenti.
Chiedere ad una I.A. di inventare il quesito del giorno da proporre agli ascoltatori (“Ma voi, al mattino, prendete il caffè prima o dopo la doccia?”) è ormai routine nelle radio “generaliste” in tutto il mondo. Ma qui parliamo di un intero programma e di conduttori sintetici, incluso tutto il workflow relativo.

Pochi dati

Non abbiamo purtroppo trovato risposta a questa domanda.
Uno studio riportato da questa stessa testata affermava ad esempio che “Il 79% degli intervistati ha manifestato ‘grande preoccupazione sull’eventualità che la propria stazione preferita utilizzi la tecnologia vocale prodotta dall’IA per sostituire le personalità radiofoniche nelle conduzioni live.”

Desiderata, non dati

Ma si trattava di un sondaggio sulle paure degli ascoltatori e non uno studio sui loro comportamenti e non va meglio allargando la ricerca su noi stessi.

Europa contraria

Mentre i manager italiani cercano comprensibilmente di contrastare la tecnologia con i presunti punti di forza degli esseri umani, una Europa in ritardo su se stessa spende le proprie energie a creare divieti e regolamenti già obsoleti od inefficaci prima della loro entrata in vigore.

Approccio differente degli USA

I quali nulla o quasi potranno contro le iniziative private, senza contare che, come sappiamo, gli USA non sembrano più orientati ad accettare senza ribattere le continue sanzioni erogate dalla Commissione Europea “alle piattaforme“.

Conclusioni

Il rischio che – come declamato dal titolo – il pubblico preferisca la conduzione I.A. (soprattutto in caso di conduzione non personality) è, a nostro avviso, reale. A maggior ragione considerato che la gran parte delle sperimentazioni di cui abbiamo parlato sono state effettuate con modelli vecchi di un anno (un tempo quasi infinito, nel mondo artificiale) e non ad esempio con Grok-3 in modalità “storyteller” o “argomentativa” (provare per comprendere).

Appuntamento al prossimo studio

Se e quando ci saranno studi specifici (o casi reali) non mancheremo di tornare sull’argomento. (M.H.B. per NL)

Marco Hugo Barsotti

Analyst/Reporter for Newslinet & 70-80.it, focusing on the intersection of IT, Media, AI and Social Trends (sort of a small set, but not empty). Also IT professional since the SparcStation 1 era.

autori, bellezza, chatgpt, chi quadrato, comunicazione, conduzione, conduzione IA, dati, esperimenti, fake news, GPT 4.5, intelligenza artificiale, lettori, metodologia, musica, Nature, non personality, novità, personality, poesie, precisione, pubblicazioni scientifiche, radio, rapidità, ritmo, social media, tendenze, valutazione, volume