Un inquietante studio della prestigiosa rivista Nature porta a riflettere sulla possibilità che (a breve) il pubblico potrebbe preferire la conduzione radiofonica artificiale rispetto a quella umana.
Già oggi, secondo Nature, le poesie generate dalle Intelligenze Artificiali sono preferite dal pubblico dei lettori medi rispetto a quelle che portano la firma di un autore umano.
Analizziamo in questo articolo lo studio, avanzando, qualche ipotesi relativamente a contenuti più comuni ed importanti nei campi musicale e radiofonico, sulla scorta di una semplice domanda: siamo sicuri che il pubblico non apprezzerebbe maggiormente una conduzione artificiale piuttosto che quella, spesso banale, di alcuni conduttori umani?
Sintesi
Un recente studio pubblicato su Nature ha dimostrato che le poesie generate dall’intelligenza artificiale (I.A.) – nello specifico GPT 3.5 – non solo sono indistinguibili da quelle scritte da poeti umani, ma anche giudicate più favorevolmente dai lettori.
L’esperimento ha coinvolto “lettori non esperti”, che hanno valutato poesie di autori celebri come Shakespeare, Whitman e Dickinson accanto a testi generati dall’I.A., senza riuscire a identificarne l’origine: con una precisione del 46,6% (inferiore al caso di specie), hanno spesso attribuito alle poesie di matrice non umana qualità superiori in termini di ritmo, bellezza e capacità emotiva.
Questo risultato, ottenuto con un modello di I.A. ormai obsoleto (posto che da febbraio è disponibile GPT 4.5), sottolinea il potenziale dell’intelligenza artificiale in ambiti creativi.
Le implicazioni dello studio vanno oltre la poesia, toccando settori come la musica e la comunicazione.
Nella musica, l’I.A. può generare brani rapidamente, ottimizzandoli alle tendenze e offrendo novità, come dimostrano piattaforme del tipo Jukedeck o MusicLM.
Ma qualcuno ipotizza l’uso dell’I.A. per sostituire figure quali i conduttori radiofonici impegnati in ruoli non particolarmente di spessore (cioè non personality), anche se mancano dati concreti sui comportamenti del pubblico.
Le legioni di imbecilli di Eco
Esistono i social media, che “danno la parola a legioni di imbecilli” (come scriveva Umberto Eco). Esistono i quotidiani, che spesso riportano fake news o, più semplicemente, fatti non ben compresi. Esistono i libri di testo: e poi esiste Nature.
Nature
Fondata nel 1869, Nature è una delle pubblicazioni scientifiche più prestigiose e influenti al mondo, nota per il suo ruolo centrale nella diffusione delle scoperte più significative in tutti i campi della scienza.
I.A. non distinguibile
Ebbene, proprio Nature ha pubblicato a fine 2024 un paper intitolato “AI-generated poetry is indistinguishable from human-written poetry and is rated more favorably“: le poesie generate dall’Intelligenza Artificiale sono indistinguibili da quelle scritte da esseri umani e sono valutate più favorevolmente.
Conseguenze
In questo articolo cerchiamo di approfondire la metodologia utilizzata dallo studio di Nature e immaginare le conseguenze nei vari settori di nostro interesse.
La metodologia
Nature ha condotto due esperimenti con lettori di poesia “non esperti”, dove si indicava che il 90,4% dei partecipanti aveva dichiarato di aver letto poesie saltuariamente durante l’anno e di questi il 55,8% di non avere particolare familiarità con poesie e poeti.
Primo risultato
Innanzitutto, si è appurato che i partecipanti si sono comportati al di sotto dei livelli casuali nell’identificare poesie generate dall’I.A. (precisione del 46,6%, χ²(1, N = 16.340) = 75,13, p < 0,0001).
Sotto i livelli casuali
Cerchiamo di definire meglio.
Dire che i partecipanti si sono comportati “al di sotto dei livelli casuali” significa che la loro accuratezza (in questo caso 46,6%) è stata peggiore di quella che si otterrebbe, appunto, per puro caso (a fronte di una domanda con due possibili risposte, rispondendo a caso si sarebbe nel giusto il 50% delle volte).
Impossibile distinguere I.A. da autore umano
Questo suggerisce che non solo i lettori di Nature non sono riusciti a identificare correttamente le poesie scritte dall’I.A., ma che hanno avuto una tendenza sistematica a sbagliare; ad esempio giudicando più spesso quelle di matrice artificiale come umane rispetto a quanto avrebbero fatto scegliendo a caso.
Gibberish matematico
Il lettore ci perdonerà, ma come nel caso dell’analisi dei dati TER/Audiradio riteniamo importante chiarire i termini numerici.
Questione di precisione
Precisione del 46,6% significa, come abbiamo detto, che solo il 46,6% delle loro risposte era corretto. X quadrato (in χ²(1, N = 16.340) = 75,13, P<0.0001) è un test che verifica se c’è una differenza significativa tra quello che ci si aspetta (50% di precisione) e quello che è stato rilevato (46,6%). La cifra 1 indica i gradi di libertà (solo uno, risposta sì o no) e 16.340 è il numero totale di risposte: un numero molto elevato.
La formula

Risultato molto significativo
Infine P<0,0001 significa di fatto che il risultato è davvero affidabile (formalmente possiamo dire che la probabilità che non lo sia è una su 10.000, e questo si ricava da specifiche tabelle relative al test del chi-quadrato).
Lettori in errore
Detto in altre parole, i partecipanti erano più propensi a giudicare le poesie generate dall’I.A. come scritte da esseri umani rispetto alle poesie effettivamente scritte da esseri umani e giudicarle come tali.
Ma non basta.
Secondo risultato
I ricercatori hanno poi scoperto che le poesie generate dall’I.A. sono state valutate più favorevolmente per qualità come ritmo e bellezza e che questo ha contribuito alla loro errata identificazione come poesie scritte da esseri umani.
Più gradevoli le poesie scritte da GPT 3.5
In altre parole, non solo i lettori pensano che le poesie scritte dalle I.A. siano migliori di quelle prodotte dai poeti in carne ed ossa, ma aggiungono valutazioni positive specifiche sull’uso della metrica e sulla gradevolezza generale della lettura.
Criteri di valutazione
Per la valutazione sono stati usati i criteri seguenti: il ritmo, l’immaginario e il suono; la misura in cui la poesia risultava commovente, profonda, spiritosa, lirica, ispiratrice, bella, significativa e originale; e quanto bene la poesia trasmettesse un tema specifico e quanto bene comunicasse uno stato d’animo o un’emozione specifici.
Scala a 7 punti
Ognuno di questi aspetti è stato riportato su una scala a 7 punti. Il risultato è visibile nel grafico.
I.A. batte umano
Il grafico a barre non deve intimorire e il suo significato è chiaro. Prendiamo il primo parametro, la bellezza: mediamente le opere umane sono state valutate tra 3 e 5, mentre quelle IA da 4 a 6 (il massimo è 7).
Gli autori
Chi erano gli autori umani prescelti? Questo quanto affermato dai ricercatori: “Abbiamo scelto 10 poeti di lingua inglese: Geoffrey Chaucer, William Shakespeare, Samuel Butler, Lord Byron, Walt Whitman, Emily Dickinson, T.S. Eliot, Allen Ginsberg, Sylvia Plath e Dorothea Lasky.
Il target
Il nostro obiettivo era coprire un’ampia gamma di generi, stili e periodi temporali. Abbiamo raccolto un totale di 50 poesie: 5 poesie per ciascuno dei nostri 10 poeti. Le poesie sono state raccolte da mypoeticside.com, un database di poesia online.
Popolarità
Le poesie di ogni poeta sono state ordinate per popolarità; abbiamo selezionato poesie che non rientravano tra le 10 più popolari per quel poeta e che avessero una lunghezza ragionevole (meno di 30 versi)”.
GPT 3.5
Quale modello è stato utilizzato? Questo è a nostro avviso ancora più sorprendente. Continuano i ricercatori: “Abbiamo generato un totale di 50 poesie utilizzando ChatGPT 3.5. Al modello è stato dato un semplice prompt: “Scrivi una breve poesia nello stile di…”. Sono state scelte le prime 5 poesie generate da quel prompt”.
Un modello obsoleto
Dunque questo test è stato effettuato con l’originale ChatGPT, quello del dicembre 2023, ormai vecchio di almeno tre generazioni rispetto allo stato dell’arte odierno, Grok3 di Elon Musk (xAI) e Claude 3.7 di Anthropic (e/o forse il cinese DeepSeek R1) (per maggiori approfondimenti seguire il link: https://grok.com/share/bGVnYWN5_89137f75-475f-487a-a6f3-02be6bf38e0c)
Considerazioni
Fin qui abbiamo parlato della poesia, il campo di studio di questa particolare ricerca. A noi interessa ovviamente anche il settore dei media (si pensi all’ipotesi di sostituire gli speaker radiofonici con agenti I.A.) e della musica.
Musica
La gran parte dei brani che fanno da colonna sonora alle stazioni radiofoniche sono ovviamente composti da musica e dalle lyrics: i testi che potremmo considerare non tanto lontani dalla poesia.
Rischio reale?
C’è il rischio che l’industria preferisca generare brani a raffica, basati su I.A. piuttosto che pagare gli autori? Ecco alcune considerazioni frutto di una ricerca su varie fonti.
Volume e rapidità
La capacità dell’I.A. di generare musica rapidamente è un vantaggio significativo. Può produrre numerosi brani, aumentando la probabilità di successi attraverso il mero volume. Ad esempio, Jukedeck, acquisita da ByteDance nel 2019, ha creato oltre un milione di pezzi musicali, usati da marchi come Coca-Cola.
Produzione umana limitata vs infinita by I.A.
Questo contrasta con la produzione limitata dei musicisti umani, potenzialmente inondando il mercato con brani I.A., alcuni delle quali potrebbero diventare virali, come la falsa canzone di Drake e The Weeknd su TikTok nel 2023.
Novità e unicità
L’I.A. può creare musica diversa da quella composta da umani, offrendo novità. Strumenti come MusicLM di Google e Jukebox di OpenAI generano nuova musica, potenzialmente attirando ascoltatori che cercano sonorità inedite.
Ottimizzazione per popolarità e tendenze
L’I.A., addestrata su vasti dataset, può creare musica allineata con le tendenze attuali, aumentandone la probabilità di successo.
Musica artificiale difficilmente distinguibile da quella umana
Secondo uno studio, l’82% degli ascoltatori trova difficile distinguere musica creata dall’I.A. da quella composta da umani, risultato in linea (anzi superiore) a quello del nostro studio di partenza. Questa ottimizzazione per le tendenze potrebbe rendere i brani I.A. più propensi a diventare virali su piattaforme come Spotify.
Caffè prima della doccia
Concludiamo con la parte per così dire redazionale, delle nostre emittenti.
Chiedere ad una I.A. di inventare il quesito del giorno da proporre agli ascoltatori (“Ma voi, al mattino, prendete il caffè prima o dopo la doccia?”) è ormai routine nelle radio “generaliste” in tutto il mondo. Ma qui parliamo di un intero programma e di conduttori sintetici, incluso tutto il workflow relativo.
Pochi dati
Non abbiamo purtroppo trovato risposta a questa domanda.
Uno studio riportato da questa stessa testata affermava ad esempio che “Il 79% degli intervistati ha manifestato ‘grande preoccupazione sull’eventualità che la propria stazione preferita utilizzi la tecnologia vocale prodotta dall’IA per sostituire le personalità radiofoniche nelle conduzioni live.”
Desiderata, non dati
Ma si trattava di un sondaggio sulle paure degli ascoltatori e non uno studio sui loro comportamenti e non va meglio allargando la ricerca su noi stessi.
Europa contraria
Mentre i manager italiani cercano comprensibilmente di contrastare la tecnologia con i presunti punti di forza degli esseri umani, una Europa in ritardo su se stessa spende le proprie energie a creare divieti e regolamenti già obsoleti od inefficaci prima della loro entrata in vigore.
Approccio differente degli USA
I quali nulla o quasi potranno contro le iniziative private, senza contare che, come sappiamo, gli USA non sembrano più orientati ad accettare senza ribattere le continue sanzioni erogate dalla Commissione Europea “alle piattaforme“.
Conclusioni
Il rischio che – come declamato dal titolo – il pubblico preferisca la conduzione I.A. (soprattutto in caso di conduzione non personality) è, a nostro avviso, reale. A maggior ragione considerato che la gran parte delle sperimentazioni di cui abbiamo parlato sono state effettuate con modelli vecchi di un anno (un tempo quasi infinito, nel mondo artificiale) e non ad esempio con Grok-3 in modalità “storyteller” o “argomentativa” (provare per comprendere).
Appuntamento al prossimo studio
Se e quando ci saranno studi specifici (o casi reali) non mancheremo di tornare sull’argomento. (M.H.B. per NL)