VALL-E di Microsoft consentirà (tra l’altro) di gestire un’emittente radiofonica senza alcuno speaker, fornendo contemporaneamente un intrattenimento parlato paragonabile (o migliore) di quello offerto dai network attuali.
Le frasi che i conduttori hanno oggi la possibilità di pronunciare nei ristrettissimi spazi loro dedicati sono prevedibili e incastrate nel broadcasting clock. Semplice dunque rimpiazzarli da una rete neurale, con la loro voce o con una alternativa di conduttori attuali. O defunti.
Sarebbe cioè possibile, ad esempio, far rivivere il re dei DJ italiani Leopardo/Leonardo Re Cecconi, fornendo in pasto al sistema la classifica attuale che il nostro annuncerebbe nel suo consueto stile.
Quello che, statene certi, accadrà
Ecco quello che sta per accadere.
Il precedente
Il nostro precedente articolo riguardante l’IA (Intelligenza Artificiale) è stato uno dei meno letti dell’anno, nonostante un titolo appositamente “deceiving“. Ma non ci perdiamo d’animo e invitiamo tutti con questo nuovo articolo su VALL-e a prestare attenzione all’argomento.
Punto di svolta
In quanto riteniamo che la fine del 2022 abbia visto un punto di svolta che sarà tanto importante quanto lo è stata l’invenzione del web e del browser e che non lascerà indenne il mondo dei media.
1994
Ricordiamo in poche righe cosa accade nel 1994: Mosaic Communication/Netscape introduce al mondo il browser, strumento user-friendly per accedere alla rete delle reti.
Amazon, Facebook, Zalando, Netflix
Browser che ha reso possibili Amazon, Facebook, Uber, le radio online, AirBnB, Zalando, Netflix e via dicendo. Moltissimi settori ne sarebbero stati travolti (vedi agenzie di viaggio), avrebbero dovuto re inventarsi (come il caso dell’editoria) o avrebbero visto la propria posizione dominante iniziare a sgretolarsi (come le reti televisive oggi dette “lineari”).
Dicembre 2022
Cosa è accaduto nel dicembre 2022 al punto da farci affermare che si tratta di un punto di svolta simile a quello del 1994?
Valori di soglia
In sintesi, numerosi e differenti sistemi basati su reti neuronali hanno contemporaneamente superato un valore di soglia (un livello di complessità interna) tali da essere in grado di comprendere le domande poste, rispondere in modo intelligente, avere una sorta di autocoscienza.
Imitazioni
E imitare qualunque persona, inclusi conduttori radiofonici e attori cinematografici.
Tom Cruise al tornio
Molti conosceranno i clip presenti su TikTok dove un “deep fake” Tom Cruise fa colazione con sconosciute influencer o lavora al tornio. Sono realizzati con una rete neuronale molto “profonda” (deep, ovvero con decine e decine di livelli nascosti) in grado di creare un Cruise sintetico, sia come immagine che come voce.
La tecnologia
Per chi fosse interessato alla tecnologia utilizzata, questa una descrizione sintetica: si tratta di “sistemi generativi avversari”; due reti neuronali (strutture informatiche su modello del cervello umano) che imparano ciascuna dall’altra e si migliorano reciprocamente e rapidamente.
VALL-E
E veniamo al vero argomento di questo articolo, VALL-E di Microsoft.
Da un segmento audio di soli tre secondi il sistema e’ in grado di generare qualunque audio clip, in pratica far pronunciare qualunque frase al personaggio di cui ha appreso la voce.
Bastano tre secondi di voce
Ad esempio, “studiando” questo esempio di voce di un umano vivente:
VALL-E e’ stato in grado di creare questo clip:
In nuce
I segmenti sono molto corti, ma la sostanza è che la frase del secondo clip (“abbiamo prodotto due album”) non è mai stata pronunciata dell’umano, ma piuttosto creata studiane frasi quali “Ero in contatto giornaliero”. Online è possibile trovare esempi più lunghi e convincenti.
Conseguenze
Ci sono ovviamente numerose questioni etiche che si aprono a fronte di questa tecnologia: sono piuttosto intuibili e largamente discusse dunque non ci soffermeremo su questo aspetto. Ma una conseguenza per il mondo delle radio ci pare piuttosto verosimile.
Speaker Copia Incolla
Si tratta della possibilità di gestire un’emittente radiofonica senza alcuno speaker fornendo contemporaneamente un intrattenimento parlato paragonabile (o migliore) di quello offerto dei network attuali.
Clock
Le frasi che i conduttori hanno oggi la possibilità di pronunciare nei ristrettissimi spazi loro dedicati sono sempre le stesse, noiose, prevedibili e incastrate nella “geniale” invenzione detta “broadcasting clock“.
Reti neurali per le reti radiofoniche
Semplice dunque rimpiazzarli da una rete neurale, con la loro voce o con una alternativa di conduttori attuali o defunti.
ChatGPT+VALL-E
La connessione programmatica tra ChatGPT e VALL-E permette ad esempio di creare risposte interessanti e divertenti a fronte di uno dei consueti lanci d’inizio programma.
Un esempio
In questo esempio abbiamo chiesto a ChatGPT: “Inventa quattro possibili risposte di ascoltatori di una radio al seguente lancio di un conduttore ‘voi fate ancora la pasta in casa o preferite acquistarla al supermarket?’. Gli ascoltatori devono mostrare sense-of-humor”.
Ed ecco le risposte
- “Faccio ancora la pasta in casa, ma solo perché non ho ancora trovato un supermercato che la venda già condita con il mio sugo segreto.”
- “Preferisco acquistarla al supermercato perché non ho il tempo di aspettare che la pasta si asciughi.”
- “Faccio la pasta in casa, ma solo perché il mio gatto mi guarda con quegli occhioni tristi quando compro quella confezionata.”
- “Acquisto la pasta al supermercato, perché è molto più veloce che farla da soli, soprattutto se si considera il tempo che si impiega a pulire tutti i chicchi di semola dalla cucina”
Addestramento
Certamente far leggere queste risposte da un Max Venegoni sintetico non sarebbe per ora accettabile. Ma nulla ci vieta di farlo dopo aver addestrato VALL-E con la voce di uno speaker che ci piace, ascoltato su una radio estera. O su un mito del passato.
Leonardo
Ad esempio far rivivere il re dei DJ italiani Leopardo/Leonardo Re Cecconi fornendo in pasto al sistema la classifica attuale che il nostro annuncerebbe nel suo consueto stile.
BBC
Come abbiamo chiesto di fare al suo indubbio modello ispiratore, Emperor Rosko (ascoltare per credere).
Questa la classifica inventata dall’intelligenza artificiale:
“Alright Folks, welcome to the Top 10 Countdown on Emperor Rosko’s show: we’re counting down the hottest hits of the UK Top 40 for January 1980:
10 -“Don’t Stand So Close to Me” by The Police
9 – “Another Brick in the Wall” by Pink Floyd
8 -“Call Me” by Blondie
7 – “Master Blaster (Jammin’)” by Stevie Wonder
6 -“Xanadu” by Olivia Newton-John and Electric Light Orchestra
5 – “Funky Town” by Lipps Inc.
4 – “Walking on the Moon” by The Police
3 – “Another One Bites the Dust” by Queen
2 – “Use It Up and Wear It Out” by Odyssey
1 -“Coming Up” by Paul McCartney and Wings.
Un bene?
Abbiamo iniziato l’articolo affermando che l’eliminazione dei conduttori potrebbe essere un bene: ma mille miglia lontana da noi l’intenzione di offendere alcuno.
Premiata l’entropia
Il punto è che questi sistemi automatici si diffonderanno per forza e renderanno totalmente inutili i conduttori senza fantasia e originalità – o obbligati a essere tali dagli station manager.
Quel che non sarà replicabile
Resteranno necessari, e probabilmente quasi non rimpiazzabili, quelli dotati d’imprevedibilità, brio e capacita’ di fare associazioni non scontate. Una probabile selezione naturale che potrebbe far bene al nostro amato media. (M.H.B. per NL)