Da quando esistono, i modelli di Intelligenza Artificiale (IA) sono stati addestrati sulla base dei contenuti di selezionati siti e servizi online. Il tutto senza chiedere autorizzazioni (nè remunerare gli autori dei contenuti): si trattava di progetti di ricerca che nessuno sospettava avrebbero portato rapidamente agli incredibili risultati che – piaccia o meno ai vari garanti – tutto il mondo riconosce oggi. Ma alcuni CEO tra cui quelli di Reddit e di Twitter pensano che sia ora di cambiare le cose ed iniziare a ricevere un adeguato compenso.
GPT-2
Come alcuni ricorderanno, già GPT-2 (2019, 1,5 miliardi di parametri, 7,5 miliardi di parole “lette”) aveva utilizzato Reddit come fonte della base di conoscenza del proprio modello.
Evoluzione
Le IA attuali (GPT 4 e tutta l’innumerevole serie di alternative fortunatamente disponibili anche in Italia) hanno continuato sulla stessa strada, aggiungendo anche numerosissimi ulteriori siti: LLaMA di Meta/Facebook (2023, 65 miliardi di parametri, circa 1,1 “bilioni” di parole ingerite) ha, ad esempio, “letto” Reddit, GitHub, Wikipedia e un numero imprecisato di libri in 20 differenti lingue.
Non solo testo
La stessa metodologia di apprendimento è stata adottata dai modelli in grado di creare immagini (andando a imparare da fotografie e opere d’arte esistenti) e – ovviamente – dalle voci che si possono ascoltare in stazioni radio, film e podcast.
Heart on My Sleeve
Senza parlare del clamoroso caso del brano Heart on My Sleeve del week end del 22-23 aprile 2023:
Il brano è divenuto virale in poche ore su tutti i social, dopo essere stato creato da uno sconosciuto tramite una IA in grado di imitare le voci di Drake e di the Weeknd in modo tanto convincente da far attribuire il pezzo agli artisti in carne e ossa (anzi, “flesh and blood“).
Labels in allarme
Con il conseguente allarme delle labels dove- nelle parole del NYT – “sta crescendo incessantemente l’allarme per il rischio di veder diluiti i propri (ricchi) guadagni ottenuti tramite il sistema del copy-right“.
A chi i ricavi?
Il tutto pone l’ovvia questione: è giusto che queste IA possano generare ricavi per i propri creatori senza che nulla arrivi a chi ha (senza neppure saperlo) contribuito a trainarle? Reddit sta forse aprendo la strada a una soluzione.
Reddit è un sito web statunitense che permette ai propri utenti di pubblicare contenuti (articoli, fotografie ecc), porre domande e sopratutto votare contenuti e risposte. È organizzato in diverse comunità chiamate “subreddit“, dedicate a differenti argomenti come notizie, giochi, sport, musica, meme e molto altro.
Ideale per la IA
E proprio per la sua struttura risulta il sistema ideale per trainare una IA: tramite estrazione delle URL di ciascuna discussione, filtraggio e deduplicazione si possono creare coppie di domande e risposte organizzate in argomenti e dotate di ranking da dare in pasto ai modelli.
Un esempio
Nell’esempio qui sopra vediamo la struttura dati fornita a un modello in grado di interpretare il formato SQuAD2. Si parla di Super Bowl 50 relativamente al quale sono state estratte le risposte a domande quali “Dove ha avuto luogo il Super Bowl 50” o “Quale è stato il risultato finale“.
API chiuse
Ma la festa sta per finire. Accortasi che il proprio sito era divenuto terreno preferenziale per allenare le proprie IA da parte di soggetti quali OpenAI, Microsoft, Google, Anthropic, Facebook/Meta, Amazon (e tutti i modelli indipendenti) la società ha deciso di proteggere il proprio accesso programmatico tramite un paywall: in sostanza, far pagare i robot (“bot“) per l’accesso.
Prego, pagare
Durante un’intervista pubblicata dal New York Times il 18 aprile 2023 il fondatore e CEO della società Steve Huffman ha dichiarato che “L’insieme dei dati di Reddit ha un grande valore, ma non siamo obbligati a darlo ad alcune delle più grandi società del mondo gratuitamente”.
Twitter & Co
Huffman non è solo. Quasi contemporaneamente, non sappiamo se come conseguenza di questa intervista o in modo totalmente indipendente, anche Elon Musk ha affermato che Microsoft debba pagare per tutto quanto “appreso” da Twitter.
Cause in arrivo
Anzi, per essere precisi ha twittato che intende fare direttamente causa alla società fondata da Gates in quanto questa ha “addestrato illegalmente (la propria IA) utilizzando i dati di Twitter“.
Mani nel sacco
C’e’ da dire che la società sembra essersi fatta trovare con le mani nel sacco.
Analisi dei sentimenti
A questo indirizzo ufficiale la Microsoft già ad agosto 2022 spiegava infatti come fare “scraping” dei dati di Twitter al fine – ad esempio – di addestrare le IA nell’analisi dei sentimenti degli umani, estrapolati dal loro modo di scrivere.
Termini da decidere
Reddit non ha reso pubblici i termini che intende applicare per l’accesso ai propri dati, né esattamente come intende rimediare al fatto che “the cat is out of the bag“: la conoscenza dedotta da tutte le discussioni dei propri utenti è ormai parte di ChatGPT e di tutti gli altri modelli e non è chiaro come questi possano “disimparare” quanto appreso.
Un fenomeno da tenere d’occhio
In ogni caso resta un fenomeno a cui prestare la massima attenzione. Tutti coloro che dispongono di siti contenenti informazioni importanti, non necessariamente aziende ma anche singoli ricercatori (vedere come esempio questo incredibile archivio), possono già fin d’ora iniziare a riflettere su quale rapporto vogliano avere con il mondo delle IA.
Robot ladri
E, magari, iniziare a titolo cautelativo a proteggersi da robot e altri accessi indesiderati (M.H.B. per NL)