IA. Reddit vuole essere pagata da chi istruisce le IA sui propri dati: rischi ed opportunita per chi ha informazioni online

Stampa 🖨

Da quando esistono, i modelli di Intelligenza Artificiale (IA) sono stati addestrati sulla base dei contenuti di selezionati siti e servizi online. Il tutto senza chiedere autorizzazioni (nè remunerare gli autori dei contenuti): si trattava di progetti di ricerca che nessuno sospettava avrebbero portato rapidamente agli incredibili risultati che – piaccia o meno ai vari garanti – tutto il mondo riconosce oggi. Ma alcuni CEO tra cui quelli di Reddit e di Twitter pensano che sia ora di cambiare le cose ed iniziare a ricevere un adeguato compenso.

GPT-2

Come alcuni ricorderanno, già GPT-2 (2019, 1,5 miliardi di parametri, 7,5 miliardi di parole “lette”) aveva utilizzato Reddit come fonte della base di conoscenza del proprio modello.

Evoluzione

Le IA attuali (GPT 4 e tutta l’innumerevole serie di alternative fortunatamente disponibili anche in Italia) hanno continuato sulla stessa strada, aggiungendo anche numerosissimi ulteriori siti: LLaMA di Meta/Facebook (2023, 65 miliardi di parametri, circa 1,1 “bilioni” di parole ingerite) ha, ad esempio, “letto” Reddit, GitHub, Wikipedia e un numero imprecisato di libri in 20 differenti lingue.

Non solo testo

La stessa metodologia di apprendimento è stata adottata dai modelli in grado di creare immagini (andando a imparare da fotografie e opere d’arte esistenti) e – ovviamente – dalle voci che si possono ascoltare in stazioni radio, film e podcast.

Heart on My Sleeve

Senza parlare del clamoroso caso del brano Heart on My Sleeve del week end del 22-23 aprile 2023:

Il brano è divenuto virale in poche ore su tutti i social, dopo essere stato creato da uno sconosciuto tramite una IA in grado di imitare le voci di Drake e di the Weeknd in modo tanto convincente da far attribuire il pezzo agli artisti in carne e ossa (anzi, “flesh and blood“).

Labels in allarme

Con il conseguente allarme delle labels dove- nelle parole del NYT – “sta crescendo incessantemente l’allarme per il rischio di veder diluiti i propri (ricchi) guadagni ottenuti tramite il sistema del copy-right“.

A chi i ricavi?

Il tutto pone l’ovvia questione: è giusto che queste IA possano generare ricavi per i propri creatori senza che nulla arrivi a chi ha (senza neppure saperlo) contribuito a trainarle? Reddit sta forse aprendo la strada a una soluzione.

Reddit è un sito web statunitense che permette ai propri utenti di pubblicare contenuti (articoli, fotografie ecc), porre domande e sopratutto votare contenuti e risposte. È organizzato in diverse comunità chiamate “subreddit“, dedicate a differenti argomenti come notizie, giochi, sport, musica, meme e molto altro.

Ideale per la IA

E proprio per la sua struttura risulta il sistema ideale per trainare una IA: tramite estrazione delle URL di ciascuna discussione, filtraggio e deduplicazione si possono creare coppie di domande e risposte organizzate in argomenti e dotate di ranking da dare in pasto ai modelli.

Un esempio

Nell’esempio qui sopra vediamo la struttura dati fornita a un modello in grado di interpretare il formato SQuAD2. Si parla di Super Bowl 50 relativamente al quale sono state estratte le risposte a domande quali “Dove ha avuto luogo il Super Bowl 50” o “Quale è stato il risultato finale“.

API chiuse

Ma la festa sta per finire. Accortasi che il proprio sito era divenuto terreno preferenziale per allenare le proprie IA da parte di soggetti quali OpenAI, Microsoft, Google, Anthropic, Facebook/Meta, Amazon (e tutti i modelli indipendenti) la società ha deciso di proteggere il proprio accesso programmatico tramite un paywall: in sostanza, far pagare i robot (“bot“) per l’accesso.

Prego, pagare

Durante un’intervista pubblicata dal New York Times il 18 aprile 2023 il fondatore e CEO della società Steve Huffman ha dichiarato che “L’insieme dei dati di Reddit ha un grande valore, ma non siamo obbligati a darlo ad alcune delle più grandi società del mondo gratuitamente”.

Twitter & Co

Huffman non è solo. Quasi contemporaneamente, non sappiamo se come conseguenza di questa intervista o in modo totalmente indipendente, anche Elon Musk ha affermato che Microsoft debba pagare per tutto quanto “appreso” da Twitter.

Cause in arrivo

Anzi, per essere precisi ha twittato che intende fare direttamente causa alla società fondata da Gates in quanto questa ha “addestrato illegalmente (la propria IA) utilizzando i dati di Twitter“.

Mani nel sacco

C’e’ da dire che la società sembra essersi fatta trovare con le mani nel sacco.

Analisi dei sentimenti

A questo indirizzo ufficiale la Microsoft già ad agosto 2022 spiegava infatti come fare “scraping” dei dati di Twitter al fine – ad esempio – di addestrare le IA nell’analisi dei sentimenti degli umani, estrapolati dal loro modo di scrivere.

Termini da decidere

Reddit non ha reso pubblici i termini che intende applicare per l’accesso ai propri dati, né esattamente come intende rimediare al fatto che “the cat is out of the bag“: la conoscenza dedotta da tutte le discussioni dei propri utenti è ormai parte di ChatGPT e di tutti gli altri modelli e non è chiaro come questi possano “disimparare” quanto appreso.

Un fenomeno da tenere d’occhio

In ogni caso resta un fenomeno a cui prestare la massima attenzione. Tutti coloro che dispongono di siti contenenti informazioni importanti, non necessariamente aziende ma anche singoli ricercatori (vedere come esempio questo incredibile archivio), possono già fin d’ora iniziare a riflettere su quale rapporto vogliano avere con il mondo delle IA.

Robot ladri

E, magari, iniziare a titolo cautelativo a proteggersi da robot e altri accessi indesiderati (M.H.B. per NL)

Marco Hugo Barsotti

Analyst/Reporter for Newslinet & 70-80.it, focusing on the intersection of IT, Media, AI and Social Trends (sort of a small set, but not empty). Also IT professional since the SparcStation 1 era.

anthropic, bard, chatgpt, drake, facebook, google, gpt 2, gpt 4, gpt-3, heart on my sleeve, IA, intelligenza artificiale, meta, muk, musk, New York Times, NYT, openai, podcast, Reddit, steve huffman, the weekend, Twitter

IA. Reddit vuole essere pagata da chi istruisce le IA sui propri dati: rischi ed opportunita per chi ha informazioni online

GPT-2

Evoluzione

Non solo testo

Heart on My Sleeve

Labels in allarme

A chi i ricavi?

Reddit

Ideale per la IA

Un esempio

API chiuse

Prego, pagare

Twitter & Co

Cause in arrivo

Mani nel sacco

Analisi dei sentimenti

Termini da decidere

Un fenomeno da tenere d’occhio

Robot ladri

Marco Hugo Barsotti

Radio. Mentre misure su prominence latitano, automotive e OTT proseguono a colonizzare il cruscotto. Via a Samsung Auto e a TuneIn + Visteon

Media. Ci sarà pure un giudice a Berlino. C’è di certo in Virginia e ha stabilito che Google ha monopolizzato il mercato a danno della radio

Shock the content! La componente SDK che integra la rilevazione Audiradio misurando l’ascolto differito potrebbe favorire eccesso e trash

Tv locali. La sent. 44/2025 Cost. che ha rafforzato la logica meritocratica del dPR 146/2017, penalizzando chi aveva stimolato l’intervento

Consultmedia circolare 16042025 su rilascio autorizzazione per canali FAST ex Delibera 295-23-CONS

Media. Newslinet podcast puntata del 16/04/2025: ascolta le notizie della settimana di NL. Conducono Carlo Elli e Laura Badiini. By Kvox

Radio. Jacobs Media pubblica il rapporto Radio: Now What, con le 10 priorità strategiche per adeguare il medium al rapido cambiamento in corso

Tv locali. DPR 146/2017 la Corte Costituzionale salva lo scalino preferenziale per l’accesso ai contributi. Non fondate le questioni di legittimità costituzionale sollevate dal CdS

Ricevi gratis la newsletter di NL!

SIT ONLINE abbonamento circolari Consultmedia su scadenze ordinarie e straordinarie settore radio-tv-editoria: [email protected]

ISCRIVITI ALLA NEWSLETTER