IA. Reddit vuole essere pagata da chi istruisce le IA sui propri dati: rischi ed opportunita per chi ha informazioni online

maxresdefault 1 - IA. Reddit vuole essere pagata da chi istruisce le IA sui propri dati: rischi ed opportunita per chi ha informazioni online

Da quando esistono, i modelli di Intelligenza Artificiale (IA) sono stati addestrati sulla base dei contenuti di selezionati siti e servizi online. Il tutto senza chiedere autorizzazioni (nè remunerare gli autori dei contenuti): si trattava di progetti di ricerca che nessuno sospettava avrebbero portato rapidamente agli incredibili risultati che – piaccia o meno ai vari garanti – tutto il mondo riconosce oggi. Ma alcuni CEO tra cui quelli di Reddit e di Twitter pensano che sia ora di cambiare le cose ed iniziare a ricevere un adeguato compenso.

GPT-2

Come alcuni ricorderanno, già GPT-2 (2019, 1,5 miliardi di parametri, 7,5 miliardi di parole “lette”) aveva utilizzato Reddit  come fonte della base di conoscenza del proprio modello.

Evoluzione

Le IA attuali (GPT 4 e tutta l’innumerevole serie di alternative fortunatamente disponibili anche in Italia) hanno continuato sulla stessa strada, aggiungendo anche numerosissimi ulteriori siti: LLaMA di Meta/Facebook (2023, 65 miliardi di parametri, circa 1,1 “bilioni” di parole ingerite) ha, ad esempio, “letto” Reddit, GitHub, Wikipedia e un numero imprecisato di libri in 20 differenti lingue.

Non solo testo

La stessa metodologia di apprendimento è stata adottata dai modelli in grado di creare immagini (andando a imparare da fotografie e opere d’arte esistenti) e – ovviamente – dalle voci che si possono ascoltare in stazioni radio, film e podcast.

3e712d9546dc5423f5cf8af4e90966cce0cc5d48 - IA. Reddit vuole essere pagata da chi istruisce le IA sui propri dati: rischi ed opportunita per chi ha informazioni online

Heart on My Sleeve

Senza parlare del clamoroso caso del brano Heart on My Sleeve del week end del 22-23 aprile 2023:

Il brano è divenuto virale in poche ore su tutti i social, dopo essere stato creato da uno sconosciuto tramite una IA in grado di imitare le voci di  Drake e di the Weeknd in modo tanto convincente da far attribuire il pezzo agli artisti in carne e ossa (anzi, “flesh and blood“).

Labels in allarme

Con il conseguente allarme delle labels dove- nelle parole del NYT“sta crescendo incessantemente l’allarme per il rischio di veder diluiti i propri (ricchi) guadagni ottenuti tramite il sistema del copy-right“.

A chi i ricavi?

Il tutto pone l’ovvia questione: è giusto che queste IA possano generare ricavi per i propri creatori senza che nulla arrivi a chi ha (senza neppure saperlo) contribuito a trainarle? Reddit sta forse aprendo la strada a una soluzione.

image 2023 04 25 083646420 - IA. Reddit vuole essere pagata da chi istruisce le IA sui propri dati: rischi ed opportunita per chi ha informazioni online

Reddit

Reddit è un sito web statunitense che permette ai propri utenti di pubblicare contenuti (articoli, fotografie ecc), porre domande e sopratutto votare contenuti e risposte. È organizzato in diverse comunità chiamate “subreddit“, dedicate a differenti argomenti come notizie, giochi, sport, musica, meme e molto altro.

Ideale per la IA

E proprio per la sua struttura risulta il sistema ideale per trainare una IA: tramite estrazione delle URL di ciascuna discussione, filtraggio e deduplicazione si possono creare coppie di domande e risposte organizzate in argomenti e dotate di ranking da dare in pasto ai modelli.

image 2023 04 25 102259474 - IA. Reddit vuole essere pagata da chi istruisce le IA sui propri dati: rischi ed opportunita per chi ha informazioni online

Un esempio

Nell’esempio qui sopra vediamo la struttura dati fornita a un modello in grado di interpretare il formato SQuAD2. Si parla di  Super Bowl 50 relativamente al quale sono state estratte le risposte a domande quali “Dove ha avuto luogo il Super Bowl 50” o “Quale è stato il risultato finale“.

API chiuse

Ma la festa sta per finire. Accortasi che il proprio sito era divenuto terreno preferenziale per allenare le proprie IA da parte di soggetti quali OpenAI, Microsoft, Google, Anthropic, Facebook/Meta, Amazon (e tutti i modelli indipendenti) la società ha deciso di proteggere il proprio accesso programmatico tramite un paywall: in sostanza, far pagare i robot (“bot“)  per l’accesso.

capture 2 - IA. Reddit vuole essere pagata da chi istruisce le IA sui propri dati: rischi ed opportunita per chi ha informazioni online

Prego, pagare

Durante un’intervista pubblicata dal New York Times il 18 aprile 2023 il fondatore e CEO della società Steve Huffman ha dichiarato che  “L’insieme dei dati di Reddit ha un grande valore, ma non siamo obbligati a darlo ad alcune delle più grandi società del mondo gratuitamente”.

capture 1 - IA. Reddit vuole essere pagata da chi istruisce le IA sui propri dati: rischi ed opportunita per chi ha informazioni online

Twitter & Co

Huffman non è solo. Quasi contemporaneamente, non sappiamo se come conseguenza di questa intervista o in modo totalmente indipendente, anche Elon Musk ha affermato che Microsoft debba pagare per tutto quanto “appreso” da Twitter.

Cause in arrivo

Anzi, per essere precisi ha twittato che intende fare direttamente causa alla società fondata da Gates in quanto questa ha “addestrato illegalmente (la propria IA) utilizzando i dati di Twitter“.

Mani nel sacco

C’e’ da dire che la società sembra essersi fatta trovare con le mani nel sacco.

image 2023 04 25 112319639 - IA. Reddit vuole essere pagata da chi istruisce le IA sui propri dati: rischi ed opportunita per chi ha informazioni online

Analisi dei sentimenti

A questo indirizzo ufficiale la Microsoft già ad agosto 2022 spiegava infatti come fare “scraping” dei dati di Twitter al fine – ad esempio – di addestrare le IA nell’analisi dei sentimenti degli umani, estrapolati dal loro modo di scrivere.

Termini da decidere

Reddit non ha reso pubblici i termini che intende applicare per l’accesso ai propri dati, né esattamente come intende rimediare al fatto che “the cat is out of the bag“: la conoscenza dedotta da tutte le discussioni dei propri utenti è ormai parte di ChatGPT e di tutti gli altri modelli e non è chiaro come questi possano “disimparare” quanto appreso.

image 2023 04 25 131839231 - IA. Reddit vuole essere pagata da chi istruisce le IA sui propri dati: rischi ed opportunita per chi ha informazioni online

Un fenomeno da tenere d’occhio

In ogni caso resta un fenomeno a cui prestare la massima attenzione. Tutti coloro che dispongono di siti contenenti informazioni importanti, non necessariamente aziende ma anche singoli ricercatori (vedere come esempio questo incredibile archivio), possono già fin d’ora iniziare a riflettere su quale rapporto vogliano avere con il mondo delle IA.

Robot ladri

E, magari, iniziare a titolo cautelativo a proteggersi da robot e altri accessi indesiderati (M.H.B. per NL)

 

Questo sito utilizza cookie per gestire la navigazione, la personalizzazione di contenuti, per analizzare il traffico. Per ottenere maggiori informazioni sulle categorie di cookie, sulle finalità e sulle modalità di disattivazione degli stessi clicca qui. Con la chiusura del banner acconsenti all’utilizzo dei soli cookie tecnici. La scelta può essere modificata in qualsiasi momento.

Privacy Settings saved!
Impostazioni

Quando visiti un sito Web, esso può archiviare o recuperare informazioni sul tuo browser, principalmente sotto forma di cookies. Controlla qui i tuoi servizi di cookie personali.

Questi strumenti di tracciamento sono strettamente necessari per garantire il funzionamento e la fornitura del servizio che ci hai richiesto e, pertanto, non richiedono il tuo consenso.

Questi cookie sono impostati dal servizio recaptcha di Google per identificare i bot per proteggere il sito Web da attacchi di spam dannosi e per testare se il browser è in grado di ricevere cookies.
  • wordpress_test_cookie
  • wp_lang
  • PHPSESSID

Questi cookie memorizzano le scelte e le impostazioni decise dal visitatore in conformità al GDPR.
  • wordpress_gdpr_cookies_declined
  • wordpress_gdpr_cookies_allowed
  • wordpress_gdpr_allowed_services

Rifiuta tutti i Servizi
Accetta tutti i Servizi

Ricevi gratis la newsletter di NL!

ATTENZIONE! Il 14/12/2024 scade termine per iscrizione in lista SIG (Servizi di Interesse Generale) istituita da Agcom per rilevanza in elenchi dei device smart: [email protected]

ISCRIVITI ALLA NEWSLETTER