Quattrocento giornali contro l'IA. E i nostri dati, chi li protegge?

La causa delle testate americane contro OpenAI e Microsoft non riguarda solo gli editori. Riguarda chiunque abbia pubblicato contenuti online e non abbia alcun modo di sapere se siano stati usati per addestrare l'intelligenza artificiale

Attualità

Redazione

Tag

Tutti gli articoli di Attualità

PHOTO

Una coalizione di quasi 400 testate americane ha depositato presso il Tribunale distrettuale di New York una causa contro OpenAI e Microsoft. L'accusa è precisa: le due aziende avrebbero fatto scraping (saccheggio) sistematico dei contenuti editoriali (inclusi articoli protetti da paywall) per addestrare ChatGPT e di conseguenza Copilot che troviamo su tutti i PC Windows di ultima generazione, senza autorizzazione e senza corrispettivo. Gli editori chiedono danni e un'ingiunzione per violazione del copyright e del Digital Millennium Copyright Act. A rappresentarli è l'ex procuratore generale del New Jersey Matthew Platkin.

La difesa di OpenAI è quella ormai standard in ogni causa di questo tipo: i modelli sono addestrati su dati pubblicamente disponibili, e l'uso rientra nel fair use. Ma "pubblicamente disponibile" e "dietro paywall" sono due condizioni che si escludono a vicenda, e proprio su questa contraddizione la denuncia costruisce la propria tesi.

Non è un episodio isolato. Il New York Times ha una causa in corso sullo stesso tema, CNN ha citato in giudizio Perplexity, Getty Images ha prima fatto causa a Stability AI e poi ha firmato accordi di licenza con OpenAI e la stessa Perplexity. Quello che cambia, questa volta, è la scala: 400 testate, molte locali, in un'unica coalizione non sono un caso isolato che fa notizia, sono un segnale a tutto il settore. Chi non si muove, resta fuori dal tavolo quando e se arriveranno gli accordi di licenza.

Il punto che riguarda tutti noi, gli altri

C'è però un aspetto che la cronaca americana, concentrata sul torto subito dagli editori, lascia sullo sfondo. Le testate coinvolte hanno redazioni, uffici legali, archivi tracciabili e un pool di avvocati abbastanza forte da aprire un fascicolo a New York. Hanno cioè gli strumenti per accorgersi che qualcuno ha preso qualcosa senza chiedere. E infatti se ne sono accorte solo ora, con anni di ritardo rispetto ai fatti contestati.

Se questo è il tempo di reazione di chi ha tutti i mezzi per analizzare e comprendere, cosa possiamo dire dei dati che non appartengono a una testata o ad un’azienda strutturata, ma a un semplice cittadino, a un piccolo comune, a un'associazione? Atti amministrativi pubblicati online, verbali di assemblee, documenti caricati da un ente locale per trasparenza: materiale che circola sul web esattamente come un articolo di giornale, e che con ogni probabilità è transitato nelle stesse pipeline di addestramento. Nessuno lo saprà mai, perché nessuno ha né gli strumenti forensi né la capacità tecnica per accorgersene e sapere se nella black box dell’AI ci sono anche i nostri contenuti, quelli del nostro sito Web, dei nostri blog, le trascrizioni dei nostri video su YouTube. Il singolo cittadino non ha un ufficio legale. Il piccolo comune non ha 399 alleati con cui condividere i costi di una causa contro giganti che muovono miliardi di dollari.

Il paradosso al centro di questa storia: la black box dell'intelligenza artificiale non è opaca soltanto per chi la subisce. È opaca due volte, perché nemmeno chi dovrebbe vigilare come authority, enti locali, legislatore ha oggi una capacità reale di sapere cosa vi sia effettivamente entrato. Si parla molto, giustamente, di conoscere e usare l'intelligenza artificiale. Molto meno di come si possa governare qualcosa che, per costruzione, non si può nemmeno vedere e analizzare appieno.

La causa di New York è una storia di potere contrattuale; c’è chi ne ha abbastanza per farsi valere, e chi no. Vale per le testate quanto per i dati di ognuno di noi con la differenza che a New York, almeno, qualcuno ha potuto bussare alla porta di un tribunale per cercare di capire e far capire, come questi grandi sistemi vengano addestrati e in che modo i dati vengono pescati dalla rete. Vedremo se gli editori, in questo caso, Davide, vinceranno contro Golia mettendo a nudo uno dei tanti lati oscuri dell’AI che usiamo ogni giorno.

Quattrocento giornali contro l’IA. E i nostri dati, chi li protegge? La battaglia sul copyright è anche la nostra

Il punto che riguarda tutti noi, gli altri

Attentato a Ranucci, 4 arresti. Per gli inquirenti «il commando agì su mandato, come favore e dietro compenso» – NOMI

Maestrale-Olimpo-Imperium, assolti i fratelli Stillitani, 13 anni al boss Luigi Mancuso: il verdetto per i 183 imputati - LIVE

’Ndrangheta, l'assalto (in 5 fasi) del clan Piromalli ad Amazon: le estorsioni e il patto con i colletti bianchi

Morte sospetta nel carcere di Rossano, domani l’autopsia su Cataldo De Luca. Il legale: «Venerdì stava benissimo»

Bezos questo sconosciuto, il boss Piromalli non sa cosa sia Amazon ma impone la propria legge: «Mi prendo ciò che è mio»