Scritto da Camilla Crippa
10 minuti di lettura
Quando si parla di “dati” non capita di solito di considerarli come costrutti sociali che riflettono le dinamiche di potere e le discriminazioni presenti nella società. L’approccio del data feminism, al contrario, evidenzia proprio come la produzione dei dati sia influenzata da chi detiene il potere di crearli e interpretarli, rendendo invisibili forme di discriminazione strutturale. Quando questi dati vengono utilizzati per addestrare algoritmi di intelligenza artificiale, il rischio è dunque quello di perpetuare e amplificare stereotipi e bias già presenti nella società.
Delle implicazioni politiche e sociali dei dati e delle strategie per contrastare le discriminazioni algoritmiche attraverso un approccio critico e femminista alla data science, abbiamo parlato con Donata Columbro: giornalista, docente, attivista e autrice della newsletter “Ti spiego il dato”. Il suo ultimo libro si intitola Quando i dati discriminano (Il Margine 2024).
Nel suo libro Quando i dati discriminano preferisce il termine “produzione” dei dati al più comune “raccolta”, per quale motivo? I dati “parlano” davvero oppure appartengono a quei “saperi situati” di cui parla anche Donna Haraway?
Donata Columbro: Quando parlo di che cosa siano i dati, sia nel libro che in altre occasioni, sottolineo come il termine “raccolta” possa essere fuorviante, perché fa pensare a qualcosa che incontriamo per strada e che possiamo prendere, qualcosa che è già lì e che ci è stato appunto dato, calato dall’alto, fatto appositamente per noi. In realtà, il termine “produzione” mi sembra più appropriato perché dà l’idea di un costrutto, di un artefatto, che è poi ciò che i dati sono. Insisto nello spiegare che non esistono i dati “grezzi” intesi come una materia prima che dobbiamo scoprire. I dati, in quanto costrutto sociale, non possono parlare da soli perché non sono neutri. Sono sicuramente situati all’interno del contesto storico, culturale e geografico in cui viviamo. Dipendono inoltre dal modo in cui osserviamo il mondo, e quindi produrli dipende dal corpo che abitiamo. Abbiamo quindi davanti a noi uno strumento, o un linguaggio, per interpretare il mondo che non è oggettivo.
Lei si definisce una data feminist, cosa significa data feminism?
Donata Columbro: Significa provare ad applicare l’approccio del femminismo dei dati, un paradigma utilizzato nell’ambito della data justice, che è diventato popolare grazie al libro di Catherine D’Ignazio e Lauren F. Klein, pubblicato nel 2020, intitolato Data Feminism, in cui le autrici raccolgono alcune pratiche che si inseriscono in questo approccio. Il data feminism è un modo per osservare la statistica e la scienza dei dati, mettendo in evidenza le dinamiche di potere che si instaurano nella loro produzione. Si tratta di chiedersi chi può essere avvantaggiato o discriminato dall’esistenza di alcuni di essi, chi ha il potere di produrli e che implicazioni ha questo all’interno della società. In altre parole, il data feminism serve per osservare le dinamiche di potere che esistono e, quindi, per ribadire che i dati non possono essere una fotografia neutrale della realtà. Non lo sono perché all’interno della data science esistono dinamiche di potere.
D’Ignazio e Klein evidenziano come la separazione tra razionalità ed emozione, che abbiamo ricercato nelle intelligenze artificiale, favorisca le élite. In che modo questa separazione può influire sulla comprensione e l’interpretazione dei dati da parte delle IA, e quali sono i rischi di escludere l’emozione nel processo decisionale, posto che sia davvero possibile?
Donata Columbro: Tendiamo ad avere una visione per cui la tecnologia è sempre portatrice di neutralità e di qualche purezza, come se volessimo togliere in tutti i modi la parte umana che ci fa interpretare il mondo, perché la consideriamo difettosa. Ma è impossibile eliminarla: le emozioni esistono anche quando guardiamo dati “freddi”, così come quando riceviamo i risultati da parte di algoritmi di intelligenza artificiale che interpretano per noi dei dataset. Questi risultati hanno comunque delle influenze, perché siamo noi a decidere come utilizzarli. L’intervento umano, infatti, è già presente nel momento in cui decidiamo di usare l’algoritmo. Poi, se io decido di non mettere in discussione la risposta che l’IA mi ha dato, la prendo e la utilizzo per portare avanti le mie scelte. Sto pensando a quel caso dell’algoritmo che in Spagna è stato utilizzato per determinare se una donna che ha subito violenza corra il rischio di essere uccisa dal partner. È emerso che, nella maggioranza dei casi, i poliziotti e i funzionari della polizia non mettevano in discussione il risultato, e questa è comunque una scelta. Come esseri umani, una scelta la facciamo sempre, sia che si tratti di non intervenire, sia che si tratti di intervenire. Ma a volte ce ne dimentichiamo. Quando D’Ignazio e Klein parlano di razionalità ed emozione, cercano di far capire qual è stato il problema fino ad ora: il voler esaltare la razionalità, dire che le emozioni non sono oggettive o neutrali e farci credere che i dati lo siano. Come se ci fosse un dualismo, ma non è per forza così.
L’assenza di dati disaggregati per genere, etnia o disabilità come può contribuire a rendere invisibili forme di discriminazione strutturale? Quali sono gli effetti di questa invisibilità sulle politiche pubbliche?
Donata Columbro: Ponendoci le domande che ci propongono le autrici di Data Feminism, chiedendoci cioè chi discrimina nella raccolta dei dati e chi può essere svantaggiato, è interessante capire chi viene escluso da una certa raccolta. Un caso di dati discriminatori, come racconto nel mio libro, è abbastanza facile da individuare. Ad esempio, guardando le statistiche nazionali che raccontano i comportamenti della popolazione posso osservare un insieme, ma con un certo livello di disaggregazione del dato. Pensiamo al dato sull’occupazione: avremo l’età, il sesso (maschio o femmina, quindi anche il genere è invisibilizzato), ma mancano, per esempio, dati su chi all’interno di questa occupazione (che cresce o non cresce) presenta una disabilità, o in altri casi potrebbero mancare dati sulle persone razzializzate, quindi gli stranieri, gli italiani, ma anche le persone afrodiscendenti che sono diventate italiane, che vengono nascoste all’interno di queste statistiche.
Un altro esempio interessante riguarda la condizione economica, di cui parlo anche nel mio libro. Per quanto riguarda gli indici di povertà che vengono utilizzati, soprattutto a livello familiare, non emergono le differenze tra le persone, a meno che quelle persone escano dal nucleo familiare stesso. Dobbiamo ricordarci che la raccolta o produzione del dato è un processo lungo e costoso, se fatto in modo rigoroso, e richiede moltissime persone specializzate. In Italia c’è stata un’evoluzione che ha portato alla possibilità di avere statistiche sempre più disaggregate. Tuttavia, è importante far notare che sono ancora presenti delle mancanze. Per avere politiche pubbliche che abbiano davvero un impatto su tutta la popolazione sarebbe quindi necessaria una maggiore attenzione alla disaggregazione dei dati.
Come pensa che l’idea della “matrice di dominanza” di Patricia Hill Collins, che esplora le strutture di potere che definiscono e limitano le esperienze marginalizzate, possa aiutarci a comprendere come l’intelligenza artificiale rischi di rafforzare questi stereotipi attraverso i bias nei dataset? In che modo gli algoritmi possono perpetuare stereotipi di genere, razza e classe attraverso l’addestramento sui dati “weird” o incompleti? Come possiamo contrastare questo fenomeno nelle intelligenze artificiali?
Donata Columbro: Tutto quello che succede con i dati e le intelligenze artificiali è lo specchio di discriminazioni e stereotipi che esistono nella realtà. Non possiamo aspettarci che i prodotti delle intelligenze artificiali e dei dati siano diversi da quelli creati da un gruppo di persone che vivono in questo contesto storico-sociale. Come dicono le teorie del data feminism, i dati raccontano il passato; cercano anche di predire qualcosa che potrebbe succedere in futuro, ma sempre legato ad avvenimenti passati. Gli algoritmi sono addestrati su dati storici, quindi se la società è razzista o sessista, anche i dati e i risultati delle intelligenze artificiali lo saranno.
La matrice di dominanza può aiutarci a vedere come le discriminazioni sono strutturate all’interno del sistema. Le discriminazioni strutturali possono essere, per esempio, all’interno della burocrazia di un Paese, nelle pratiche per accedere alla cittadinanza, o nel modo in cui vengono raccolti i dati disaggregati. Questo ci fa uscire dall’aneddotica, dove si raccontano esperienze discriminatorie di poche persone, per arrivare a dire che, osservando come si sviluppano i fenomeni su diversi strati e livelli, vediamo che si tratta di qualcosa che permea le strutture della società. Tutto ciò diventa ancora più pericoloso quando i centri di potere utilizzano sistemi di intelligenza artificiale per prendere decisioni, perché queste discriminazioni sono talmente radicate che sarà difficile che vengano eliminate dai sistemi di IA.
Come possiamo contrastare questo fenomeno? Il primo passo è prendere consapevolezza che esistono questi bias e discriminazioni, e che i dati su cui sono testati i sistemi sono spesso incompleti. Inoltre, il funzionamento di questi sistemi fa sì che persone con determinate caratteristiche vengano aggregate e classificate sulla base di alcune caratteristiche a cui viene poi data un’etichetta, e l’algoritmo prende delle decisioni basate su questi dati. Esaminare come funzionano questi sistemi e cercare di correggerli può essere un modo per contrastare il problema. Un altro approccio potrebbe essere quello di decidere se è il caso di utilizzare o meno questi sistemi, chiedendoci se l’efficienza che vogliamo raggiungere tramite la tecnologia è davvero l’obiettivo migliore che possiamo perseguire.
Johanna Drucker propone di sostituire il termine “dato” con “capta”, enfatizzando il processo attivo e interpretativo della raccolta dati. Come pensa che un approccio umanista, come quello delle digital humanities, potrebbe aiutarci a comprendere meglio “il viaggio dei dati” di cui parla nel libro? In che modo questa prospettiva potrebbe arricchire la nostra comprensione delle implicazioni sociali e politiche insite nella raccolta e visualizzazione dei dati, evitando la loro naturalizzazione e standardizzazione?
Donata Columbro: Il concetto di “viaggio dei dati” l’ho recuperato da Anne Beaulieu e Sabina Leonelli, autrici di Data and Society. A Critical Introduction (SAGE 2021), un testo che trovo molto interessante per comprendere l’idea che il dato è un costrutto umano e sociale che viene prodotto. Il dato attraversa tutta una serie di passaggi prima di arrivare a noi nella forma che conosciamo e utilizziamo, ma soprattutto, non si ferma lì. Anzi, questo concetto è interessante anche per capire dove il dato si sposta successivamente. Al di là della costruzione del dato per uno scopo preciso, il concetto di viaggio del dato è utile anche per mostrare che non sempre il dato si ferma con il suo “arrivo”, ma può essere utilizzato per scopi per cui non era stato progettato, come nel caso dell’addestramento dei grandi modelli linguistici (LLM). Tutto quello che abbiamo scritto negli anni precedenti era stato creato con uno scopo, ma non per allenare modelli di intelligenza artificiale.
Il concetto di viaggio del dato ci aiuta a vedere che ogni passo è il risultato di decisioni che non sono né irreversibili né inevitabili. Nella comprensione della visualizzazione dei dati e del prodotto che arriva fino a noi, credo sia interessante notare come il dato sia umano. Nel mio lavoro di umanizzazione del dato, mi interessa proprio mostrare questi passaggi: tutte le mani che lo toccano e come arriva a noi. Non è assolutamente qualcosa di astratto nello spazio e nel tempo, ma è totalmente inserito in un flusso situato, come abbiamo detto all’inizio.
L’utilizzo del termine capta è una bella provocazione che fa riflettere sull’idea di non parlare più di raccolta, ma di produzione. Questo ci fa riflettere sul significato del dato, cioè di qualcosa che ci arriva dall’alto, che ci è stato dato da qualcuno. Quel qualcuno l’ha pensato, ha osservato il mondo, ha deciso di misurarlo, di quantificarlo, di costruire degli strumenti. Ecco, il viaggio del dato è anche un processo che implica tantissimi elementi. Entrano in gioco la conoscenza che abbiamo noi, la conoscenza della comunità che raccoglie i dati, la tecnologia che costruiremo per raccoglierli e analizzarli. Questi passaggi si perdono se guardiamo solo alla cifra finale. Il dato non è solo il numero finale.
A proposito di terminologia, come si può ripensare la definizione di “normalità” nelle scienze dei dati per evitare che standard culturalmente e storicamente determinati perpetuino disuguaglianze sociali e marginalizzino le diversità?
Donata Columbro: Il problema della parola “normale” è che è un termine matematico che viene utilizzato per descrivere la società. In matematica, “normale” può riferirsi a una distribuzione di probabilità, come la distribuzione normale appunto che è una delle distribuzioni più comuni, con la forma a campana simmetrica. Questo tipo di raffigurazione viene usata per descrivere fenomeni naturali o sociali distribuiti attorno alla media. In questo caso, se qualcosa non rientra nella normalità, significa che esce dalla media. E questo, in ambito matematico, non avrebbe nessun problema. Il termine diventa problematico quando l’utilizzo della parola “normale” porta a escludere tutto ciò che è fuori dalla curva, perché non ha abbastanza “peso” per essere considerato nella raccolta dei dati e per avere una sua rappresentazione. In altri casi, diventa qualcosa di negativo che è considerato anomalo e quindi va regolamentato per rientrare nella normalità. Non so se si possa cambiare in qualche modo la parola, magari utilizzando un altro termine, ma è fondamentale usarla con questa consapevolezza. Un libro molto interessante sul tema è L’errore. Storia anomala della normalità (Luiss University Press 2024) di Fabrizio Acanfora, che consiglio vivamente.
Il secondo principio del femminismo dei dati ci invita a sfidare il potere e a lavorare per la data justice, cosa implica nel suo approccio pratico al lavoro?
Donata Columbro: Il lavoro giornalistico in questo senso implica proprio andare a cercare la presenza di disuguaglianze di potere nella raccolta dei dati, nelle tecnologie e nelle applicazioni che questi possono avere nella società. Si tratta di capire, ad esempio, se lo sviluppo di una determinata tecnologia o la promozione di un dato ha conseguenze sulle comunità più marginalizzate e discriminate. Nel contesto dell’insegnamento, è importante mettere in pratica tutto ciò di cui abbiamo parlato finora: porsi le giuste domande quando utilizziamo i dati per raccontare una storia. Non dobbiamo dare nulla per scontato, dobbiamo sempre andare a vedere cosa c’è dietro un numero e cosa quel numero racconta. Non dobbiamo farci prendere dall’idea che quando abbiamo dei dati che fotografano una situazione stiamo ottenendo la storia completa, ma cercare di capire il più possibile cosa dice la metodologia, cosa manca e cosa possiamo raccontare in più.
Quando una persona che ricopre un ruolo decisionale o educativo non vuole o non riesce a comprendere quanto i dati e la scienza stessa siano politici, cosa si può fare?
Donata Columbro: Penso che la situazione sia semplice da capire. Se posso raccogliere o produrre dati su una certa tematica, anche in ambito accademico, è perché ho dei fondi a disposizione che mi permettono di farlo, ho degli strumenti e una sensibilità verso l’argomento. Cinquant’anni fa, in ambito di scienze sociali, non ci facevamo le stesse domande e anche nelle scienze dure non avevamo le stesse tecnologie che abbiamo oggi. Ad esempio, l’intelligenza artificiale ha contribuito moltissimo alle scoperte relativi agli ultimi Nobel che sono stati dati in fisica e chimica, perché ha aiutato a intravedere pattern in diversi campi. Abbiamo, quindi, a livello strumentale, elementi in più che ci permettono di fare ricerca. La scienza è almeno situata nelle possibilità tecnologiche che abbiamo e decidere di utilizzarle o meno dipende dalle risorse, che sono influenzate dalla politica. Oggi gran parte della produzione di dati per studi scientifici arriva dal settore privato, Pensiamo agli studi demografici che utilizzano i dati dei social network, per esempio. Il problema è che non tutte le facoltà universitarie hanno la possibilità di stringere accordi con le aziende tecnologiche, come Google e Meta. Quindi, solo alcune università e le persone che frequentano quegli atenei, che hanno una certa visione, possono svolgere questi studi. Questi studi saranno sviluppati solo da chi ha accesso a risorse e potere, e questo rende difficile pensare che viviamo in modo asettico, obiettivo.
Mi piace recuperare l’aggettivo “rigoroso”, perché in qualche modo significa avere una metodologia che rispetta dei principi e che magari rende conto in modo trasparente, come nel giornalismo. Questo non dovrebbe essere solo un principio della ricerca, ma anche del giornalismo: dire cosa manca in una storia, cosa non è stato raccolto, cosa sarebbe stato interessante indagare. È qualcosa che negli articoli di data journalism del New York Times, ad esempio, si ritrova sempre: come è stata realizzata l’inchiesta. Alla fine, è utile ribadirlo, le scelte sono fatte da persone e i dati sono quindi un prodotto umano. Dobbiamo esserne sempre consapevoli.