Scritto da Cosimo Accoto
12 minuti di lettura
In Il pianeta latente. Provocazioni della tecnica, innovazioni della cultura (Egea 2024) Cosimo Accoto intraprende un viaggio – culturale e filosofico – tra le ingegnerie e le filosofie dell’intelligenza artificiale. Ovvero tra quelle forze che sono sull’orlo di cambiare profondamente il nostro pianeta. Cosimo Accoto è filosofo della tecnologia e research affiliate e fellow al MIT di Boston, ed è inoltre autore di una trilogia dedicata alla filosofia del digitale composta da: Il mondo dato, Il mondo ex machina, Il mondo in sintesi, tutti editi da Egea.
Pubblichiamo di seguito, per gentile concessione dell’editore Egea, un estratto del libro, tratto dal capitolo “L’occhio assente” che affronta le incognite di una visione automatica senza umani, senza mondo e senza immagini.
Siamo talmente immersi nel paradigma della visualità e della rappresentazione visiva che è per noi difficile, se non impossibile, pensare a tempi, modi, agenti e forme del vedere, dell’osservare, del percepire che siano altri e radicalmente diversi. Così la visione passa di necessità per l’occhio umano e ha la configurazione, per noi scontata, dell’immagine da contemplare. Almeno, direi, per come l’abbiamo resa storicamente e diversamente familiare nel corso del tempo. Ma forse non è e non sarà più così: la seconda provocazione intellettuale delle nuove ingegnerie artificiali, sintetiche, virtuali è proprio sul senso e sulla sorte dell’immagine. E insieme a questa sui suoi intorni culturali e concettuali: l’osservazione, la percezione, la rappresentazione, la conoscenza. Così, mentre il mondo è sempre più inondato inflattivamente di immagini (oggi create generativamente usando le parole sintetiche come per i modelli grafici da testo a immagine o text-to-image), queste, pur conservandone la forma, ne stanno perdendo la sostanza. E anche noi, che le guardiamo ancora, in realtà stiamo divenendo e diverremo con esse diversi. Ce ne accorgeremo a breve. Prendiamo il caso dell’ultrarealismo prodotto dalle immagini di sintesi (dette sintografie): chi sarà in grado, tra un po’, di distinguere ancora la fotografia realistica di un volto umano esistente dalla fotografia sintetica di un volto umano inesistente? Dobbiamo prenderne consapevolezza e con urgenza. Perché non sarà più il mio occhio (umano) a essere in grado di discriminare il vero dal falso, il naturale dall’artificiale, l’autentico dal contraffatto. Se mai lo è stato.
Siamo così arrivati a un vicolo cieco – in senso letterale e metaforico – che ci rimanda alle storie del vedere umano e piùcheumano, vicende complesse e nascoste nelle pieghe nel tempo. In The Birth of Computer Vision (2023), lo storico Dobson ne ha tracciato una genealogia possibile illuminando le trame materiali, sociali, culturali e politiche di questo confronto serrato (anche conflittuale in alcuni casi) tra occhio umano e occhio macchinico[1]. Dalla mia prospettiva, chiediamoci allora provocatoriamente: in assenza e in sostituzione dell’occhio, si potrà e come vedere? e chi? e in che senso nuovo?
Nell’orizzonte artificialmente ingegnerizzato del pianeta latente lo sguardo umano si ritrova progressivamente e per molti versi marginalizzato o inidoneo. Questa rimozione tentata, negoziata, in parte realizzata, ha oggi molte forme e occasioni. Così, in alcuni contesti, lo sguardo è assente perché l’occhio non è in più grado di espletare la sua funzione giudicante di fronte al prodotto visivo artificiale di una macchina. Non è in grado di riconoscere il vero e il falso. In altre esperienze lo sguardo invece non è proprio più chiamato a svolgere la sua funzione decisionale, sostituito esso stesso dalla visione esclusiva ed escludente delle macchine. A vedere, al suo posto, è qualcuno o qualcosa d’altro. In ulteriori casi ancora lo sguardo è spiazzato perché l’immagine che viene guardata non ha più la sua antica funzione rappresentativa del reale. Il mio occhio, dunque, incrocia una visualità che ha un’altra natura: l’immagine non sta più al posto dell’oggetto che vorrebbe raffigurare. Non lo rappresenta più. Come per la parola, anche l’immagine qui è divenuta, infine, un’altra cosa.
Ma come e perché diciamo che l’immagine non rappresenta più? Per esplorare al meglio questo passaggio dell’immagine alla non-rappresentazionalità del visuale, sarà utile qui raccontare sia pur rapidamente delle arrischiate morfosi della visualità che incanta e dell’arrivo dell’invisualità che disincanta. Vale a dire delle nuove dimensioni operazionali (e non rappresentazionali) del visivo, come ha evidenziato l’archeologo dei media Jussi Parikka nel suo Operational Images (2023)[2]. Cercherò, inoltre, di raccontare il nuovo significato dell’osservazione e dell’osservabilità del mondo (e della sua conoscenza, da ultimo) quando il figurativo (registrazione visuale) lascia il posto al pre-figurativo (previsione visiva) dei modelli grafici dell’intelligenza artificiale generativa. Con un secondo passaggio provocatorio: dalla figurazione alla prefigurazione. Già da queste anticipazioni si intuisce come sia ingenuo – filosoficamente e culturalmente – centrare e limitare le analisi strumentali e le ansie esistenziali della nostra attuale civiltà dell’immagine post-ottica ai fenomeni del falso visuale (deep fake) prodotto artificialmente. Perché quello a cui stiamo assistendo e di cui stiamo proprio facendo esperienza è un cambio di paradigma più radicale di quanto immaginiamo. Stiamo evocando all’esistenza un nuovo orizzonte di senso, quello di un vedere sovrumano. Senza umani e senza mondo. E da ultimo, paradossalmente, anche proprio senza immagini, avendo perso queste ultime il loro potere d’incantamento.
Immagini non da/con/per umani
Nella nostra contemporaneità macchinica, artificiale, virtuale e sintetica, l’immagine sta facendo esperienza di un’ennesima, profonda crisi ontologica. Un terremoto (anzi, direi, proprio una serie di scosse telluriche successive sempre più forti) sta erodendo il fondamento e il quotidiano del nostro mondo visuale. Così quella provocazione che abbiamo riferito alla scrittura parlando di ultima parola, si ripropone ora anche con l’immagine e con l’eresia dell’occhio assente. Come per la scrittura non più fatta per essere letta, anche l’immagine non è più prodotta per essere vista. Da umani quantomeno. Dunque, anche il senso della visualità con i suoi antichi privilegi umanocentrici e i suoi rassicuranti paradigmi antropocentrati viene oggi radicalmente messo in questione. È tempo allora di affrontare una prima domanda perturbante che le nuove ingegnerie della visione ci sottopongono: è possibile un’immagine senza riferimento all’umano e senza referenza al mondo?
La risposta più immediata sarebbe quella di negare sdegnosamente questa possibilità. Sarebbe però anche la replica più immatura che potremmo dare. La più consolante e tuttavia anche quella meno consistente con la rottura epistemica in corso. Vorrei allora provare a esplorare con più apertura e rischiosità la questione, raccontando questo momento di crisi.
La prima dimensione trasformativa che le tecnologie della visione automatizzata evocano è senza dubbio la possibilità di un «vedere» in assenza dell’umano, per esempio con immagini fotografiche prodotte senza la presenza dello sguardo e dell’occhio umani. Se radicalizzata, come ha fatto la filosofa della visione digitale Joanna Zylinska nel suo Non-Human Photography (2017)[3] per poi approfondirla nel suo The Perception Machine (2023)[4], questa prospettiva evoca l’orizzonte di una visualità che non è fatta da umani, che non è con raffigurazione di umani, che non è pensata per umani.
Per questa nostra altra incursione filosofica è bene partire allora con un po’ di storia della computer vision, per comprendere come si sia evoluta e come sia stata negoziata questa relazione (ideologica, conflittuale, morfante) tra vedere umano e vedere macchinico. Dobbiamo sempre tener presente che quando parliamo di «automazione» e «autonomia» della tecnica visuale non stiamo parlando di mere tecnicalità strumentali prive di umani, ma di assemblaggi sociotecnici, composti ibridati in cui l’assenza dell’umano è costruita e ideologica e non solo (e più che) ingegneristica. Processi e sistemi automatici e autonomi sono sempre l’esito di intrecci storici tra umani e macchine (la cui linea di separazione è ambigua e mobile), anche quando l’umano venga escluso (da altri umani) in qualche momento o processo di questa totalità assemblante ad autonomia robotica crescente. O anche quando, viceversa, decidiamo di escludere, con arroganza antropocentrica, qualche altro vedente non umano – come nel caso del testimoniare che è stato principalmente, finora, un atto umano. Eppure, la testimonianza (contraltare del paradigma della sorveglianza) è – e può e deve – essere anche inumana, in guerra quanto in pace.
«I testimoni umani abbondano: le vittime e i sopravvissuti, la cui carne e le cui parole portano le cicatrici e la verità vissuta del fuoco infernale dall’alto; i piloti e gli operatori dei sensori, i comandanti, gli avvocati militari, gli analisti delle immagini; gli investigatori militari; i documentaristi e i giornalisti che racconteranno la storia di ciò che è accaduto e il loro pubblico in tutto il mondo; forse anche gli studiosi, io stesso tra loro, che si rivolgono a questo momento per aiutare a dare un senso alla guerra remota. Ma che dire delle nostre controparti non umane? […] Nella maggior parte dei resoconti sulla testimonianza, molti di questi aspetti verrebbero esclusi del tutto, relegati allo status di prove o assegnati al ruolo di intermediari, dipendenti da un esperto o da un interprete umano. La testimonianza non umana rifiuta questa relegazione e invece approfondisce e allarga la portata della testimonianza per includere il non umano. Aprire la testimonianza al non umano fornisce a noi umani una comprensione degli eventi più profonda e più raffinata»[5].
Storicamente le tecnologie della visione macchinica, nate con l’idea di comprendere meglio il funzionamento della visione antropica, sono divenute poi, nel tempo, strumentalità in grado di oltrepassarla (per alcuni gradi) e di escluderla (in alcune fasi). Nel farlo hanno certamente ampliato lo spettro del visibile al di là delle nostre capacità di specie. È questo movimento dialettico e paradossale tra estensione dell’umano e astensione dall’umano che molti faticano a comprendere dentro le nuove tecnologie e ingegnerie della dicibilità (parola), dell’osservabilità (occhio) e dell’agentività (atto). Elemento provocatorio per la nostra cultura è l’emergere di un nuovo modo sovrumano di osservare il mondo. Le immagini prodotte dalla visione computazionale attraverso dati, programmi e algoritmi sono in effetti il risultato di processi che non riguardano più principalmente l’occhio umano; sono fuori dallo spettro e dalla gamma delle dotazioni fisiologiche (e anche culturali, psicologiche e politiche) del vedere umano. Al posto del punto di vista dell’umano sperimentiamo la costruzione di uno sguardo impossibile (Dobson), di sguardi impossibili.
«La visione computerizzata si inserisce nella scena di osservazione prendendo il posto precedentemente occupato dalla macchina fotografica stessa. Potrebbe quindi essere intesa come un’accelerazione del progetto di spiazzamento del soggetto percettivo umano e dell’occhio che vede. Ciò che vediamo quando vediamo l’output della computer vision, se questo output è anche reso in forma di immagine, è una prospettiva impossibile per la visione umana […] I dati dell’immagine inquadrati dalla computer vision appartengono a un altro spazio, uno spazio che non rappresenta più un possibile punto di vista per gli esseri umani. Ciononostante, la computer vision si afferma come superiore e gli utenti di queste tecnologie sono incoraggiati a identificarsi con questo sguardo impossibile»[6].
Pensiamo anche a tutte quelle occasioni in cui interfacce e schermi ci restituiscono viste innaturali per l’umano. Per fare un primo esempio quotidiano, le telecamere che riprendono e visualizzano sul cruscotto di un’auto il retro della stessa: immagini a schermo arricchite ulteriormente, magari, con misure di distanza e segnali sonori di allerta. Quelle visioni sarebbero per noi impossibili: guardare avanti per vedere dietro in sostanza. Anche solo questo contesto di vita ci racconta di come si stiano formando sorprendenti modalità oltreumane e nuovi regimi di visibilità computazionali, e con essi una nuova esperienza di osservazione e conoscenza del mondo, sempre più mediate dalle tecnologie della visione macchinica artificiale e sintetica (nel caso dell’auto ancora con immagini prodotte da macchine perché vengano viste da umani, ma sempre più anche senza di questi).
La visione artificiale si è storicamente evoluta all’incrocio di operazioni militari, belliche e panoptiche di sorveglianza (pensiamo alla guerra del Vietnam e alla Guerra Fredda), strumentalità tecnologiche (video-sensori, dati e algoritmi discriminativi), esperimenti neuro-fisiologici (tra neuroscienze, biologia e psicologia). Gli anni Sessanta e Settanta avviano e strutturano questo campo di ricerca applicata a molti domini (dalla scene analysis alla face recognition) che, sul finire degli anni Ottanta, si riconoscerà ufficialmente sotto l’etichetta di computer vision. L’obiettivo della nuova disciplina sarà quello di sviluppare capacità macchiniche automatizzanti per estrarre informazioni su e da scene e contesti della realtà, analizzandone le immagini. Il focus originario fu dunque su tecniche in grado di riconoscere schemi significativi di dati nelle immagini, di fare un’analisi visiva di contesti e situazioni reali, di individuare ambienti, persone e oggetti raffigurati dentro fotografie o filmati (pattern recognition, scene analysis, image understanding), per esempio per poter riconoscere automaticamente la presenza di navi in un porto a partire dall’analisi di una fotografia aerea. E in effetti agli inizi molti degli sviluppatori di algoritmi per la visione automatizzata via machine learning furono addestrati come analisti militari di immagini filmiche areali.
Nell’ontologia a base pixel delle visualizzazioni digitali, tecnicamente – sintetizza Dobson – una volta che un’immagine viene quadrettata in pixel e a ogni pixel viene assegnato un valore numerico, questa griglia quantitativa rappresenta la «visione» della macchina. Da questa è possibile poi fare tutta una serie di trasfigurazioni o variazioni sull’immagine. Per aumentare la brillantezza basta aggiungere un valore costante a ogni pixel. Per invertire l’immagine basta sottrarre il valore numerico dei pixel, mentre per ruotarla basta trasporre la griglia di numeri. Per avere un’immagine media da una serie di immagini basta calcolare la media dell’intensità numerica dei pixel e usarla come valore degli stessi. In fondo è questa individuazione e manipolazione quantitativa dei valori numerici dei pixel uno dei modi della «visione» della macchina. E i confini visuali di oggetti e persone sono allora semplicemente sottomatrici di pixel contigui, che consentono di individuare regioni circoscritte dello spazio visivo nell’immagine.
Questa descrizione tecnica veloce e semplificata nasconde in realtà una complessità fatta di dati quantitativi, conoscenza del dominio, tecniche digitali, descrizioni linguistiche, processi materiali, momenti decisionali. Non è mai mera esecuzione strumentale, ma esito di una realtà storica assemblata e in divenire che tiene insieme necessità e casualità, automaticità e intenzionalità, tecnicalità e socialità. Umana e non umana.
Fatto sta che la visione artificiale innesca una rottura ontologica concettuale dando vita a un nuovo regime epistemico e scopico. Una volta divenuta dato, l’immagine perde il suo statuto figurativo per divenire altro. È un processamento che disarticola industrie mediali e apparati creativi, alterna fasi produttive con esperti umani a momenti di assenza dell’umano con elaborazioni di dati da parte di macchine per macchine, scompone la visualità anche in componenti non visuali e non grafiche che non richiedono più l’intervento dell’occhio umano. Direi, con una facile assonanza, un passaggio dal visuale (rappresentazione) al virtuale (inteso come computazione).
Le immagini devono essere viste e trattate come informazioni estratte da/per algoritmi e non da umani in forma di contenuto visivo e grafico. Come accaduto per la lingua, divenuta calcolo automatizzato di probabilità su testi senza referenza col mondo, anche qui si perde il riferimento primario al referente reale per lasciar posto a un processamento di dati e di modelli fatto da macchine. C’è dunque un osservare che tende a lasciare l’umano fuori dal loop. O, meglio, che ne mette in questione la necessità quando non proprio a decretarne l’estraneità. Sono le tecnologie della visione astensive dell’umano (non meramente estensive dell’umano): quelle per le quali la presenza antropica è esclusa e l’occhio umano assente. Aveva ben colto il filosofo francese Paul Virilio nel suo saggio pionieristico La machine de vision (1988) questa nuova direzione tecnologica verso una visionique (una «visionica»)[7], così l’aveva etichettata all’epoca questa disciplina immaginata emergente dell’automazione visuale. Con possibilità di ottenere macchinicamente «une vision sans regard», una visione senza sguardo. Immagini di sintesi realizzate da una macchina per una macchina («par la machine pour la machine»). Virilio aveva anche prefigurato l’emergere di una sorta di immaginario macchinico da cui noi saremmo stati questa volta esclusi, e aveva legato questo processo molto lucidamente a una industrializzazione del non-sguardo. Lo aveva fatto senza sapere come l’intelligenza artificiale avrebbe ingegnerizzato l’automazione del vedere fino ai successi dei nostri giorni. In effetti, nel saggio c’è solo un accenno alla visione macchinica equiparata al percettrone (progenitore delle reti neurali artificiali usate nella computer vision).
Per altro, era nello spirito di Rosenblatt, inventore del percettrone, la costruzione di un algoritmo prima (1957) e di una macchina poi (1960) che fossero in grado, in autonomia, di raccogliere informazioni e conoscenza dal mondo fenomenico (luce, suono, temperatura) senza prevedere l’intervento di un soggetto umano per codificare questa percezione. Il nome stesso «percettrone» richiama esattamente il senso di un dispositivo elettronico costruito per percepire. La prima macchina di Rosenblatt (Mark 1) fu proprio un fotopercettrone, avendo il sensore di luce come unico stimolo sensoriale. Negli anni successivi venne anche usata una foto di George Harrison dei Beatles come test dimostrativo (documentato dalla BBC) delle capacità del percettrone di discriminare. Pur avendola correttamente indicata come immagine di un uomo, la macchina aveva impiegato più tempo del solito a classificare il genere, secondo il narratore del documentario a causa dei lineamenti facciali e del taglio particolare dei capelli dell’artista. Alla fine, la visione della macchina aveva comunque dato esito soddisfacente individuando in quella foto un uomo.
Al di là delle cronache storiche che ci riportano euforie e disillusioni (inverni e primavere dell’intelligenza artificiale) insieme a critiche e scontri (Marvin Minsky attaccherà nel 1969 l’approccio del percettrone nel suo saggio Perceptrons scritto con Seymour Papert), proteste socio-politiche e contestazioni di attivisti e studenti per l’uso della visione macchinica nella guerra in Vietnam («Stanford Research Goes to War» titolò nel 1967 il giornale studentesco dell’Università di Stanford Resistance), ciò che è importante qui è cogliere filosoficamente i cambi nella natura dell’immagine e nel modo di analizzarla attraverso le macchine. Si passerà presto, per esempio, dall’analisi percettiva basica dei pixel all’analisi della scena con tecniche di rappresentazione simbolica di alto livello. I dati diventeranno metadati con caratteristiche automaticamente riconoscibili da una macchina, e le immagini da descrittive (pittoriche) diventeranno rappresentative (simboliche). Se le tecniche (il «come») della visione artificiale cambieranno nel tempo (dalla matrice dei pixel ai sistemi esperti fino alle reti neurali artificiali), il «cosa» e il «perché» rimarranno fissati e incontestati: costruire una macchina in grado di vedere in assenza dell’umano.
Di fatto, passare al setaccio centinaia di foto aeree alla ricerca di armamenti nemici e siti bellici per capire strategie, logistiche e risorse in campo – come facevano fotointerpreti militari umani durante la guerra vietnamita – non era fattibile in termini di tempo eccessivo di lavoro, di esperti nel dominio reperibili, di pressioni militari crescenti e di risorse finanziarie da impiegare. Era necessario uno sguardo altro. Più non si sarebbero incantati (o terrificati) i nostri occhi, potremmo dire evocando Neruda.
A poco meno di quarant’anni dal testo viriliano, la sua predizione è arrivata oggi a compimento. Di fatto, il nostro è un mondo in cui la fotografia non-umana è diventata uno dei paradigmi portanti della visualità contemporanea. Con una storia lunga dalla fotointerpretazione militare della passata cold war alla dronificazione securitaria dell’attuale cyber war, il pianeta latente si viene terraformando con questa ingegneria e filosofia del non-sguardo. Insieme alle provocazioni culturali che porta con sé, tanto ontologiche quanto politiche, come ci ricorda Joanna Zylinska evocando per l’appunto l’emergere di un’era postfotografica macchinica. Un’epoca in cui il concetto umano-centrico di fotografia si espande e direi anche esplode proprio per incorporare pratiche di visualizzazione dalle quali l’umano è assente. O, meglio, non presente con i suoi antichi protagonismi.
Nelle varie declinazioni possibili del post-umano, la visualità del «dopo l’umano» è la visualità del «senza l’umano». Di più, direi: con l’arrivo dell’intelligenza generativa è anche una visualità «senza il mondo». Non solo senza l’umano.
[1] Dobson chiarisce lo scopo del suo lavoro ricostruttivo. Scrive: «Uno degli obiettivi principali di questo libro è quello di decostruire la divisione assoluta che è stata tracciata tra la visione umana e quella macchinica. L’invenzione della visione computerizzata ha prodotto uno spostamento del soggetto umano osservatore, ma questo spostamento non ha eliminato il soggetto percettivo umano dalla visione computerizzata. I primi resoconti della visione computerizzata, in particolare, mettono in campo la fantasia di una modalità di percezione completamente autonoma e, allo stesso tempo, dipendono dall’estrazione di conoscenza da percezioni precedenti, anche se queste sono composite e non più indicizzate a un singolo osservatore. Qualsiasi prospettiva di visione artificiale, come sosterrò nei capitoli successivi, esiste solo come risultato della codifica di conoscenze e percezioni preesistenti, immaginate, inquadrate, sperimentate e descritte dagli esseri umani. In breve, la percezione umana è la precondizione per la visione artificiale» (James E. Dobson, The Birth of Computer Vision, Minnesota University Press, Minneapolis 2023, pp. 3-4).
[2] Il lavoro di Parikka approfondisce questo concetto di immagini operative: «[…] un concetto emerso per la prima volta nell’opera audiovisiva (film e videoinstallazioni) e negli scritti di Harun Farocki. La definizione, spesso evocata ma quasi sempre non sufficientemente sviluppata, è semplice ed è già in qualche modo evidente nel termine stesso: ci sono immagini che operano principalmente, non sono necessariamente rappresentative
o pittoriche. Le immagini operative mettono in crisi ciò che un’immagine è, nella misura in cui passano dalla rappresentazione alla non rappresentazione, dal primato della percezione umana di corpi, movimenti e cose alla misurazione, all’analisi dei modelli, alla navigazione e altro ancora» (Jussi Parikka, Operational Images. From the Visual to the Invisual, Minnesota University Press, Minneapolis 2023, «Introduzione»).
[3] Joanna Zylinska, Non-Human Photography, The MIT Press, Cambridge (MC) 2017.
[4] Joanna Zylinska, The Perception Machine. Our Photographic Future between the Eye and AI, The MIT Press, Cambridge (MC) 2023.
[5] Michael Richardson, Non-Human Witnessing. War, Data, and Ecology after the End of World, Duke University Press Books, Durham (NC) 2024, p. 3.
[6] James E. Dobson, The Birth of Computer Vision, Minnesota University Press, Minneapolis 2023, p. 5.
[7] Paul Virilio, La Machine de vision, Edition Galilée, Parigi 1988, p. 125.