Dai gatti di Google ai campi di battaglia: breve storia del riconoscimento facciale
- 20 Maggio 2025

Dai gatti di Google ai campi di battaglia: breve storia del riconoscimento facciale

Scritto da Gregorio Staglianò

10 minuti di lettura

Reading Time: 10 minutes

Se state leggendo un articolo da uno smartphone, è probabile che abbiate utilizzato il riconoscimento facciale per sbloccarlo, attendendo che l’algoritmo analizzasse il vostro volto e vi concedesse l’accesso. Quella che un tempo era considerata fantascienza è oggi una realtà profondamente integrata nella nostra quotidianità: la tecnologia di riconoscimento facciale semplifica operazioni come la protezione dei dispositivi, l’accesso a servizi online e i pagamenti digitali. Rappresenta una delle innovazioni tecnologiche più promettenti e al contempo più controverse del nostro tempo, specialmente alla luce delle potenzialità ancora inespresse dello sviluppo di tecniche di riconoscimento alimentate dall’intelligenza artificiale (IA), le cui applicazioni non si limitano agli ambiti civili e commerciali. Difatti, se in alcuni contesti è questa tecnologia è utilizzata per migliorare la sicurezza e l’efficienza di migliaia di dispositivi, in altri assume connotazioni più oscure, venendo impiegata in programmi di sorveglianza di massa e di controllo sociale, fino all’utilizzo sul campo di battaglia. Un esempio emblematico è la Cina, dove il riconoscimento facciale viene utilizzato su larga scala per monitorare e tracciare i movimenti dei membri della comunità turcofona degli uiguri nella regione dello Xinjiang. Negli Stati Uniti, questa tecnologa è impiegata per costruire vari database di sospettati, molto dei quali immigrati, bypassando spesso le ordinanze dei tribunali. In altri Paesi come Russia, Arabia Saudita, India e Iran, viene adottata per mantenere l’ordine pubblico entro confini definiti dai governi, contribuendo a un sistema di controllo sociale sempre più pervasivo. Una vera e propria esplosione tecnologica impiegata ampiamente anche nei due maggiori conflitti attualmente in corso: quello in Ucraina, e quello tra Israele e Hamas.

È paradossale osservare come la diffusione di questa tecnologia, con le sue profonde implicazioni etiche e geopolitiche, abbia avuto origine da un esperimento apparentemente innocuo: insegnare a un algoritmo a riconoscere immagini di gatti. Questo sviluppo non solo testimonia la straordinaria capacità dell’IA di evolversi, ma mette in luce una dinamica più ampia e complessa che riguarda i percorsi imprevisti che segue l’evoluzione tecnologica, il cui impatto dipende in larga misura dall’uso che le società decidono di farne.

Sebbene l’esperimento abbia segnato una svolta decisiva nel rilancio del riconoscimento facciale, le radici di questa tecnologia risalgono a decenni prima, agli anni Cinquanta, quando Woodrow Wilson “Woody” Bledsoe, matematico e pioniere dell’informatica, intraprese una delle sfide più ambiziose della sua epoca: insegnare alle macchine a distinguere e riconoscere i volti umani. In un contesto in cui persino la digitalizzazione delle immagini era considerata futuristica, Bledsoe mise a frutto la sua formazione in matematica e la sua esperienza nel programma nucleare americano per esplorare territori del tutto nuovi. Il suo progetto, visionario e precursore, mirava a sviluppare algoritmi in grado di decodificare modelli visivi complessi, una capacità fino ad allora esclusiva dell’essere umano. A tal fine, Bledsoe fondò nel 1960 la Panoramic Research Incorporated, società attraverso cui concretizzò i suoi studi e dove mise a punto il cosiddetto metodo delle n-tuples.

Questa tecnica consisteva nel suddividere un’immagine in una griglia di piccole aree, simili ai pixel, da cui venivano estratte caratteristiche distintive, come la posizione degli occhi o la forma della bocca. Questi dati venivano poi confrontati con un database di immagini, cercando corrispondenze che potessero identificare un volto. Le basi per l’utilizzo del riconoscimento facciale erano state gettate, e ben presto qualcuno se ne accorse. Non gli investitori, che scarseggiavano, e nemmeno il settore privato; ma la CIA, che intravide nel riconoscimento facciale un potenziale strumento per la sicurezza nazionale e cominciò a finanziare gli studi e le ricerche di Bledsoe. Le sfide, però, erano immense: mancavano fotografie digitali di alta qualità, le macchine erano lente e i database rudimentali. Nonostante ciò, Bledsoe, esperimento dopo esperimento, riuscì a “insegnare” alle macchine a riconoscere i volti, partendo da un database di dieci volti e arrivando fino a circa ottocento, scomponendo e sezionando le immagini per dare in pasto al computer un pezzo di informazione alla volta.

Dopo i promettenti sviluppi degli anni Sessanta, il riconoscimento facciale entrò in un periodo di stagnazione. Le macchine dell’epoca erano lente e costose, e l’assenza di applicazioni pratiche immediate scoraggiò investimenti significativi. Le priorità tecnologiche e strategiche degli anni Settanta e Ottanta si concentrarono su ambiti più tangibili, come i sistemi satellitari e i missili, spinte dalla corsa tecnologica della Guerra Fredda. Nel frattempo, il campo della nascente IA si orientava verso altre aree, come il riconoscimento vocale e l’elaborazione del linguaggio naturale, ritenute più promettenti. La visione di Bledsoe sembrava destinata a rimanere un sogno irrealizzato, confinato ai laboratori accademici. Il riconoscimento facciale, però, conobbe una fase di rinnovato slancio a partire dagli anni Novanta grazie all’avvento di computer e macchine più potenti, alla presenza di immagini digitali di qualità superiore e alla crescente disponibilità di dataset per l’addestramento di algoritmi.

Ma la svolta decisiva arrivò solo nel 2012. Nei laboratori di Google X – gli stessi che stavano lavorando sulle auto a guida autonoma e sugli occhiali a realtà aumentata – un team di ricercatori, guidato dall’informatico dell’Università di Stanford Andrew Ng e dal collega di Google Jeff Dean, condusse un esperimento destinato a cambiare per sempre il corso della storia del riconoscimento facciale. Utilizzando 16.000 processori, i due costruirono una rete neurale con oltre un miliardo di connessioni, che analizzò dieci milioni di immagini tratte da migliaia di video di YouTube per testare la capacità di riconoscimento visivo del cervello artificiale. Sorprendentemente, oltre a riconoscere i volti umani con un’accuratezza superiore alle aspettative, la rete imparò autonomamente a riconoscere i volti dei gatti presenti nei frame dei vari video visionati. La rete neurale di Google, imparando autonomamente dai dati, costruì il concetto di “gatto” senza essere esplicitamente programmata per riconoscerlo. Attraverso un processo simile a una gerarchia di memorie, il sistema identificò e combinò progressivamente le caratteristiche distintive che definivano l’immagine dell’animale, in modo analogo a come il cervello umano impara a riconoscere gli oggetti. Sebbene la rete neurale alimentata dall’intelligenza artificiale fosse di dimensioni relativamente modeste rispetto alla corteccia visiva umana – che contiene un numero di neuroni e sinapsi milioni di volte maggiore – l’esperimento fornì una prova convincente che gli algoritmi di apprendimento automatico sarebbero migliorati drasticamente se avessero avuto accesso a enormi quantità di dati. Non si trattava solo di riconoscere umani e gatti: era l’alba dell’era del riconoscimento facciale alimentato dall’IA senza il supporto umano aggiuntivo.

Ma in quell’anno cruciale le novità non erano finite. Nel settembre il mondo dell’IA venne nuovamente scosso dalla vittoria di AlexNet, una rete neurale convoluzionale (convolutional neural network, CNN), sviluppata da Alex Krizhevsky, Ilya Sutskever e Geoffrey Hinton, dell’Università di Toronto, alla gara annuale dell’ImageNet Large Scale Visual Recognition Challenge (ILSVRC), tuttora una delle competizioni più prestigiose nel campo della visione artificiale. I partecipanti dovevano sviluppare algoritmi in grado di classificare immagini in un dataset chiamato ImageNet, contenente circa 1,2 milioni di immagini di addestramento, 50.000 immagini di validazione e 150.000 immagini di test suddivise in varie categorie – animali, oggetti, strumenti, e così via. Per intenderci, le immagini che un sito web ci chiede di riconoscere per dimostrare che non siamo dei robot, quando proviamo ad accedervi, molto probabilmente provengono dal database di ImageNet. Quell’anno AlexNet sbaragliò la concorrenza con un tasso di errore molto basso rispetto alla media – del 15,3% rispetto al 26% del secondo classificato. Una riduzione impressionante, resa possibile grazie ad una tecnica allora innovativa chiamata deep learning: la branca dell’IA che utilizza reti neurali profonde con molteplici “strati” per apprendere e risolvere compiti complessi, come il riconoscimento di immagini, la comprensione del linguaggio e la traduzione automatica, tramite l’elaborazione di grandi quantità di dati. Tale balzo in avanti dimostrava che le reti neurali profonde, se addestrate correttamente, potevano superare di gran lunga le tecniche tradizionali di visione artificiale.

L’importanza di questo sviluppo la si comprende meglio se si pensa che di fronte a cento immagini di gatti un essere umano è in grado di riconoscerne novantacinque, mentre nel 2015 un algoritmo di Microsoft raggiunse il 96% di precisione – partecipando e vincendo la ILSVRC, con una rete neurale estremamente più complessa di AlexNet – superando di fatto la capacità umana di riconoscere immagini. Le reti neurali profonde, come quelle utilizzate negli esperimenti di Google, AlexNet e Microsoft, erano strutturate in più strati, ognuno dei quali eseguiva una serie di operazioni matematiche specifiche – i famigerati algoritmi. In queste reti, l’output di ogni strato diventa l’input per il successivo, creando una sequenza di elaborazioni che consente al sistema di apprendere in modo progressivo. Nel caso di una rete neurale progettata per il riconoscimento delle immagini, ad esempio, il primo strato si concentra sull’analisi di caratteristiche di base come bordi, angoli e texture, mentre i successivi strati si occupano di rilevare caratteristiche più complesse, come forme e oggetti. Una delle difficoltà principali di questa struttura però, era rappresentata dal fatto che con il passaggio dei dati attraverso i vari strati, l’algoritmo tendeva a “perdere” parte delle informazioni cruciali, un fenomeno noto come vanishing gradient. Ma Microsoft ha provato a superare tale limitazione introducendo una rete che “salta” alcuni strati quando non sono necessari, utilizzandoli solo quando richiesto, preservando così la potenza del segnale e migliorando l’efficienza dell’apprendimento. Questi progressi segnarono l’inizio di una nuova era. Con il calo dei costi della potenza computazionale e l’aumento della disponibilità di immagini digitali, il riconoscimento facciale divenne rapidamente una tecnologia praticabile, spianando la strada a numerose applicazioni, dal campo medico a quello militare.

Il successo di questi sviluppi nel campo del riconoscimento facciale è stato ampiamente riconosciuto da un pubblico più vasto nel 2016, quando un articolo del The Economist[1] metteva in evidenza come, nonostante decenni di aspettative deluse, l’IA fosse finalmente diventata il fulcro della tecnologia moderna. L’articolo esplorava come il concetto di IA, nato intorno al 1955, avesse attraversato alti e bassi prima di essere “riabilitato” nel 2012 grazie ad AlexNet, che aveva messo in luce il potenziale del deep learning. Come sottolineato dall’articolo, questo evento fece sì che “improvvisamente” l’intero settore tecnologico – e i governi – iniziassero a prestare attenzione alle potenzialità ancora inespresse del riconoscimento facciale. Con l’avanzamento delle capacità dei sistemi di IA, il riconoscimento facciale divenne non solo un potente strumento di innovazione, ma anche un elemento cruciale nelle dinamiche globali.

Oggi, nell’era dei social media, il web è inondato di immagini provenienti da ogni angolo del mondo, comprese le zone di conflitto. Milioni di video, foto, reel di Instagram e TikTok, facilmente reperibili da teatri di guerra come l’Ucraina o i territori palestinesi, offrono uno spaccato immediato delle conseguenze dei combattimenti. Queste immagini però, non sono solo un mezzo per documentare la realtà della guerra, ma diventano anche risorse cruciali per addestrare gli algoritmi dei sistemi di riconoscimento facciale.

Dallo scoppio del conflitto in Ucraina, per esempio, Clearview AI, azienda leader nel campo del riconoscimento facciale, fornisce gratuitamente la sua piattaforma e i suoi servizi al governo di Kiev, permettendo di identificare soldati russi, spie e altri obiettivi strategici, grazie a un database di oltre venti miliardi di immagini, raccolte dai social media globali, tra cui piattaforme russe come VKontakte. Ciò ha permesso al governo ucraino di utilizzare semplici fotografie per abbinare volti a identità. Clearview AI, secondo i dati disponibili, è in uso in almeno diciotto agenzie governative ucraine, ed è in mano a circa 1.500 funzionari che, come Leonid Tymchenko, viceministro degli Affari Internazionali, utilizzano il software per riconoscere centinaia di soldati russi coinvolti nel conflitto. Il software è in grado di identificare un volto anche se parzialmente sfigurato, bruciato, coperto dalla polvere, con gli occhi chiusi, oppure da altri dettagli come tatuaggi, brandelli di vestiti o uniformi. I funzionari ucraini hanno usato Clearview AI non solo per individuare i soldati sul terreno, ma anche per stanare infiltrati ai checkpoint, identificare e perseguire i membri delle milizie filorusse e dei collaborazionisti ucraini e persino per localizzare più di 190 bambini ucraini rapiti che sono stati trasportati attraverso il confine per vivere con famiglie russe. La collaborazione tra il governo ucraino e l’azienda tecnologica statunitense ha rappresentato un’opportunità strategica per entrambe le parti: da un lato, l’Ucraina ha ottenuto strumenti innovativi per contrastare un esercito invasore militarmente superiore; dall’altro, Clearview AI ha colto l’occasione per addestrare i suoi algoritmi e per consolidare la sua reputazione attraverso l’efficacia dimostrata in un contesto di crisi. Questa collaborazione ha infatti consentito all’azienda di mitigare parte delle critiche ricevute in passato per il controverso utilizzo di miliardi di immagini pubbliche online, violando il diritto alla privacy di milioni di cittadini inconsapevoli.

Se è vero che l’azienda ha fornito al governo ucraino un supporto essenziale in una fase cruciale del conflitto, è anche vero che l’uso estensivo della sua tecnologia solleva interrogativi complessi riguardo al suo impiego. Per i suoi sostenitori, il beneficio apportato dal riconoscimento facciale al fine di identificare presunti criminali di guerra o localizzare bambini rapiti va ben al di là del prezzo da pagare in termini etici e di privacy. Ma i suoi detrattori sostengono che l’Ucraina potrebbe decidere di integrare tale tecnologia nella propria infrastruttura di sicurezza anche una volta terminata la guerra, con il rischio di favorire l’espansione di pratiche di sorveglianza di massa o altri potenziali abusi, compromettendo il cammino democratico del Paese verso i requisiti richiesti da Bruxelles per l’adesione all’Unione Europea, protetta da normative stringenti per la protezione dei dati dei suoi cittadini. La questione appare controversa non solo a causa dell’obsolescenza delle leggi sulla privacy attualmente in vigore nel Paese, ma anche alla luce della decisione di numerosi Paesi europei, come Francia, Austria, Italia, Grecia e Regno Unito, di vietare l’utilizzo dei software di riconoscimento facciale dell’azienda, evidenziando le controverse implicazioni etiche e legali di questa tecnologia.

Anche Israele utilizza massicciamente sistemi di riconoscimento facciale alimentati dall’IA per sviluppare un vero e proprio programma di sorveglianza di massa dei palestinesi. Amnesty International riporta[2] infatti come Tel Aviv stia utilizzando tecnologie di riconoscimento facciale e di sorveglianza ai checkpoint a Gaza e nei territori occupati, passando al setaccio digitale migliaia di volti di palestinesi e trattenendo chiunque sia sospettato di avere legami con Hamas. Lo stesso report riporta come Israele stia raccogliendo i dati biometrici dei palestinesi senza il loro consenso, in un gigantesco database noto come Wolf Pack, attraverso sistemi noti come Blue Wolf e Red Wolf. Il sistema Blue Wolf, introdotto dall’IDF (Israel Defense Forces), è progettato per raccogliere il maggior numero possibile di immagini biometriche di palestinesi, attraverso un meccanismo di gamification, che premia con incentivi – come permessi retribuiti – le unità militari che catturano il maggior numero di foto settimanali. Il sistema Red Wolf, invece, risulta essere impiegato prevalentemente ai posti di blocco per la scansione dei i volti dei palestinesi. L’app, tramite un algoritmo, assegna un indicatore visivo (verde, giallo, rosso) che determina se una persona può attraversare o meno il posto di blocco, imponendo spesso restrizioni arbitrarie basate sull’algoritmo e sulla profilazione razziale, limitando l’accesso dei palestinesi a diritti fondamentali e generando episodi di esclusione ingiustificata. Tutte le informazioni raccolte dalla tecnologia alla base del funzionamento dei sistemi Blue e Red Wolf vengono raccolte nel database Wolf Pack, usato per consolidare le operazioni di sorveglianza. Fornendo supporto ai sistemi di sorveglianza usati dal governo israeliano, questo sistema è quindi in grado di decidere in tempo reale l’accesso ai territori e la gestione delle attività dei palestinesi.

Molte delle tecnologie più rivoluzionarie della storia hanno finito per avere applicazioni ben diverse da quelle inizialmente immaginate. L’energia nucleare, nata per generare elettricità, è stata trasformata in un’arma di distruzione di massa. Internet, progettato per migliorare le comunicazioni accademiche e militari, ha creato un ecosistema globale di informazione, ma anche nuove minacce come la disinformazione e la sorveglianza di massa. Allo stesso modo, l’IA, sviluppata per replicare capacità cognitive umane, è diventata l’infrastruttura alla base di innovazioni che spaziano dalla medicina alla difesa.

Il riconoscimento facciale incarna perfettamente questa traiettoria: nato come esercizio accademico per migliorare la computer vision, si è trasformato in una tecnologia onnipresente, utilizzata per applicazioni che vanno dall’accesso ai dispositivi personali alla sorveglianza di massa. Questa tecnologia potrà senz’altro favorire il progresso, ma anche amplificare le disuguaglianze e ridurre le libertà individuali, a seconda delle scelte etiche e politiche di chi avrà la responsabilità di implementarla. Tale evoluzione sottolinea l’urgenza di una governance responsabile: non basta limitarne gli abusi, è essenziale orientarne lo sviluppo verso applicazioni che massimizzino i benefici per la collettività e riducano al minimo i rischi. Ciò richiederà un impegno congiunto di governi, aziende e cittadini per definire non solo ciò che la tecnologia potrà fare, ma ciò che dovrebbe fare al fine di garantire il rispetto dei diritti fondamentali di milioni di cittadini.


[1] Special report | Technology, From not working to neural networking. The artificial-intelligence boom is based on an old idea, but with a modern twist, «The Economist», 23 giugno 2016.

[2] Amnesty International, Automated Apartheid. How Facial Recognition Fragments, Segregates and Controls Palestinians in the OPT, maggio 2023.

Scritto da
Gregorio Staglianò

Ricercatore, dottorando all’Università degli Studi di Roma Tre. Si occupa di tecnologia e sicurezza internazionale. È uno dei giovani storici del programma “Passato e Presente” di Rai 3 e collabora con numerosi centri studi e quotidiani su tematiche legate alla cybersecurity, all’IA e alla difesa. È autore di: “Il declino dell’Occidente nell’egemonia globale e nei rapporti di potere” (Eiffel Edizioni 2017).

Pandora Rivista esiste grazie a te. Sostienila!

Se pensi che questo e altri articoli di Pandora Rivista affrontino argomenti interessanti e propongano approfondimenti di qualità, forse potresti pensare di sostenere il nostro progetto, che esiste grazie ai suoi lettori e ai giovani redattori che lo animano. Il modo più semplice è abbonarsi alla rivista cartacea e ai contenuti online Pandora+, è anche possibile regalare l’abbonamento. Grazie!

Abbonati ora

Seguici