“Una cultura diversa da quella occidentale”: come la polizia basca utilizza un algoritmo per la violenza di genere

 

Postiamo, per facilitare la lettura,  questa traduzione  effettuata con l’assistenza di google translator dell’articolo di Algorithm Watch “Una cultura diversa da quella occidentale”: come la polizia basca utilizza un algoritmo per la violenza di genere,  . Per un uso di studio o professionale raccomandiamo di fare riferimento al testo originale alla fonte . editor

 

Fonte Algorithm Watch  che ringraziamo 

Autrice :  Naiara Bellio *

 

La polizia dei Paesi Baschi utilizza un algoritmo per prevedere la violenza di genere. L’accuratezza dello strumento non è chiara e lascia molto spazio alle opinioni personali degli agenti di polizia.

 

Gli strumenti per prevedere il rischio in situazioni di conflitto sono all’ordine del giorno. Esistono e sono in uso da decenni, in gran parte anticipando l’entusiasmo per l’Intelligenza Artificiale. Molti di loro non usano il Machine Learning. Invece, si basano su un questionario psicologico progettato e valutato da persone, ciascuna con i propri pregiudizi e pregiudizi.

La violenza di genere è un’area in cui viene posta molta enfasi sugli strumenti di previsione, sebbene non tutti i sistemi siano ampiamente conosciuti. Mentre la comunità di ricerca ha familiarità con l’algoritmo spagnolo VioGén e il questionario Ontario Domestic Assault Risk Assessment (ODARA) in Canada, un algoritmo dei Paesi Baschi, una regione autonoma nel nord della Spagna, è scivolato sotto il radar.

Lo strumento si chiama EPV, che in spagnolo sta per “ Escala de predicción del riesgo de violencia grave contra la pareja ” – o Intimate Partner Femicide and Severe Violence Assessment. È stato creato nel 2005 ed è in uso dal gennaio 2007, quindi in realtà esisteva prima di VioGén. Una versione “rivisitata” creata nel 2010, denominata EPV-R, è attualmente utilizzata dall’Ertzaintza, il corpo di polizia che opera nei Paesi Baschi.

Viogén e EPV-R non sono lo stesso strumento. Usano diverse serie di domande e diverse analisi statistiche e gli agenti di polizia baschi devono effettuare specifiche chiamate di giudizio quando applicano il questionario. In particolare, decidono se una persona è molto o poco gelosa o se proviene da un paese con “una cultura diversa da quella occidentale”.

Un algoritmo con potere giudiziario
L’ equivalente di VioGén nei Paesi Baschi è una piattaforma informatica, che la polizia usa per smistare i casi relativi al genere e alla violenza domestica, chiamata EBA ( Emakumeen eta Etxekoen Babesa in Euskera, la lingua dei Paesi Baschi – che significa Protezione delle donne e delle famiglie). Attraverso questo programma, la polizia assegna alle vittime le probabilità di rischio e la protezione della polizia.

Questo processo corre parallelamente alle indagini giudiziarie. Ciò significa che l’Ertzaintza ha un proprio protocollo per assegnare misure di protezione per le vittime, anche se il caso non è stato ancora deciso da un giudice, ed è gestito dalla polizia in base alla valutazione del rischio assegnata a ciascuna persona. La valutazione può cambiare se la polizia riesce a raccogliere maggiori informazioni dalla vittima, dall’autore del reato o dall’ambiente, ma l’EPV-R sarà sempre coinvolto anche in questo.

Questo al punto che i risultati del questionario sono inseriti in tutti i casi come prova nella relazione ricevuta dai giudici, cosa che non accade in altri sistemi simili. I giudici quindi affrontano la dicotomia tra la loro opinione sul livello di rischio e quella assegnata dalla polizia e l’algoritmo.

La nazionalità conta (ma alcuni contano più di altri)
EPV-R è un questionario composto da 20 domande che forniscono un punteggio fino a un massimo di 48 punti, spiega ad AlgorithmWatch Oskar Fernandez, ispettore capo in Ertzaintza e sviluppatore della piattaforma EBA. Alcune delle domande valgono solo un punto mentre altre, con un valore predittivo maggiore, valgono fino a tre punti. Gli ufficiali devono porre un minimo di 12 domande, di cui sei devono essere quelle di maggiore valore predittivo. Un punteggio superiore a 24 punti significa che il rischio è grave, superiore a 18 è alto, superiore a 10 è medio e se il punteggio scende al di sotto di 9, è presumibilmente basso.

Questionario stampato utilizzato durante le denunce di violenza di genere nei Paesi Baschi. Fornito ad AlgorithmWatch da Ertzaintza.
Fernandez spiega che il questionario non viene necessariamente chiesto alle vittime in ordine numerico. La prima domanda della lista vale solo un punto, ma fa riferimento al fatto che le vittime stesse o gli aggressori siano “stranieri” – solo che la parola usata non si riferisce a tutti gli stranieri: “Questa domanda si riferisce a persone che hanno un cultura diversa da quella occidentale”, chiarisce, e fa l’esempio di come una persona proveniente dalla Francia o dai Paesi Baschi francesi non conterebbe come straniero.

“Si applicherebbe solo in tutti i casi in cui esiste una comprensione culturale diversa da quella europea quando si tratta di una coppia”, afferma Fernandez. Sembra che non si segua né una metodologia specifica né un elenco di paesi a cui si fa riferimento man mano che il questionario procede, e la scelta per gli ufficiali è soggettiva.

I dati raccolti dall’Istat sui reati sessuali mostrano che, in generale, un quinto di questi reati è perpetrato da stranieri. Tuttavia, la nazionalità continua a emergere come un fattore necessario e imperativo negli algoritmi di valutazione del rischio, come si è visto con altri esempi in Spagna come RisCanvi , uno strumento informatico utilizzato in Catalogna per prevedere se un condannato recidiverà dopo la pena detentiva. La nazionalità è anche uno dei punti di analisi utilizzati dai valutatori che utilizzano questo algoritmo.

La maggior parte delle domande con un “maggiore valore predittivo” si riferiscono alla violenza: se c’è una storia con l’autore del reato che è stato violento con qualcuno diverso dal proprio partner, se sono state fatte minacce di morte, sono state utilizzate armi o se l’autore del reato è intensamente geloso.

Ricercatori indipendenti che hanno esaminato il funzionamento dell’algoritmo considerano alcuni di questi parametri molto complicati da valutare, ad esempio quelli relativi alla gelosia dell’autore del reato. “Da una prospettiva più filosofica, il problema sta nel quantificare misure troppo soggettive”, afferma Ana Valdivia, ricercatrice dell’Oxford Internet Institute e membro di AlgoRace . A questo, Fernandez dice che a volte la gelosia è così “ovvia” e “apparente” che “non è necessario essere uno psicologo” per rilevarli. Pertanto, la valutazione tra 0 e 3 punti dipende dall’interpretazione di ciascun agente.

Fernández ha anche spiegato che oltre alla valutazione congiunta del rischio, usano il software anche per rilevare segni di violenza indiretta e tentativi di suicidio da parte dell’autore, che poi comunicano ai giudici. Sottolinea di ritenere che, affinché lo strumento funzioni correttamente, la partecipazione delle persone sia essenziale. “Chiaramente l’introduzione dello strumento è stata un successo, tenendo conto che dal 2011 nessuna vittima protetta dall’Ertzaintza è stata uccisa nei Paesi Baschi”, aggiunge.

Tra il 2002 e il 2020, i numeri relativi alle vittime assassinate di violenza di genere degli ultimi due decenni sono simili: 47 donne sono state assassinate nel periodo di 18 anni, quasi la metà (20) dal 2011. I dati statistici raccolti da Emakunde, l’ istituto basco per le donne, non specifica se queste donne fossero o meno sotto protezione della polizia.

Una tendenza al ribasso
Fernandez ha detto ad AlgorithmWatch che possono aumentare la valutazione del rischio fornita da EPV-R, ma non ridurla mai: “Normalmente aumentiamo la valutazione del rischio offerto da EPV-R”. Alla domanda sul numero di volte in cui hanno fatto ricorso a questa azione da quando lo strumento è stato operativo, ha affermato che Ertzaintza non utilizza dati storici nelle sue procedure quotidiane, quindi non è registrato attivamente.

Questa tendenza, tuttavia, è in linea con i risultati di uno studio preliminare effettuato nel 2022 sulle prestazioni dell’algoritmo. Il rapporto mostra che durante la valutazione dei casi che erano stati catalogati come ad alto rischio, la metà delle volte (53%) l’algoritmo ha concluso che il rischio era basso.

“Il numero di falsi negativi è superiore a quello dei veri positivi quando il punteggio limite è 10. Ciò significa che è più probabile che lo strumento di valutazione classifichi i casi gravi come non gravi a questo punteggio, il che potrebbe implicare la sottostima dei casi”, riassume il rapporto. Il punteggio limite si riferisce al punto in cui i creatori dell’algoritmo considererebbero che il rischio cambia da grave a non grave.

“Il problema con questo algoritmo è nell’equilibrio tra i veri casi positivi quando il rischio è alto e l’algoritmo lo classifica come tale, e i veri casi negativi quando l’algoritmo dice che il rischio è basso e non fallisce”, dice Valdivia, che è anche uno degli autori dello studio. Spiega perché questo è un problema: “Perché nel peggiore dei casi non gravi, ciò che accadrà è che classificherai i non gravi come gravi e avrai più risorse e protezione. Se invece classifichi un caso grave come non grave, c’è un problema”.

Julián García ha lavorato come giudice istruttore per 14 anni nei Paesi Baschi e ha contribuito all’elaborazione dello studio. Ricorda che in ogni caso riguardante la violenza di genere, avrebbe ricevuto – insieme al verbale contenente la denuncia, i dati medici e la documentazione di polizia – un documento con un grado di valutazione del rischio prodotto da uno strumento chiamato EPV-R, ma con poco contesto su come ha ottenuto il risultato.

“Le domande nello strumento danno un alto valore all’uso di armi o segni di violenza fisica, quindi il risultato non era così affidabile nei casi in cui questa circostanza non era documentata”, dice, e ricorda un caso da lui esaminato in cui un donna con un record di ordini protettivi veniva perseguitata dal suo partner. La osservava da una panchina davanti a casa loro, suonava il campanello di notte e svegliava lei e sua figlia, che dovevano essere curate per problemi di salute mentale. García ha emesso un ordine di protezione e ha ritenuto che il rischio fosse elevato, ma l’EPV-R ha classificato questo caso particolare come basso.

Dicotomia giudiziaria
L’effetto dei risultati dell’algoritmo in tribunale non è facilmente analizzabile. “Quando emettiamo un ordine di protezione presso il tribunale di turno, abbiamo solo la dichiarazione, e normalmente la vittima viene convocata e il presunto aggressore viene arrestato. Può darsi che la vittima testimoni e si vedano chiaramente le condizioni, le ferite, che la violenza non è un evento una tantum ma è stata proiettata negli ultimi mesi… Ma ci sono altri casi in cui non è così chiaro ei giudici istruttori devono prendere una decisione entro un’ora”, afferma Garcia.

In tali casi un giudice potrebbe essere in qualche modo motivato a controllare i risultati dell’EPV-R, ma la letteratura accademica mostra che a volte i propri pregiudizi e pregiudizi superano l’algoritmo. Alcuni studi affermano che nella maggior parte dei casi i giudici ignorano le raccomandazioni algoritmiche , specialmente quando non corrispondono alla loro comprensione del comportamento sociale, ad esempio quando trattano una popolazione razzializzata pur nutrendo tendenze razziste. Altri esperimenti su questo argomento mostrano che la previsione della recidiva da parte dei partecipanti al test sarebbe simile con e senza il consiglio dell’algoritmo. In una minoranza di casi i partecipanti reagivano al consiglio modificando la loro previsione, normalmente quando il sistema prevede che la persona non recidiverà.

Ujue Agudo è uno psicologo che fa ricerca sull’interazione tra persone e sistemi decisionali automatizzati presso Bikolabs e ha condotto diversi esperimenti per capire quanto siano influenzati da ciò che dice un algoritmo. Quando si tratta di valutazione del rischio, trova difficile quantificare questo parametro: “Quando l’algoritmo funziona bene, le persone sono d’accordo, ma quando sbaglia, non ascoltano ciecamente, ma li fa dubitare, quindi finiscono cambiando il loro giudizio”, spiega a proposito di un recente esperimento che ha condotto testando come le persone avrebbero reagito con un sistema come RisCanvi.

“Se ci sono tre diverse opzioni – bassa, media e alta, le persone tenderanno a stare nel mezzo” per paura di essere responsabili della “condanna” di qualcuno, aggiunge. Da un punto di vista psicologico, ciò accade a causa di una combinazione di due fenomeni: bias di automazione e delega di responsabilità. Il problema che stiamo ancora affrontando? Che tutti questi test vengano eseguiti con popolazioni vulnerabili come persone in carcere o vittime di violenza di genere, dice Agudo.

 

* Naiara Bellio  è una giornalista specializzata in tecnologia e diritti digitali.  Ha coordinato per tre anni la sezione tecnologica del sito di fact-checking  Maldita.es , dove si è occupata di fenomeni di disinformazione legati alla vita digitale delle persone. Ha lavorato anche per Agencia EFE a Madrid e in Argentina e per  elDiario.es . In qualità di borsista di AlgorithmWatch, si concentrerà sull’indagine sull’uso indiscriminato dei sistemi ADM da parte delle autorità e in particolare sul loro utilizzo da parte delle istituzioni amministrative spagnole.