g-docweb-display Portlet

Provvedimento del 12 ottobre 2023 [9953841]

Stampa Stampa Stampa
PDF Trasforma contenuto in PDF

[doc. web n. 9953841]

Provvedimento del 12 ottobre 2023

Registro dei provvedimenti
n. 472 del 12 ottobre 2023

IL GARANTE PER LA PROTEZIONE DEI DATI PERSONALI

NELLA riunione odierna, alla quale hanno preso parte il prof. Pasquale Stanzione, presidente, la prof.ssa Ginevra Cerrina Feroni, vicepresidente, il dott. Agostino Ghiglia e l’avv. Guido Scorza, componenti, e il cons. Fabio Mattei, segretario generale;

VISTO il Regolamento (UE) 2016/679 del Parlamento europeo e del Consiglio, del 27 aprile 2016, relativo alla protezione delle persone fisiche con riguardo al trattamento dei dati personali, nonché alla libera circolazione di tali dati e che abroga la direttiva 95/46/CE-Regolamento generale sulla protezione dei dati (di seguito “Regolamento”);

VISTI, in particolare, gli artt. 35 e 36 del Regolamento relativi, rispettivamente, alla valutazione d'impatto sulla protezione dei dati e alla consultazione preventiva dell’Autorità;

VISTO il d.lgs. 30 giugno 2003, n. 196 recante “Codice in materia di protezione dei dati personali (di seguito “Codice”);

VISTO l’art. 110 comma 1, secondo periodo del Codice che, in relazione al trattamento di dati personali per ricerca medica, biomedica e epidemiologica, dispone in particolare che “il consenso non è inoltre necessario quando, a causa di particolari ragioni, informare gli interessati risulta impossibile o implica uno sforzo sproporzionato, oppure rischia di rendere impossibile o di pregiudicare gravemente il conseguimento delle finalità della ricerca. In tali casi, il titolare del trattamento adotta misure appropriate per tutelare i diritti, le libertà e i legittimi interessi dell'interessato, il programma di ricerca è oggetto di motivato parere favorevole del competente comitato etico a livello territoriale e deve essere sottoposto a preventiva consultazione del Garante ai sensi dell'articolo 36 del Regolamento”;

VISTE le Regole deontologiche per trattamenti a fini statistici o di ricerca scientifica adottate dal Garante, ai sensi dell’art. 20, comma 4, del d.lgs. 10 agosto 2018, n. 101, con provvedimento n. 515, del 19 dicembre 2018 (doc. web n. 9069637, di seguito “Regole deontologiche”);

VISTE le Prescrizioni relative al trattamento dei dati genetici e le Prescrizioni relative al trattamento dei dati personali effettuato per scopi di ricerca scientifica, allegati n. 4 e n. 5 al Provvedimento che individua le prescrizioni contenute nelle Autorizzazioni generali che risultano compatibili con il Regolamento e con il d.lgs. n. 101/2018 di adeguamento del Codice, del 5 giugno 2019 (doc. web 9124510);

VISTA l’istanza di consultazione preventiva presentata dalla società SOPHiA GENETICS S.A.S., ai sensi dell’art. 110 del Codice, per la realizzazione dello studio clinico osservazionale retrospettivo, prospettico, multicentrico internazionale volto a “consentire l’analisi dell’aggregazione di dati clinici, biologici, genomici e di imaging multimodali associati alla risposta al trattamento e alla prognosi di pazienti con tumore polmonare non a piccole cellule metastatico (denominato “DEEP-Lung-IV”)” (nota del 20 dicembre 2022);

VISTA la documentazione in atti;

VISTE le osservazioni formulate dal Segretario generale ai sensi dell’art. 15 del Regolamento del Garante n. 1/2000 sull’organizzazione e il funzionamento dell’ufficio del Garante per la protezione dei dati personali, in www.gpdp.it, doc. web n. 1098801;

Relatore la prof.ssa Ginevra Cerrina Feroni;

PREMESSO

1. L’istanza di consultazione preventiva e l’attività istruttoria svolta

Con nota del 20 dicembre 2022, la società SOPHiA GENETICS S.A.S., con sede in Francia (di seguito “Società” o “Sponsor”), ha presentato un’istanza di consultazione preventiva, ai sensi dell’art. 110, comma 1, ultimo capoverso del Codice, in qualità di promotore dello studio clinico multicentrico, osservazionale, retrospettivo e prospettico volto a “consentire l’analisi dell’aggregazione di dati clinici, biologici, genomici e di imaging multimodali associati alla risposta al trattamento e alla prognosi di pazienti con tumore polmonare non a piccole cellule metastatico”, denominato “DEEP-Lung-IV” (di seguito “Studio”), trasmettendo il protocollo, la valutazione di impatto sul trattamento dei dati svolta ai sensi dell’art. 35 del Regolamento, il parere favorevole del “Comité d’Ethique et Scientifique pour les Recherches, les Etudes et les Evaluations dans le domaine de la Sante (Comitato etico e scientifico per le ricerche, gli studi e le valutazioni nel campo della salute, CESREES) [del 10 dicembre 2020] e della Commission Nationale de l’Informatique et des Libertés (Commissione nazionale per l’informatica e le libertà, CNIL) [del 10 maggio 2021]”.

Al riguardo, la Società ha rappresentato di aver aggiornato sia la valutazione d’impatto che il protocollo dello Studio nel 2022 “per includere i pazienti con diagnosi di tumore polmonare non a piccole cellule allo stadio IV a partire dal 1° gennaio 2019, al fine di migliorare la rappresentazione di alcune categorie di pazienti” e che “Questa inclusione porta al reclutamento di pazienti deceduti rispetto ai quali, né lo Sponsor né i centri partecipanti [italiani] potranno raccogliere il consenso […]”, di qui l’esigenza di avanzare l’istanza di consultazione preventiva, ai sensi dell’art. 110 del Codice.

Lo Studio prevede l’arruolamento di circa 4000 pazienti e il coinvolgimento di circa 30 centri partecipanti Europei.

È stato inoltre evidenziato che il “Comitato Etico dell’Area Vasta Emilia Nord (CE AVEN) ha sospeso il parere fino al ricevimento di una valutazione d’impatto sulla protezione dei dati (DPIA) e alla consultazione con il Garante in merito al trattamento dei dati dei pazienti deceduti”.

Lo Studio, la cui durata è indicata in 30 mesi, è volto a perseguire oltre alla “Realizzazione del progetto di ricerca “DEEP-Lung-IV” (finalità primaria)”, i seguenti obiettivi secondari:

“Realizzazione della metanalisi nell’ambito del progetto di ricerca “DEEPLung-IV”;

Sviluppo di un’offerta di prodotti e/o servizi a scopo commerciale,

Miglioramento e/o sviluppo di nuovi prodotti e/o servizi di SOPHiA GENETICS;

Preparazione del caso di studio, esclusivamente sulla base di dati anonimi;

Creazione di un database pseudonimizzato a fini statistici e di ricerca clinica”.

Sono poi indicati molteplici obiettivi esplorativi che potranno inoltre essere ulteriormente individuati nel corso dello Studio.

Lo Studio prevede in particolare lo sviluppo di un modello statistico al fine di prevedere il più accuratamente possibile la prognosi di ciascun paziente, utilizzando i dati multimodali raccolti in occasione della visita iniziale e al momento della prima valutazione.

In relazione alle basi giuridiche del trattamento dei dati, la Società ha rappresentato nella valutazione d’impatto che per le finalità primarie dello Studio essa vada rinvenuta nella “Esecuzione di ricerche, studi e valutazioni nel campo della salute […], di rilevante interesse pubblico, riconosciuto dal CESREES, nel suo parere del 10 dicembre 2020”; con riguardo invece alle finalità secondarie, sopra descritte, esse vadano individuate nell’”interesse legittimo” del titolare del trattamento.

Con specifico riferimento ai tempi di conservazione dei dati la Società ha dichiarato che “Per la finalità principale, la durata massima della conservazione attiva dei dati sarà di due anni dopo l’ultima pubblicazione dei risultati dello studio o, in caso di mancata pubblicazione, fino alla firma della relazione finale della ricerca. In archivio, la durata massima della conservazione dei dati sarà di quindici anni dalla fine dello studio (ossia dopo l’ultima pubblicazione dei risultati dello studio o, in caso di mancata pubblicazione, fino alla firma della relazione finale della ricerca). Per le finalità secondarie del trattamento, i dati saranno conservati attivamente per un periodo di cinque anni dalla data di fine dello studio. Successivamente, in archivio, i dati saranno conservati esclusivamente per adempiere agli obblighi legali di SOPHiA GENETICS”. È stato inoltre precisato che “I dati saranno cancellati dai database e dai back-up al termine dei periodi di conservazione applicabili. Anche le chiavi di crittografia utilizzate per l'archiviazione verranno rimosse”.

In relazione, alle modalità del trattamento, la Società ha indicato nella valutazione d’impatto che “La raccolta e il trattamento dei dati vengono effettuati da un team ristretto e autorizzato all’interno del personale dei centri coinvolti nello studio e di SOPHiA GENETICS. I dati saranno archiviati in un database crittografato di Microsoft di proprietà di SOPHiA GENETICS che implementa le seguenti misure di controllo:

accesso ai dati tramite autenticazione a doppio fattore (grazie al controllo mediante l’applicazione di autenticazione sul cellulare),

diritti di accesso riservati,

tracciabilità dell’accesso ai dati,

dati crittografati in transito e a riposo (…)

l'accesso ai database crittografati di Microsoft Azure viene registrato e associato a utenti univoci

i trasferimenti di dati avvengono solo su canali crittografati che utilizzano protocolli e algoritmi aggiornati”.

In particolare, “La raccolta avviene in ogni centro in tre fasi”. La prima è volta alla “Raccolta dei dati clinici e biologici” da parte del personale abilitato presso i centri che “seleziona i pazienti da arruolare e inserisce nell’eCRF, i dati clinici e di laboratorio in forma pseudonimizzata. I numeri identificativi pseudonimizzati generati dal CRF vengono riportati nella tabella di corrispondenza che rimane memorizzata nel centro”. La seconda fase di raccolta “facoltativa di dati genomici grezzi” i quali, “Se disponibili, vengono raccolti […] limitatamente all'elenco delle mutazioni rilevate nel tumore polmonare del paziente. A tal fine, il file VCF (variant call format) dei dati genomici prodotti mediante NGS (next-generation sequencing), anche in formato PDF […], viene caricato nello strumento di pseudonimizzazione e di pubblicazione in linea fornito da SOPHiA e installato localmente, permettendo di generare nuovi file VCF pseudonimizzati, utilizzati per l’aggregazione dei dati […]. La pseudonimizzazione viene effettuata da personale autorizzato dal centro, utilizzando la tabella di corrispondenza” che invia al server dello Sponsor solo dati pseudonimizzati.

Il processo si conclude con la raccolta dei dati di imaginig che “vengono importati localmente dal sistema di archiviazione del centro e caricati nello strumento di pseudonimizzazione e pubblicazione fornito da SOPHiA e installato localmente, utilizzando i numeri di identificazione degli pseudonimi della tabella di corrispondenza. […] Lo strumento di pseudonimizzazione garantisce in particolare la cancellazione dei dati personali nei nomi dei file e nei metadati delle immagini”.

Sui dati di immagine seguono le ulteriori fasi descritte nella valutazione d’impatto denominate di “convalida delle annotazioni”, “Calcolo dei descrittori radiomici” e di “aggregazione e analisi dei dati multimodali”. In particolare, in quest’ultima fase di trattamento “i dati clinici, genomici e radiomici sono disponibili in tre file (formato testo) contenenti gli identificatori pseudonimizzati di ciascun paziente e i dati interpretabili corrispondenti (non direttamente identificativi). Essi vengono quindi trasferiti su computer SOPHiA GENETICS, con autenticazione sicura e crittografia del trasferimento, in modo da essere aggregati e analizzati. […]” a seguire “Un gruppo ristretto di persone autorizzate è coinvolto in questa procedura e ha accesso ai dati. Al termine dell'analisi, una relazione […] viene generata e trasferita sul server SOPHiA GENETICS. I dati clinici, genomici e radiomici utilizzati vengono quindi eliminati definitivamente dai computer”.

In particolare, la Società svolgerà analisi statistiche sui dati clinici, biologici, radiomici e genomici aggregati di tipo “descrittive”, “predittive” e “esplorative”. Le analisi predittive consisteranno nello sviluppo di algoritmi in grado di fornire una previsione individualizzata dell'esito del trattamento corrispondente agli obiettivi primari e secondari dello Studio. Questi algoritmi forniranno una previsione personalizzata della risposta alle cure, della probabilità di progressione della malattia o della probabilità di sopravvivenza.

La Società, sempre nella valutazione d’impatto, ha descritto un processo volto alla “Realizzazione di progetti interni di ricerca e sviluppo per l’integrazione dell’algoritmo nella piattaforma SOPHiA”, prevedendo in particolare che “L’algoritmo di annotazione automatica delle immagini è progettato per essere integrato nella piattaforma SOPHiA e si evolve attraverso un processo di apprendimento automatizzato basato su ulteriori dati futuri di imaging. La creazione e il mantenimento di questo database di immagini […] vengono conservate e archiviate per un periodo di tempo limitato (5 anni) solo le informazioni di imaging non direttamente identificabili […]”.

La Società ha inoltre dichiarato che intende creare “un database secondario randomizzato[…]. che “sarà conservato separatamente” e “non conserverà alcuna tabella di concordanza” con quello originario. “A tal fine, i dati clinici, genomici e di imaging saranno aggregati dai server Azure di SOPHiA GENETICS con l’ausilio di uno strumento personalizzato interno (non sono coinvolti file system locali). Questo strumento rafforzerà la pseudonimizzazione dei dati con la tecnica di aggiunta di “rumore” per limitare il trattamento di elementi e valori direttamente identificativi. L’obiettivo sarà quello di modificare gli attributi nel set di dati per renderli meno precisi, pur mantenendo la distribuzione generale. A titolo esemplificativo, al posto della data di nascita dei pazienti, sarà conservato solo l’anno di nascita; al posto della data di gestione del paziente, verrà utilizzato un intervallo di tempo; allo stesso modo, non saranno conservate informazioni di carattere geografico. SOPHiA GENETICS si impegna, infatti, a garantire il diritto al rispetto della privacy dei pazienti e della riservatezza delle informazioni che li riguardano”.

Con riferimento al principio di trasparenza e all’obbligo di fornire le informative agli interessati, la Società nella valutazione d’impatto ha indicato di aver redatto in un linguaggio chiaro e comprensibile un foglio informativo individuale per i pazienti che verrà pubblicato anche sul sito internet dello sponsor.

È previsto inoltre il trasferimento dei dati personali oggetto dello Studio in Svizzera, paese che offre un livello adeguato di protezione dei dati personali, sulla base della decisione della Commissione europea in data 26/07/2000 (https://www.garanteprivacy.it/web/guest/home/docweb/-/docweb-display/docweb/997811).

Da ultimo, la valutazione d’impatto reca una specifica sezione in cui il titolare del trattamento descrive le misure di sicurezza che intende implementare per limitare i rischi connessi al trattamento dei dati nell’ambito dello Studio ad un livello accettabile.

Con nota del 13 gennaio 2023 (prot. n. 5809), l’Ufficio ha formulato una richiesta di informazioni al promotore al fine di ottenere specifici chiarimenti in ordine a:

l’indicazione dei centri partecipanti italiani e al relativo ruolo di titolari, contitolari o responsabili del trattamento (artt. 24, 26 e 28 del Regolamento);

alle basi giuridiche del trattamento, tenuto conto che oltre al consenso e alla consultazione preventiva ai sensi dell’art. 110 del Codice, la Società indicava altresì il legittimo interesse del titolare, e, in relazione ai trattamenti svolti per il perseguimento della finalità primaria dello Studio, quella dell'esecuzione di un compito di interesse pubblico;

le modalità con le quali il titolare accerti o conosca dell’avvenuto decesso dei pazienti che si intenderebbero arruolare (punto 5.3 delle Prescrizioni relative al trattamento dei dati personali effettuato per scopi di ricerca scientifica);

le differenti finalità che il promotore intende realizzare attraverso lo Studio,

i modelli di informazioni che si intenderebbero in concreto rendere agli interessati, in particolare nel caso di dati raccolti presso terzi ai sensi dell’art. 14 del Regolamento;

i tempi di conservazione, atteso che il titolare ne ha indicati diversi (2, 5, 15 anni;

le specifiche garanzie che si intendono implementare a tutela dei diritti degli interessati, considerato che i dati saranno oggetto di trattamento attraverso strumenti di intelligenza artificiale e con logiche predittive basate su sistemi di machine learning.

Con nota de 27 febbraio 2023, la Società ha fornito i chiarimenti richiesti rappresentando quanto segue.

1.1. Ruoli e responsabilità delle parti nell’attività di trattamento

La Società ha chiarito che i centri partecipanti italiani sono 3 (Azienda Ospedaliero Universitaria di Parma che “ha iniziato l’arruolamento, ma ad oggi non ha reclutato pazienti deceduti”; il Policlinico Universitario Agostino Gemelli che “non ha ancora iniziato l’arruolamento”; Azienda Sanitaria Universitaria Friuli Centrale di Udine (ASUFC) che “ha reclutato undici (11) pazienti. Di questi undici (11) pazienti, sei (6) sono in vita e hanno acconsentito allo Studio e cinque (5) sono deceduti. Tuttavia, il centro ha ottenuto un ampio consenso alla ricerca prima del loro decesso, che copre adeguatamente i requisiti di consenso dello Studio”). I predetti centri partecipanti operano in qualità di titolari autonomi “per le loro reciproche operazioni di trattamento” sulla base di un “Accordo di ricerca clinica stipulato con lo Sponsor”. Tali ruoli e responsabilità sono inoltre rappresentati nell’informativa fornita ai Centri partecipanti dallo Sponsor e sono stati meglio indicati anche nella valutazione d’impatto, svolta ai sensi dell’art. 35 del Regolamento.

1.2 Finalità del trattamento perseguite dal titolare

Le finalità primarie dello Studio sono volte a:

“migliorare le conoscenze mediche relative al carcinoma polmonare metastatico e predire la potenziale evoluzione del tumore e la risposta al trattamento” anche per “aiutare a prevedere una possibile recidiva del tumore e migliorarne la gestione medica”;

Eseguire “una metanalisi, aggregando i dati raccolti da tutti gli Istituti per l’analisi statistica (descrittiva, predittiva ed esplorativa) nell’ambito dello Studio, allo scopo di definire i migliori modelli per predire la risposta al trattamento”.

Le finalità secondarie sono volte a:

lo “sviluppo di un algoritmo prognostico proprietario per la progressione della malattia e/o la risposta al trattamento nella piattaforma tecnologica dello Sponsor che possa supportare lo sviluppo di un’offerta commerciale in una fase successiva. Ciò consentirebbe ai medici di personalizzare meglio il protocollo del trattamento medico in base al profilo del paziente e di prevedere una possibile recidiva, nonché migliorare le cure e il follow-up medico del paziente. Il nuovo algoritmo prognostico summenzionato sarà sviluppato in base ai dati raccolti dallo Studio. Tuttavia, i dati stessi rimarranno sempre riservati allo Studio e non saranno condivisi con terzi;

“Il miglioramento e/o lo sviluppo di nuovi prodotti e/o servizi dello Sponsor, incluso il perfezionamento dell’algoritmo sviluppato durante lo Studio con la possibilità di condurre uno o più studi clinici interventistici prospettici per convalidare la rilevanza clinica delle firme multimodali identificate (subordinatamente all’approvazione di tali studi da parte delle autorità competenti pertinenti)”;

la “Preparazione di casi-studio, basati solo su dati anonimi, per dimostrare le capacità dello Sponsor nel campo dell’analisi multimodale dei dati sanitari”. In tale caso “i dati utilizzati per la preparazione dei casi di studio saranno resi anonimi. In questo tipo di metanalisi, che si concentreranno su tendenze e modelli, non saranno presentati dati identificativi o combinazioni di dati”.

la “Creazione di un database separato per scopi di ricerca statistica e clinica al fine di promuovere lo sviluppo di nuove soluzioni diagnostiche e terapeutiche. A tale scopo, lo Sponsor utilizzerà solo dati pseudonimizzati trattati nell’ambito dello Studio, ai quali sarà aggiunto un “rumore” per limitare il rischio di re-identificazione diretta. L’obiettivo sarà sostituire gli attributi nel set di dati per renderli meno precisi, mantenendo al contempo le relazioni ordinali e la distanza tra le variabili continue. Ad esempio, la data di nascita dei soggetti in studio sarà sostituita solo dall’anno di nascita; la data di cura del soggetto in studio sarà sostituita da un intervallo temporale e, analogamente, non saranno conservate informazioni geografiche precise. Lo Sponsor si impegna a garantire i diritti dei soggetti in studio per quanto riguarda privacy e riservatezza. Inoltre, non sarà consentito alcun accesso diretto a partner terzi. I dati rimarranno sotto il controllo esclusivo dello Sponsor, che sarà responsabile della conduzione delle analisi statistiche. Lo Sponsor sarà quindi responsabile della successiva comunicazione di dati statistici aggregati e anonimi a partner terzi (scopo secondario per lo sviluppo di statistiche).

Tali diverse finalità sono state meglio rappresentate dallo Sponsor nella valutazione d’impatto.

1.2 Le basi giuridiche del trattamento

La Società al riguardo ha dichiarato che

“per le finalità primarie la base giuridica del trattamento è rappresentata dall’interesse pubblico di cui all’articolo 6, comma 1, lettera e del Regolamento […]” e per il trattamento dei dati sensibili, in base all’eccezione di cui all’articolo 9, comma 2, lettera g) del Regolamento”;

l’interesse pubblico risiede “nel miglioramento del trattamento dei pazienti e nell’ottimizzazione delle risorse pubbliche assegnate all’assistenza sanitaria […]”. In particolare “la scoperta di un nuovo biomarcatore multimodale consentirebbe l’ottimizzazione del rapporto rischi-benefici a livello di ciascun paziente, consentendo al contempo una migliore assegnazione di risorse sanitarie pubbliche limitate”;

le finalità secondarie si basano “sugli interessi legittimi del Titolare del trattamento dei dati come presentato nell’articolo 6, comma 1, lettera f del Regolamento. A tale riguardo il titolare intende altresì cogliere “l’opportunità di utilizzare questa sezione del documento per presentare il test di bilanciamento eseguito per giustificare e documentare il suo legittimo interesse, pur riconoscendo che ciò potrebbe applicarsi solo ai dati comuni”.

1.3 La verifica sullo stato di decesso del paziente

Sul punto la Società ha dichiarato che:

“Ogni Istituto partecipante allo Studio riceve un foglio informativo per il soggetto che presenta tutte le informazioni richieste insieme a un apposito modulo di consenso”. L’eCRF che “è un questionario digitale […] utilizzato per raccogliere dati in uno studio da parte di ciascun Istituto è concepita per garantire un’adeguata acquisizione del consenso prima della raccolta dei dati. Laddove il consenso non venga, o non possa, essere raccolto, i rappresentanti dell’Istituto sono tenuti a specificare il motivo per cui il consenso non è stato raccolto”;

i Centri partecipanti ricevono specifiche istruzioni scritte che prevedono, tra le altre cose, che i medici responsabili della raccolta dei dati dei pazienti devono specificare le motivazioni per cui raccogliere il consenso non è possibile (per esempio a causa del decesso del paziente). In tal caso va indicata altresì la data del decesso, che viene anche verificata ex post dallo Sponsor che, se necessario può anche avanzare richieste di chiarimento al centro partecipante qualora ad esempio la data del decesso viene omessa.

Lo Sponsor ha inoltre rappresentato il processo di monitoraggio continuo sulla raccolta dei dati, “ciò al fine identificare il luogo esatto in cui il consenso non viene raccolto e il motivo per cui esso non viene raccolto, incluso il decesso del paziente. Nel caso in cui il decesso del paziente sia il motivo dell’assenza della raccolta del consenso, lo Sponsor garantisce che la raccolta dei dati sia consentita nel Paese in cui il paziente è stato trattato. Ai sensi dell’articolo 110 del Codice, il Titolare del trattamento dei dati ha richiesto l’autorizzazione del Garante in merito all’inclusione nello Studio di pazienti italiani deceduti”.

1.4 Le tecniche di pseudonimizzazione applicabili all’uso secondario dei dati

I dati genetici e clinici saranno estratti dai medici competenti dalle cartelle cliniche dei pazienti arruolati e inseriti nell’eCRF che genera automaticamente per ogni paziente un codice univoco. Uno specifico software sviluppato dal titolare del trattamento provvede anche alla codifica dei dati di “imaging” e genomici attraverso specifiche tecniche di pseudonimizzazione diffusamente descritte nella valutazione d’impatto.

Per la creazione di una banca dati separata per scopi di ricerca statistica e clinica “lo Sponsor utilizzerà una procedura di pseudonimizzazione mediante randomizzazione associata all’aggiunta di “rumore” nel contesto delle successive operazioni di trattamento dei dati. […] La banca dati iniziale utilizzata per lo Studio sarà conservata separatamente. Nessuna tabella di corrispondenza tra queste due banche dati sarà conservata dallo Sponsor”.

1.5 Il periodo di conservazione dei dati

La Società ha dichiarato che i periodi di conservazione dei dati sono stati individuati in base alla metodologia di riferimento riguardante attività di ricerca che non coinvolgono esseri umani (la cosiddetta MR-004 Méthodologie de référence relative aux traitements de données à caractère personnel mis en oeuvre dans le cadre des recherches n’impliquant pas la personne humaine1), adottata dalla CNIL con delibera n° 2018-155 del 3 maggio 2018.

Per il perseguimento delle finalità primarie dello Studio, la Società ha indicato un periodo di conservazione di due anni “dalla pubblicazione più recente dei risultati dello Studio o, in assenza di pubblicazione, fino alla firma della relazione finale della ricerca”. Inoltre, la Società ha dichiarato che “In conformità ai requisiti francesi, per scopi di archiviazione, i dati saranno conservati per quindici (15) anni dalla data di fine dello Studio (ovvero, dopo l’ultima pubblicazione dei risultati dello Studio o, se non pubblicati, fino alla firma della relazione finale della ricerca). Tale durata sarebbe “inferiore al massimo di venti (20) anni proposto dalla “Methodologie de Reference” sopra citata (art. 6.2).

Per le finalità secondarie dello Studio, la Società ha dichiarato che i dati saranno conservati per 5 anni, in una banca dati attiva separata. Tale periodo di conservazione è considerato dallo Sponsor “necessari[o] e proporzionat[o] […] data la tecnologia della soluzione da sviluppare. La segmentazione automatica dei tumori e il punteggio prognostico si basano su algoritmi di apprendimento statistici. Questi algoritmi devono essere riqualificati regolarmente per migliorare le loro prestazioni. È necessario ricostituire e verificare la cronologia delle azioni e degli esiti storici generati dagli algoritmi, come raccomandato nel White Paper della Commissione Europea sull’Intelligenza Artificiale pubblicato a febbraio 2020 in merito alla conservazione dei dati di formazione per gli algoritmi. Inoltre, ci aspettiamo che le tecniche di acquisizione delle immagini si saranno evolute entro cinque (5) anni e, pertanto, il trattamento e la ricerca richiederanno l’uso di nuovi set di dati. Al termine della conservazione nella banca dati attiva, i dati saranno conservati per un periodo di quindici (15) anni allo scopo di adempiere agli obblighi legali dello Sponsor”.

1.6 Tecniche di intelligenza artificiale e di apprendimento automatico e valutazione del rischio

A tale riguardo, la Società ha dichiarato di aver condotto “un’analisi dedicata come richiesto dal suo processo di privacy-by-design. Nell’ambito di questo processo, sono stati condotti un Piano di analisi statistica e una Valutazione di sistema per identificare e valutare i rischi correlati all’uso di queste tecnologie” allegando agli atti la relativa documentazione. La Società ha inoltre dichiarato che “le tecniche di intelligenza artificiale e di apprendimento automatico utilizzate nell’ambito dell’attività di elaborazione dello Studio non portano a un processo decisionale automatizzato”.

2. Supplemento istruttorio

Con nota del 28 maggio 2023, la Società ha fornito riscontro al supplemento istruttorio formulato dall’Ufficio (nota del 16 maggio 2023, prot. n. 78327) persistendo specifici profili di criticità in ordine alle finalità secondarie che si intendono perseguire attraverso lo Studio, alle basi giuridiche dei trattamenti volti al perseguimento di tali ulteriori scopi e ai tempi di conservazione dei dati.

2.1 Le finalità secondarie dello Studio

La Società ha chiarito che:

lo “Studio consente l'aggregazione e l'analisi di dati multimodali clinici, biologici, genomici e radiomici per predire la risposta al trattamento e la prognosi di pazienti con carcinoma polmonare non a piccole cellule in stadio IV;

Successivamente alla raccolta dei dati pseudonimizzati dei pazienti, […], SOPHiA GENETICS utilizzerà questi dati clinici, radiomici e genomici in particolare per […]:

• Realizzazione dello Studio stesso e sviluppo di un algoritmo per predire la potenziale evoluzione del tumore e la risposta al trattamento, che potrebbe potenzialmente aiutare ad anticipare una possibile recidiva del tumore e a migliorarne la pratica medica (scopo primario n°1),

• Effettuare la meta-analisi dello Studio aggregando i dati raccolti da tutte le istituzioni per l'analisi statistica (scopo primario n°2),

• Rafforzare e perfezionare il suddetto algoritmo, consentendo il miglioramento e/o lo sviluppo dell'offerta di prodotti e/o servizi (scopi secondari n°3 e 4).

Pertanto, lo sviluppo di un potenziale prodotto commerciale e/o di un'offerta di servizi […] è inerente allo scopo primario, ossia la realizzazione dello Studio.

2.2 Le basi giuridiche del trattamento

A tale riguardo la Società ha chiarito che:

“Prima dell'arruolamento del paziente, vengono forniti un foglio informativo e un modulo di consenso. […]”. Pertanto “la base giuridica delle attività di trattamento per tali finalità secondarie è il consenso del paziente al momento della raccolta dei dati con le relative informazioni”.

2.3 I tempi di conservazione

In relazione ai trattamenti svolti per il perseguimento degli obiettivi primari la Società ha rappresentato che:

Come già descritto nella nostra prima lettera di risposta del 27 febbraio, SOPHiA GENETICS segue i requisiti legali obbligatori francesi della MR-004 […] che disciplinano gli studi che non rientrano nella definizione di ricerca che coinvolge la persona umana, in particolare gli studi sul riutilizzo dei dati. Pertanto, la metodologia MR-004 si applica a tutte le attività di ricerca che non rientrano nell'articolo L.1121-1 del Codice della Salute Pubblica francese, che definisce gli studi che coinvolgono la persona umana”, nello specifico le ricerche interventistiche”;

“Nel contesto dello Studio, SOPHiA GENETICS non coinvolge il paziente. Lo Studio non comporta alcuna attività o intervento sul paziente. SOPHiA GENETICS si limiterà a riutilizzare i dati esistenti raccolti nell'ambito del trattamento medico del paziente e forniti dai centri partecipanti”;

“SOPHiA GENETICS sta conducendo uno studio clinico non interventistico, legato al riutilizzo di informazioni mediche esistenti. Per questo motivo SOPHiA GENETICS rispetta i requisiti relativi ai tempi di conservazione dei dati definiti dall'MR-004”;

“Pertanto, i dati dello Studio verranno trattati in un database attivo per l’intera durata dello Studio e per i due anni successivi alla più recente pubblicazione dei risultati dello Studio o, se non pubblicati, fino alla firma del rapporto finale dello Studio – come previsto dai requisiti MR-004. I risultati dello Studio verranno archiviati per quindici anni, una durata inferiore a quella indicata dalla normativa francese”.

In relazione agli obiettivi secondari, la Società ha dichiarato che:

per le finalità secondarie, i dati verranno conservati per cinque anni, come previsto dai requisiti scientifici;

tale periodo è ritenuto “necessario e proporzionato in considerazione delle soluzioni predittive da sviluppare, rafforzare e perfezionare, da un lato, e dei requisiti di qualità applicabili a questo tipo di soluzioni, dall'altro. Infatti, la segmentazione automatica dei tumori e il punteggio prognostico si basano su algoritmi di apprendimento statistico. Questi algoritmi devono essere regolarmente riaddestrati per migliorare le loro prestazioni”;

tenuto conto che i “meccanismi patologici che agiscono nel tumore del polmone, sono in continua e rapida evoluzione” il periodo di conservazione di 5 anni consentirà di “interrogare a posteriori il database secondario per valutare il potenziale impatto clinico” dei nuovi biomarcatori del tumore;

“la conservazione dei dati raccolti per un periodo di cinque anni consentirà a SOPHiA GENETICS di evitare la raccolta di ulteriori e nuovi dati per questo scopo, in modo da rispettare anche il principio di minimizzazione dei dati”;

al termine dei 5 anno infatti, “le modalità tecniche di imaging e i trattamenti saranno sufficientemente evoluti da richiedere una revisione completa dei modelli […], ciò è in linea con la raccomandazione dell’European Commission’s White Paper on Artificial Intelligence pubblicato nel febbraio 2020 in merito alla conservazione dei dati di addestramento degli algoritmi”.

3. La normativa applicabile

In via preliminare, si rappresenta che il trattamento di dati personali deve avvenire nel rispetto della normativa applicabile in materia di protezione dei dati personali.

In base al Regolamento, i dati personali devono essere trattati “in modo lecito, corretto e trasparente nei confronti dell’interessato”; “raccolti per finalità determinate, esplicite e legittime, e successivamente trattati in modo che non sia incompatibile con tali finalità; un ulteriore trattamento dei dati personali a fini di archiviazione nel pubblico interesse, di ricerca o storica o a fini statistici non è, conformemente all'articolo 89, paragrafo 1, considerato incompatibile con le finalità iniziali” e “conservati in una forma che consenta l'identificazione degli interessati per un arco di tempo non superiore al conseguimento delle finalità per le quali sono trattati; i dati personali possono essere conservati per periodi più lunghi a condizione che siano trattati esclusivamente a fini di archiviazione nel pubblico interesse, di ricerca scientifica o storica o a fini statistici, conformemente all'articolo 89, paragrafo 1, fatta salva l'attuazione di misure tecniche e organizzative adeguate” (principi di «liceità, correttezza e trasparenza», di «limitazione della finalità» e «limitazione della conservazione» (art. 5, par. 1, lett. a), b) ed e) del Regolamento).

Il principio di liceità richiede che ogni trattamento si fondi su uno specifico presupposto giuridico (art. 6 del Regolamento). In relazione alle particolari categorie di dati, tra cui rientrano quelli sulla salute e i dati genetici, è previsto un generale divieto al trattamento a meno che non ricorra una delle specifiche esenzioni a tale divieto, tra le quali è previsto il consenso dell’interessato (art. 9, par. 2 del Regolamento).

Nel caso in cui la condizione di liceità sia rappresentata dal consenso esso deve essere prestato attraverso un atto positivo con il quale l’interessato manifesta una volontà libera, specifica, informata e inequivocabile relativa al trattamento dei dati personali che lo riguardano (Considerando 32, 42 e 43, artt. 5, 6, par. 1, lett. a) e 7 del Regolamento e Linee guida 5/2020 sul consenso ai sensi del Regolamento (UE) 2016/679, adottate dal Comitato europeo per la protezione dei dati personali il 4 maggio 2020).

Con specifico riferimento alle particolari categorie di dati, tale consenso, tenuto conto della natura di tali dati, particolarmente sensibili sotto il profilo dei diritti e delle libertà fondamentali, deve essere non solo esplicito ma anche manifestato per iscritto (art. 9, par. 2 lett. a) del Regolamento e par. 4 delle citate Linee guida 5/2020 sul consenso e art. 7, comma 2, lett. b) delle Regole deontologiche per trattamenti a fini statistici o di ricerca scientifica pubblicate ai sensi dell’art. 20, comma 4, del d.lgs. 10 agosto 2018, n. 101 del 19 dicembre 2018, allegato A5 al Codice (doc. web n. 9069637).

Senza inficiare gli obblighi relativi al consenso, il considerando 33 del Regolamento riconosce che “In molti casi non è possibile individuare pienamente la finalità del trattamento dei dati personali a fini di ricerca scientifica al momento della raccolta dei dati. Pertanto, dovrebbe essere consentito agli interessati di prestare il proprio consenso a taluni settori della ricerca scientifica laddove vi sia rispetto delle norme deontologiche riconosciute per la ricerca scientifica. Gli interessati dovrebbero avere la possibilità di prestare il proprio consenso soltanto a determinati settori di ricerca o parti di progetti di ricerca nella misura consentita dalla finalità prevista” (artt. 5, par. 1 lett. a) 6, 7 e 9 del Regolamento; Linee guida 5/2020 sul consenso ai sensi del Regolamento (UE) 2016/679 del 4 maggio 2020 del Comitato europeo per la protezione dei dati, cfr. punto 7.2 e provv. del 30 giugno 2022, doc. web 9791886).

Il Regolamento e il Codice prevedono poi specifiche disposizioni per il trattamento di dati personali svolti per il perseguimento di compiti di interesse pubblico o connessi all’esercizio di pubblici poteri, ivi inclusi i trattamenti svolti per fini di ricerca scientifica. In particolare, a tal fine è richiesto che tali trattamenti siano previsti dal diritto dell'Unione europea ovvero, nell'ordinamento interno, da disposizioni di legge o di regolamento o da atti amministrativi generali che specifichino i tipi di dati che possono essere trattati, le operazioni eseguibili e il motivo di interesse pubblico rilevante, nonché le misure appropriate e specifiche per tutelare i diritti fondamentali e gli interessi dell'interessato (art. 6, par. 1, lett. e), par. 2 e 3, art. 9, par. 2, lett. g) e art. 89 del Regolamento e art. 2-sexies, comma 2, lett. cc), del Codice).

In attuazione del principio di liceità, spetta al titolare, anche in omaggio al principio di responsabilizzazione di cui all’art. 5, par. 2 del Regolamento, individuare tra le diverse condizioni di liceità previste agli artt. 6 e 9, par. 2 del Regolamento quelle in concreto più appropriate, corrispondenti ad ogni singola e differente finalità perseguita e all’essenza del trattamento e conseguentemente indicarle nella valutazione d’impatto e nell’informativa predisposta per gli interessati, tenuto anche conto delle differenti implicazioni che ciascuna di esse può avere sui diritti spettanti agli interessati (artt. 15-22 del Regolamento).

In tale quadro, il trattamento di dati personali per scopi di ricerca scientifica deve essere effettuato altresì nel rispetto del Codice, delle prescrizioni relative al trattamento dei dati genetici e dei dati personali effettuato per scopi di ricerca scientifica, allegato 4 e 5 al provvedimento recante le Prescrizioni relative al trattamento di categorie particolari di dati, e delle Regole deontologiche per trattamenti a fini statistici o di ricerca scientifica che costituiscono condizione essenziale di liceità e correttezza dei trattamenti (art. 2-quater del Codice e art. 21, comma 5, del d.lgs. 10 agosto 2018, n. 101).

Nello specifico, rileva l’art. 110 del Codice che riguarda la ricerca medica, biomedica ed epidemiologica e dispone che “Il consenso dell'interessato per il trattamento dei dati relativi alla salute, a fini di ricerca scientifica in campo medico, biomedico o epidemiologico, non è necessario quando […] a causa di particolari ragioni, informare gli interessati risulta impossibile o implica uno sforzo sproporzionato, oppure rischia di rendere impossibile o di pregiudicare gravemente il conseguimento delle finalità della ricerca. In tali casi, il titolare del trattamento adotta misure appropriate per tutelare i diritti, le libertà e i legittimi interessi dell'interessato, il programma di ricerca è oggetto di motivato parere favorevole del competente comitato etico a livello territoriale e deve essere sottoposto a preventiva consultazione del Garante ai sensi dell'articolo 36 del Regolamento”.

A tale riguardo, “quando non è possibile acquisire il consenso degli interessati, i titolari del trattamento devono documentare, nel progetto di ricerca, la sussistenza delle ragioni, considerate del tutto particolari o eccezionali, per le quali informare gli interessati risulta impossibile o implica uno sforzo sproporzionato, oppure rischia di rendere impossibile o di pregiudicare gravemente il conseguimento delle finalità della ricerca” (cfr. punto 5.3 delle Prescrizioni relative al trattamento dei dati personali effettuato per scopi di ricerca scientifica).
In base al principio di limitazione della finalità, i dati devono essere raccolti per finalità determinate, esplicite e legittime, e successivamente trattati in modo che non sia incompatibile con tali finalità (cfr. Gruppo articolo 29, Opinion 03/2013 on purpose limitation, del 2 aprile 2013; cons. 41 del Regolamento).

Con riferimento al trattamento ulteriore di dati rispetto a quelli necessari per lo scopo della raccolta, si evidenzia che esso deve fondarsi su uno specifico presupposto giuridico ovvero risultare compatibile con gli scopi della raccolta e che in base al principio di responsabilizzazione tali profili devono essere individuati e opportunamente documentati dal titolare del trattamento nella valutazione di impatto e nell’ulteriore documentazione rilevante (artt. 5, par. 1 lett. a) e b), par. 2, 6, par 4, 24 e 25 del Regolamento, punto 5.6 delle Prescrizioni per il trattamento dei dati personali; Parere 3/2019, del Comitato europeo per la protezione dei dati, relativo alle domande e risposte sull'interazione tra il regolamento sulla sperimentazione clinica e il regolamento generale sulla protezione dei dati, del 23 gennaio 2019; “A preliminary Opinion on data protection and scientific research” del Garante europeo, del 6 gennaio 2020; “Document on response to the request from the European Commission for clarifications on the consistent application of the GDPR, focusing on health research”, del 2 febbraio 2021 del Comitato europeo per la protezione dei dati, provv. del Garante del 1° novembre 2021, doc. web 9731827).

Il principio di limitazione della conservazione dei dati impone che i dati siano “conservati in una forma che consenta l'identificazione degli interessati per un arco di tempo non superiore al conseguimento delle finalità per le quali sono trattati; i dati personali possono essere conservati per periodi più lunghi a condizione che siano trattati esclusivamente a fini di archiviazione nel pubblico interesse, di ricerca scientifica o storica o a fini statistici, conformemente all'articolo 89, paragrafo 1, fatta salva l'attuazione di misure tecniche e organizzative adeguate richieste dal presente regolamento a tutela dei diritti e delle libertà dell'interessato” (art. 5, par. 1 lett. e) del Regolamento.

I dati personali, inoltre, devono essere trattati nel rispetto del principio di trasparenza (art. 5, par. 1 lett. a) del Regolamento), fornendo preventivamente agli interessati le informazioni di cui all’art. 13 del Regolamento, in caso di dati raccolti direttamente presso di essi, ovvero ai sensi dell’art. 14, in caso di dati raccolti presso soggetti terzi.

Si evidenzia inoltre che la richiamata normativa prevede che, qualora i dati siano ottenuti presso terzi, come nel caso in esame, il titolare del trattamento possa non rendere le informazioni di cui ai par. da 1 a 4 dell’art. 14 del Regolamento, nella misura in cui comunicare tali informazioni risulti impossibile o implichi uno sforzo sproporzionato. Ciò, in particolare, nell’ambito dei trattamenti svolti per finalità di ricerca scientifica, ferme restando le condizioni e le garanzie di cui all'articolo 89, par. 1 del Regolamento. In tali casi, il titolare del trattamento è comunque tenuto ad adottare misure appropriate per tutelare i diritti, le libertà e i legittimi interessi dell'interessato, anche rendendo pubbliche le informazioni (art. 14, par. 5, lett. b) del Regolamento).

Sul punto, le Regole deontologiche per trattamenti a fini statistici o di ricerca scientifica prevedono che, qualora il titolare raccolga i dati personali presso terzi e fornire l’informativa all’interessato comporti uno sforzo sproporzionato rispetto al diritto tutelato, esso debba adottare idonee forme di pubblicità, indicando a titolo esemplificativo talune specifiche modalità (art. 6, comma 3).

Altro profilo di estremo rilievo in materia di protezione dei dati personali è l’individuazione dei ruoli di titolare (artt. 4, n. 7 e 24) e responsabile (art. 4, n. 8 e 28), rispetto ai quali il Regolamento si pone in linea di continuità con quanto già stabilito dalla Direttiva 95/46/CE. Da ciò, infatti, deriva non solo la distribuzione delle relative responsabilità ma anche la possibilità per gli interessati di conoscere il soggetto cui potersi rivolgere per esercitare i diritti di cui agli artt. da 15 a 22 del Regolamento.

Con riferimento alla circostanza che i dati raccolti vengano poi trattati attraverso strumenti di intelligenza artificiale e con logiche predittive basate su sistemi di machine learning, si evidenziano gli specifici vincoli, in termini di protezione dei dati e trasparenza, che dovrebbero essere rispettati in tal caso.

Al riguardo, si evidenzia che in base all’art. 22 del Regolamento “L'interessato ha il diritto di non essere sottoposto a una decisione basata unicamente sul trattamento automatizzato, compresa la profilazione, che produca effetti giuridici che lo riguardano o che incida in modo analogo significativamente sulla sua persona”, ciò a meno che, con riferimento al trattamento delle particolari categorie di dati, esso si basi sul consenso degli interessati ovvero sia svolto sulla base di uno specifico presupposto normativo per motivi di interesse pubblico rilevante e “siano in vigore misure adeguate a tutela dei diritti, delle libertà e dei legittimi interessi dell'interessato” (art. 22, par. 4 del Regolamento; cfr. anche cons. 71).

Si richiama, inoltre, proprio la sentenza del Consiglio di stato (Cons. di St., sez. VI, 13 dicembre 2019, n. 8472) nella quale la Corte ha dichiarato che “dal diritto sovranazionale emergono tre principi, da tenere in debita considerazione nell’esame e nell’utilizzo degli strumenti informatici. In primo luogo, il principio di conoscibilità, per cui ognuno ha diritto a conoscere l’esistenza di processi decisionali automatizzati che lo riguardino ed in questo caso a ricevere informazioni significative sulla logica utilizzata […] il principio di non esclusività della decisione algoritmica […]. In terzo luogo, dal considerando n. 71 del Regolamento 679/2016 il diritto europeo trae un ulteriore principio fondamentale, di non discriminazione algoritmica, secondo cui è opportuno che il titolare del trattamento utilizzi procedure matematiche o statistiche appropriate per la profilazione, mettendo in atto misure tecniche e organizzative adeguate al fine di garantire, in particolare, che siano rettificati i fattori che comportano inesattezze dei dati e sia minimizzato il rischio di errori e al fine di garantire la sicurezza dei dati personali, secondo una modalità che tenga conto dei potenziali rischi esistenti per gli interessi e i diritti dell'interessato e che impedisca tra l'altro effetti discriminatori nei confronti di persone fisiche [...]” (cfr. da ultimo sent. Tar Campania, sez. III, n. 05119 del 11 novembre 2022).

Merita di essere richiamato anche il parere congiunto del Comitato europeo per la protezione dei dati e il Garante europeo, n. 5/2021 sulla proposta di regolamento del Parlamento europeo e del Consiglio che stabilisce regole armonizzate sull’intelligenza artificiale (legge sull’intelligenza artificiale del 21 aprile 2021) nel quale viene accolto con favore l’approccio basato sul rischio su cui si fonda la proposta. Tuttavia, viene altresì evidenziato che i rischi per i diritti e le libertà fondamentali degli interessati derivanti dall’utilizzo di tali strumenti e le implicazioni per la protezione dei dati personali sono molto rilevanti. Generare contenuti, fare previsioni o adottare decisioni in maniera automatica, come fanno i sistemi di IA, per mezzo di tecniche di apprendimento automatico o regole di inferenza logica e probabilistica è cosa ben diversa rispetto alle modalità con cui queste stesse attività sono svolte dagli esseri umani, nella piena consapevolezza della responsabilità delle relative conseguenze. Se da una parte quindi l’intelligenza artificiale amplierà significativamente la quantità di previsioni che si possono fare in molti ambiti – a cominciare dalle correlazioni quantificabili tra i dati, dall’altra affidare solo alle macchine il compito di prendere decisioni sulla base di dati comporterà rischi per i diritti e le libertà delle persone che incideranno sulla loro vita privata e potrebbero nuocere a categorie sociali o persino a intere società. A tale riguardo, il Comitato e il Garante europeo sottolineano la centralità del concetto di sorveglianza (o supervisione) umana contenuto nella proposta di Regolamento (cfr. articolo 14) evidenziando a tale proposito che l’effettiva centralità degli esseri umani dovrebbe fondarsi su una supervisione umana altamente qualificata e sulla liceità del trattamento, nella misura in cui tali sistemi si fondino sul trattamento di dati personali ovvero li trattino per svolgere le proprie funzioni, al fine di assicurare il rispetto del diritto di non essere assoggettato a una decisione basata esclusivamente su un trattamento automatizzato.

I trattamenti in esame, oggetto di analisi alla luce dei principi del Regolamento e del Codice, dovranno altresì conformarsi, una volta definita, alla cornice normativa in via di formazione nel contesto dell’Unione europea – sulla scia degli orientamenti etici per un’IA affidabile del Gruppo indipendente di esperti istituito dalla Commissione europea –come pure ai principi oggetto di elaborazione in seno al Consiglio d’Europa improntati al design, sviluppo e applicazione di sistemi di intelligenza artificiale affidabile (trustworthy AI), rispettosi dei diritti fondamentali e delle libertà degli interessati.

La disciplina in materia di protezione dei dati personali non trova invece applicazione in relazione ai dati anonimi. A tale riguardo, giova precisare che si considerano anonime le “(...) informazioni che non si riferiscono a una persona fisica identificata o identificabile o a dati personali resi sufficientemente anonimi da impedire o da non consentire più l'identificazione dell'interessato”, ciò anche per i trattamenti svolti per finalità statistiche o di ricerca (cfr. considerando n. 26 del Regolamento). Il rischio di reidentificazione dell’interessato va, tuttavia, accuratamente valutato tenendo conto di “tutti i mezzi, [...], di cui il titolare del trattamento o un terzo può ragionevolmente avvalersi per identificare detta persona fisica direttamente o indirettamente. Per accertare la ragionevole probabilità di utilizzo dei mezzi per identificare la persona fisica, si dovrebbe prendere in considerazione l'insieme dei fattori obiettivi, tra cui i costi e il tempo necessario per l'identificazione, tenendo conto sia delle tecnologie disponibili al momento del trattamento, sia degli sviluppi tecnologici” (cfr. considerando n. 26 del Regolamento e WP29 Opinion 05/2014 “Anonymisation techniques”, adottato il 10 aprile 2014).

4. Le valutazioni dell’Autorità

In via del tutto preliminare il Garante intende sottolineare che il presente parere riguarda esclusivamente i trattamenti dei dati necessari al perseguimento degli scopi primari dello Studio relativi ai pazienti deceduti atteso che, in relazione a quelli in vita il trattamento si fonda sul relativo consenso e che in riferimento agli scopi secondari persistono taluni aspetti non chiari e specifiche criticità che verranno comunque di seguito sinteticamente evidenziate e rispetto alle quali l’Autorità si riserva di proseguire l’attività istruttoria.

4.1. Le basi giuridiche del trattamento e le finalità dello Studio

4.1.1 Le basi giuridiche del trattamento per le finalità primarie dello Studio

La Società ha indicato come base giuridica del trattamento dei dati personali dei pazienti ancora in vita, per il perseguimento delle finalità primarie dello Studio (“migliorare le conoscenze mediche relative al carcinoma polmonare metastatico e predire la potenziale evoluzione del tumore e la risposta al trattamento” e “aiutare a prevedere una possibile recidiva del tumore e migliorarne la gestione medica”), il consenso informato, libero e facoltativo, acquisito in occasione dell’arruolamento dei pazienti contattabili e, con riguardo a quelli deceduti o non contattabili, la consultazione preventiva ai sensi dell’art. 110, comma 1, ultimo capoverso del Codice e dell’art. 36 del Regolamento.

Al riguardo, la Società con dichiarazioni della cui veridicità risponde penalmente ai sensi dell’art. 168 del Codice, ha rappresentato i tre livelli di controllo, sopra descritti nel par. 1, implementati al fine di assicurare l’effettiva raccolta del consenso e, l’impossibilità di raccoglierlo in caso di decesso dell’interessato al momento della raccolta dei dati. 

Sotto altro profilo, in conformità alla disposizione di cui al secondo periodo del comma 1 dell’art. 110 del Codice, in base alla quale il programma di ricerca è oggetto di motivato parere favorevole del competente comitato etico a livello territoriale, tenuto conto che la Società ha dichiarato che il “Comitato Etico dell’Area Vasta Emilia Nord (CE AVEN) ha sospeso il parere fino al ricevimento […] alla consultazione con il Garante in merito al trattamento dei dati dei pazienti deceduti”,  resta fermo che lo Sponsor e i Centri partecipanti coinvolti nello Studio potranno dare inizio ai trattamenti dei dati personali necessari per la realizzazione dello Studio solo dopo l’ottenimento dei pareri favorevoli dei rispettivi comitati etici territorialmente competenti, in quanto elemento della condizione di liceità del trattamento dei dati personali per le finalità in esame, laddove non sia possibile acquisire il consenso degli interessati (art. 110 del Codice; ex multis: provv. n. 202 del 29 ottobre 2020, doc. web 9517401 e provv. n. 406 del 1° novembre 2021, doc. web 9731827).

Nel merito, il Garante ritiene quindi che la Società abbia correttamente indicato le basi giuridiche per il trattamento dei dati necessari al perseguimento degli scopi primari dello Studio e non ha osservazioni da formulare al riguardo.

Sotto altro profilo, si rileva tuttavia che l’indicazione nella Vip e nelle informative di altre basi giuridiche per il trattamento dei dati personali relativo al perseguimento delle medesime finalità primarie dello Studio, quali l’interesse pubblico rilevante, non possono ritenersi pertinenti rispetto ai trattamenti in esame, oltre che del tutto generiche, giacché la Società non indica, come previsto dal quadro normativo vigente, la disposizione del diritto dell’Unione o dell’ordinamento interno (sia essa una legge, un regolamento o un atto amministrativo generale) su cui si fonderebbe tale trattamento, che specifichi altresì i tipi di dati che possono essere trattati, le operazioni eseguibili e il motivo di interesse pubblico rilevante, nonché le misure appropriate e specifiche per tutelare i diritti fondamentali e gli interessi dell'interessato (art. 6, par. 1, lett. e), par. 2 e 3, art. 9, par. 2, lett. g) e art. 89 del Regolamento e art. 2-sexies, comma 2, lett. cc), del Codice).

A tale riguardo, si osserva inoltre che il titolare ritiene di svolgere un trattamento per finalità di interesse pubblico in quanto volto al “miglioramento del trattamento dei pazienti e nell’ottimizzazione delle risorse pubbliche assegnate all’assistenza sanitaria”.

Tale circostanza, invero, più che idonea a qualificare i trattamenti in esame come volti al perseguimento di un motivo di interesse pubblico rilevante -che, come testé chiarito, deve essere definito nell’ambito di uno specifico atto normativo che riconduca i trattamenti nell’alveo dei poteri che vengono attribuiti espressamente dalla legge al titolare del trattamento-, costituisce uno degli elementi volti ad attestare la scientificità dello scopo della raccolta, anche alla luce della definizione di ricerca scientifica offerta dal Garante Europeo nel citato documento A preliminary Opinion on data protection and scientific research” del Garante europeo, del 6 gennaio 2020. 

Si ritiene pertanto necessario che la Società espunga dalla valutazione di impatto e dalle informative agli interessati il riferimento alle basi giuridiche del trattamento ritenute inconferenti rispetto ai trattamenti in esame, nei termini sopra rappresentati.

4.1.2 Le tecniche di intelligenza artificiale e di apprendimento automatico

Lo Studio è volto a “sviluppare uno strumento diagnostico per i pazienti con tumore polmonare non a piccole cellule metastatico (avanzato) che ricevono un primo trattamento per questa malattia” (finalità primarie). Nello specifico, la Società ha rappresentato nella valutazione d’impatto che:

“l’analisi dei dati multimodali (clinici, genomici e di imaging, avverrà “utilizzando i software R (versione ≥4.0.4) e Python (versione ≥3.9.2);

Le analisi statistiche vengono condotte a livello di popolazione globale (metanalisi) e attraverso studi in sottogruppi. Le relazioni degli studi statistici vengono estratte direttamente dai software R e Python (utilizzando i generatori di relazioni automatizzate R Markdown e Jupyter Notebook). Per ogni analisi condotta, le relazioni statistiche vengono archiviate sul server SOPHiA GENETICS e inviate a ciascun centro partecipante […]”.

Da ultimo, a seguito dei chiarimenti forniti, la Società ha dichiarato che “le tecniche di intelligenza artificiale e di apprendimento automatico utilizzate nell’ambito dell’attività di elaborazione dello Studio non portano a un processo decisionale automatizzato”.

A tale riguardo, si evidenzia che il momento di raccolta e analisi statistica delle informazioni risulta indispensabile per la creazione di qualsiasi modello predittivo. Ciò in quanto le previsioni formulate dall’algoritmo, nel caso di specie per sviluppare uno strumento diagnostico per i pazienti con tumore polmonare, si basano proprio sul preventivo esame, attraverso modelli matematici e statistici di un’ingente mole di informazioni già detenute. Il vantaggio offerto dallo strumento automatizzato di analisi e creazione del modello predittivo sta nella capacità dello stesso di formulare e ipotizzare delle correlazioni in tempi molto più rapidi e su un patrimonio informativo estremamente maggiore rispetto a quello che non potrebbe fare, in assenza di supporti informatici, l’uomo, seppur esperto.

Ciò posto, il Garante intende sottolineare come, fermi i vantaggi offerti da sistemi automatici di computazione dei dati, tali operazioni non possano essere affidate unicamente ad elaborazioni automatizzate, dovendo essere integrate, specie nella fase applicativa, con l’intervento umano che sulla base delle specifiche competenze tecnico-scientifiche di settore, sono chiamati a rivedere e se necessario a mitigare e correggere, i calcoli probabilistici formulati attraverso l’uso degli algoritmi (Cons. di St., sent. n. 8472 del 2019, cit; parere congiunto del Comitato europeo per la protezione dei dati e il Garante europeo, n. 5/2021 cit.; documento “Intelligenza Artificiale E Medicina: Aspetti Etici del 29 maggio 2020” del Comitato nazionale per la bioetica e Comitato nazionale per la biosicurezza, le biotecnologie e le scienze della vita, cit.).

A tale riguardo il Garante prende favorevolmente atto della dichiarazione del titolare che attesta che “le tecniche di intelligenza artificiale e di apprendimento automatico utilizzate nell’ambito dell’attività di elaborazione dello Studio non portano a un processo decisionale automatizzato”.

4.1.3 Le basi giuridiche del trattamento per le finalità secondarie dello Studio e tempi di conservazione

Si rilevano, invece, specifiche criticità in ordine all’individuazione delle finalità indicate come secondarie dello Studio e quindi alle relative basi giuridiche e ai tempi di conservazione dei dati che il Garante intende anticipare in questa sede in vista dei necessari successivi approfondimenti istruttori.

Come noto, la finalità del trattamento deve essere, non solo, lecita, ma anche chiara, specifica e determinata; ciò anche al fine di consentire, se del caso, agli interessati di esprimere un consenso libero, informato consapevole e granulare, al trattamento dei propri dati personali (cfr. punto 2).

Nel caso in esame quelle che da ultimo sono state definite come finalità secondarie (Effettuare la meta-analisi dello Studio aggregando i dati raccolti da tutte le istituzioni per l'analisi statistica (scopo primario n°2) e Rafforzare e perfezionare il suddetto algoritmo, consentendo il miglioramento e/o lo sviluppo dell'offerta di prodotti e/o servizi), non risultano ben definite, in taluni casi non se ne apprezza la differenza con le finalità primarie e in tali altri non sembrano inerire a scopi di ricerca scientifica.

L’Autorità ritiene inoltre opportuno soffermarsi sulla prospettata ipotesi volta a creare un data base separato per scopi di ricerca e statistica al fine di promuovere lo sviluppo di nuove soluzioni diagnostiche e terapeutiche. 

In particolare, rimarcando l’indeterminatezza di tale finalità, si rinvia in ogni caso a quanto sopra riportato in ordine al c.d. consenso a fasi progressive (cfr. punto 3; artt. 5, par. 1 lett. a) 6, 7 e 9 del Regolamento; EDPB, Linee guida 5/2020 sul consenso ai sensi del Regolamento cfr. punto 7.2, cit.; provv. del 30 giugno 2022, cit.).

Allo stato la Società ha indicato come basi giuridiche per il perseguimento delle finalità secondarie sia l’interesse legittimo del titolare che, successivamente, il consenso degli interessati (artt. 6, par. 1, lett. f) e 9, par. 2, lett. a) del Regolamento).

In relazione alla possibilità di fondare i trattamenti sull’interesse legittimo del titolare ai sensi dell’art. 6, par. 1, lett. f) del Regolamento, si anticipa sin da ora che tale presupposto di liceità non può considerarsi idoneo nel caso in esame, atteso che i richiamati trattamenti riguardano dati inerenti alle particolari categorie ai sensi dell’art. 9, par. 1 del Regolamento. Il titolare è tenuto pertanto a verificare altresì la presenza di una delle specifiche esenzioni dal divieto di trattamento di tali dati, di cui all’art.9, par. 2 del Regolamento.

Rispetto al consenso degli interessati, come anticipato, si ribadisce che esso, seppur raccolto a fasi progressive, deve essere informato, libero specifico e granulare e manifestato per iscritto e che non può considerarsi idoneo un consenso espresso in riferimento a finalità indicate in maniera del tutto generica (cfr. supra punto 3).

4.2. I ruoli dei soggetti coinvolti nello Studio

Con riferimento allo Studio, il Garante ritiene che la Società abbia correttamente individuato e disciplinato i ruoli con i centri partecipanti italiani che agiscono in qualità di titolari autonomi del trattamento. In particolare, è stato chiarito che “In qualità di Sponsor, SOPHiA GENETICS sarà il Titolare […]  dei dati personali nell’ambito dello Studio DEEP-Lung-IV” e che i centri partecipanti “sono Titolari autonomi del trattamento dei dati per la raccolta del consenso dei soggetti interessati per quanto riguarda il Protocollo dello Studio”.

A tale riguardo, si rileva che la struttura organizzativa implementata per la realizzazione dello Studio appare tale da escludere che soggetti terzi non autorizzati possano essere coinvolti nelle operazioni di trattamento dei dati sulla salute dai pazienti arruolati nel richiamato Studio.

Tuttavia, dall’istruttoria è emerso che taluni centri partecipanti italiani hanno iniziato a svolgere le attività di arruolamento dei pazienti allo Studio. Pertanto, nel prendersi favorevolmente atto che la Società, ha richiesto ai predetti centri partecipanti di interrompere le attività di arruolamento dei pazienti, tenuto conto che tali attività hanno riguardato anche il trattamento di dati personali di pazienti deceduti oggetto del presente parere, l’Autorità si riserva di valutare in un autonomo procedimento eventuali profili di violazione della disciplina in materia di protezione dei dati personali.

4.3 Le misure volte a garantire l’effettività del principio di trasparenza nei confronti dei pazienti arruolati allo Studio

Con specifico riguardo alle modalità indicate per fornire le informazioni agli interessati non contattabili, tenuto conto che lo Studio coinvolge anche 3 Centri partecipanti italiani, al fine di assicurare l’effettiva applicazione dei richiamati principi di correttezza e trasparenza, si ritiene necessario che la Società renda pubbliche per tutta la durata del trattamento le informazioni da fornire agli interessati, ai sensi dell’art. 14 del Regolamento, attraverso una specifica inserzione anche sui siti internet istituzionali dei centri di sperimentazione coinvolti nello Studio, in una sezione facilmente accessibile ciò anche al fine di garantire effettiva tutela dei diritti degli aventi causa dei pazienti deceduti (art. 2-quaterdecies del Codice) e in conformità con quanto previsto dagli artt. 14, par. 5, lett. b) del Regolamento e 6, comma 3, delle Regole deontologiche.

Nel merito in relazione all’informativa acquisita agli atti del procedimento, (cfr. documento denominato “S3_SGDLIV_Informativa, modulo di consenso -  revoca_trattamento dati_V1.0_Italia_AOU Parma) si rileva in via preliminare la necessità che fino al completamento dell’ulteriore autonoma attività istruttoria, siano espunti i riferimenti alle finalità secondarie dello Studio. Si rileva inoltre che, nelle richiamate informative:

lo Sponsor talune volte è indicato come titolare del trattamento, altre quale contitolare del trattamento (cfr. pagine, 4 e 19);

il riferimento all’art. 39 del Regolamento è errato (cfr. pag. 4);

non sono correttamente indicate le basi giuridiche del trattamento, ciò anche alla luce di quanto evidenziato nel paragrafo 3.1.1, né i presupposti giuridici in base ai quali viene effettuato il trasferimento verso Paesi terzi ai sensi degli artt. 45 e ss del Regolamento;

deve essere evidenziato che in caso di revoca del consenso da parte dell’interessato, il titolare interrompe le attività di trattamento e che in assenza di altra base giuridica che giustifichi la conservazione dei dati per ulteriori trattamenti, i dati personali relativi allo Studio dell’interessato che ha revocato il proprio consenso sono cancellati [(cfr. punti 22 e ss. del Parere 3/2019 relativo alle domande e risposte sull'interazione tra il regolamento sulla sperimentazione clinica e il regolamento generale sulla protezione dei dati (articolo 70, paragrafo 1, lettera b)), cit.)]; (la cancellazione ha effetti ex nunc o ex tunc?)

deve essere espunto il diritto di opposizione degli interessati (correlati ai trattamenti che si fondano sull’art. 6, par. 1, lett. e) e f) del Regolamento) dovendosi richiamare i diritti di revoca e cancellazione;

non sono indicati i tempi di conservazione.

Si rende pertanto necessario che la Società modifichi in tal senso il documento trasmesso.

4.4 I tempi di conservazione dei dati personali

4.4.1 Tempi di conservazione per il perseguimento degli scopi secondari dello Studio

Fermi i necessari ulteriori approfondimenti istruttori in relazione alle criticità già rilevate in ordine agli scopi secondari dello Studio, nel prendersi favorevolmente atto del fatto che il titolare del trattamento abbia modulato il tempo di conservazione in funzione delle diverse finalità, si osserva quanto segue.

I differenti tempi di conservazione hanno ad oggetto le medesime informazioni, in relazione alle diverse finalità perseguite. Da un punto di vista sostanziale pertanto la conservazione dei dati perdurerà fino al perseguimento dello scopo che si esaurirà per ultimo. Cionondimeno, si comprende e si apprezza favorevolmente tale differenziazione in quanto sotto altro profilo il raggiungimento di un determinato scopo segna il momento dal quale i dati non potranno più essere utilizzati per tale finalità. Inoltre, per ciascuno scopo di trattamento vi dovranno essere specifiche misure tecniche e organizzative, relative in particolare ai soggetti legittimati all’accesso.  

Considerato quindi che i differenti tempi di conservazione per il perseguimento delle finalità secondarie dello Studio, per ciascuno dei quali va indicato il relativo dies a quo, riguardano i medesimi dati, è necessario che il titolare individui e rappresenti adeguatamente nella Vip le misure tecniche e organizzative per inibire l’accesso ai dati ai soggetti o unità organizzative competenti per le diverse finalità allo scadere del tempo reputato necessario per il perseguimento di ciascuna di  esse.

Ciò, fino al decorso del periodo di conservazione più lungo, quando i dati dovranno essere definitivamente cancellati o anonimizzati in assenza di idonei presupposti giuridici per ulteriori trattamenti.

4.5. Le misure di sicurezza implementate

La Società ha presentato al Garante la valutazione di impatto sulla protezione dei dati personali connessa ai trattamenti necessari per la realizzazione dello Studio, redatta ai sensi dell’art. 35 del Regolamento, che si compone di una “Valutazione delle misure volte a garantire la proporzionalità e la necessità del trattamento” di una “Valutazione [e descrizione] delle misure volte a garantire il rispetto dei principi fondamentali” e di una analisi esauriente dei rischi connessi ai trattamenti di dati personali necessari al perseguimento dello scopo della ricerca in esame, al fine di determinare in particolare l’origine, la natura, la gravità di tali rischi e l’integrità e riservatezza dei dati trattati con l’indicazione delle specifiche misure tecniche ed organizzative che si intendono implementare per ridurre tali rischi ad un livello accettabile per non esporre gli interessati a minacce concrete di violazione dei propri diritti e libertà fondamentali connessi ai trattamenti di dati personali effettuati nell’ambito dello Studio.

A tale riguardo, la Società ha anche previsto delle misure aggiuntive in base alle quali “l’hosting e la gestione dei dati raccolti per la realizzazione (a) del progetto di ricerca “DEEPLung- IV” in fase di archiviazione […] saranno (i) assicurati da fornitori europei attraverso servizi cloud, (ii) sia assicurato attraverso la nostra infrastruttura privata, in conformità con i requisiti legali e normativi”.

È inoltre prevista l’archiviazione dei dati in un database crittografato di Microsoft Azure che implementa le diverse misure di sicurezza tecniche richiamate al punto 1.
I fornitori esterni che accedono ai dati, quali ad es. Microsoft Azure, sono stati nominati responsabili del trattamento ai sensi dell’art. 28 del Regolamento.

Inoltre nella valutazione d’impatto sono dettagliatamente descritte le misure tecniche di pseudonimizzazione implementate in relazione ai diversi dati [clinici, genomici e radiomici] raccolti non solo attraverso la eCFR ma anche attraverso il sistema NGS (Next-Generation Sequencing). E’ altresì previsto che tutti i dati inseriti nelle eCFR saranno oggetto di una revisione periodica a distanza da parte della Società (cfr. punto 1.3).

Al riguardo, deve notarsi infatti che l’implementazione delle misure di cui all’art. 89 del Regolamento volte, in particolare, all’effettiva applicazione del principio di minimizzazione, non esime il titolare del trattamento dall’introdurre altresì idonee misure tecniche e organizzative ai sensi dell’art. 32 del Regolamento, per un’effettiva applicazione del principio di integrità e riservatezza dei dati (art. 5, par. 1, lett. f) del Regolamento).

Ciò premesso, dai documenti esaminati, oltre a quanto evidenziato nel precedente paragrafo 1, emerge che la Società, al fine di garantire il rispetto del principio di integrità e riservatezza, ha predisposto misure per tutelare i diritti e le libertà della coorte degli interessati coinvolti nello Studio che si considerano adeguate.

È stata inoltre condotta un’analisi esauriente dei rischi connessi ai trattamenti di dati personali necessari al perseguimento dello scopo della ricerca in esame, al fine di determinare in particolare l’origine, la natura, la gravità di tali rischi e le misure implementate per mitigarli (artt. 5, par. 2, lett. f) e 32 del Regolamento).

TUTTO CIO’ PREMESSO IL GARANTE

a) ai sensi dell’art. 110 del Codice e dell’art. 36 del Regolamento, esprime alla Società SOPHiA GENETICS S.A.S. Technopole Izarbel, 374 Allée Antoine d’Abbadie Créaticité bâtiment A, 64210 Bidart, France, parere favorevole in ordine al trattamento dei dati personali per finalità di ricerca medica, biomedica ed epidemiologica, riferiti alla coorte di pazienti deceduti per la realizzazione dei trattamenti necessari al perseguimento degli scopi primari dello “studio clinico osservazionale retrospettivo e prospettico multicentrico internazionale al fine di consentire l’analisi dell’aggregazione di dati clinici, biologici, genomici e di imaging multimodali associati alla risposta al trattamento e alla prognosi di pazienti con tumore polmonare non a piccole cellule metastatico (lo studio “DEEP Lung-IV”)” a condizione che la Società:

1. espunga dalle informative agli interessati i riferimenti alle finalità secondarie dello Studio e modifichi le stesse secondo quanto indicato nel presente provvedimento (punto 4.3);

2. renda pubbliche per tutta la durata del trattamento le informazioni da fornire agli interessati, ai sensi dell’art. 14 del Regolamento, attraverso una specifica inserzione anche sui siti internet istituzionali dei centri di sperimentazione coinvolti nello Studio, in una sezione facilmente accessibile (punto 4.3).

Ai sensi dell’art. 78 del Regolamento, degli artt. 152 del Codice e 10 del d.lgs. n. 150/2011, avverso il presente provvedimento è possibile proporre ricorso dinnanzi all’Autorità giudiziaria ordinaria, a pena di inammissibilità, entro trenta giorni dalla data di comunicazione del provvedimento stesso ovvero entro sessanta giorni se il ricorrente risiede all’estero.

Roma, 12 ottobre 2023

IL PRESIDENTE
Stanzione

IL RELATORE
Cerrina Feroni

IL SEGRETARIO GENERALE
Mattei

 

_____

1) https://www.cnil.fr/fr/declaration/mr-004-recherches-nimpliquant-pas-la-personne-humaine-etudes-et-evaluations-dans-le