Data Valley White Paper E health data sharing (draft giugno 2021)

Alessandra Salluce; Silvia Martinelli

Data Valley White Paper E health data sharing (draft giugno 2021)

Alessandra Salluce

Silvia Martinelli

2021, Data Valley White Paper

visibility

…

description

40 pages

link

1 file

Abstract Il Data Valley White Paper “E-health Data Sharing” nasce dall’esigenza, condivisa dagli operatori del settore, di ricostruire il quadro giuridico applicabile e definire best practices per la condivisione dei dati e la creazione di data spaces in ambito sanitario. La prima sezione è dedicata alla descrizione dell’impatto della data analysis nel settore sanitario, alle prospettive europee per la creazione di data spaces e all’emergere dell’esigenza di individuare, definire e consolidare modelli e best practices per l’anonimizzazione e la condivisione. La seconda sezione, dedicata all’utilizzo dei dati sanitari per finalità di cura e di ricerca, ricostruisce il quadro giuridico applicabile, differenziando tra dato personale, dato anonimo e dato pseudonimo ai sensi del GDPR; analizzando le specificità relative al trattamento di dati sanitari per finalità di cura e di ricerca, anche distinguendo tra ricerca sperimentale e ricerca osservazionale; approfondendo le problematiche relative alla condivisione dei “dati dei gruppi”. La terza sezione si incentra sui profili evolutivi della valorizzazione del dato sanitario tra gli attori dell’ecosistema per la creazione di data lake nel sanitario per il miglioramento della ricerca/cura attraverso la concentrazione dei dati. La quarta sezione è, infine dedicata alle tecnologie per l’anonimizzazione e ai dati sintetici, alla scelta della tecnologia e alla sua implementazione. Abstract The White Paper of Data Valley "E-health Data Sharing" arises from the need, shared by operators in the sector, to reconstruct the applicable legal framework and define best practices for sharing data and creating data spaces in the healthcare sector. The first section describes the impact of data analysis in the healthcare sector, the European perspectives for creating dataspaces, and the emergence of the need to identify, define and consolidate models and best practices for anonymization and sharing. The second section, dedicated to the use of health data for treatment and research purposes, reconstructs the applicable legal framework, differentiating between personal data, anonymous data, and pseudonym data according to the GDPR; analyzing the specificities relating to the processing of health data for treatment and research purposes, also distinguishing between experimental research and observational research; deepening the problems relating to the sharing of "group data". The third section focuses on the evolutionary profiles to enhance health data among the actors in the ecosystem by creating data lakes in health care to improve research/care through the concentration of data. Finally, the fourth section describes the technologies for anonymization and synthetic data, the choice of technology, and its implementation.

Data Valley White Paper e-Health Data Sharing Best practices e soluzioni per la condivisione del dato, l’anonimizzazione e la creazione di data lake con dati sanitari. DRAFT - Versione aggiornata a giugno 2021 Data Valley Consulting - [email protected] – www.data-valley.it Partecipanti al tavolo di lavoro e alla redazione del White Paper Carlo Rossi Chauvenet, Data Valley Silvia Martinelli, Data Valley - Università degli Studi di Torino Paola Aurucci, Università degli Studi di Torino Alessandra Salluce, Università degli Studi di Milano Piergiorgio Chiara, University of Luxemburg - LAST-JD-RIoE Vanessa Cocca, CRCLEX Giorgio Presepio, San Raffaele (DPO) Elena Cappellaro, Astrazeneca Federica Rizzo, EPEE / Green Innovation Network Paolo Bartoli, Cloud-R - Soluzioni software per registri di malattie rare Ruggero Di Maulo, Cloud-R - Soluzioni software per registri di malattie rare Daniele Panfilo, Aindo - Tecnologia all’avanguardia per la produzione di dati sintetici Jovan Stevovic, Chino.io - Soluzione software per la gestione del dato sanitario 2 Abstract Il Data Valley White Paper “E-health Data Sharing” nasce dall’esigenza, condivisa dagli operatori del settore, di ricostruire il quadro giuridico applicabile e definire best practices per la condivisione dei dati e la creazione di data spaces in ambito sanitario. La prima sezione è dedicata alla descrizione dell’impatto della data analysis nel settore sanitario, alle prospettive europee per la creazione di data spaces e all’emergere dell’esigenza di individuare, definire e consolidare modelli e best practices per l’anonimizzazione e la condivisione. La seconda sezione, dedicata all’utilizzo dei dati sanitari per finalità di cura e di ricerca, ricostruisce il quadro giuridico applicabile, differenziando tra dato personale, dato anonimo e dato pseudonimo ai sensi del GDPR; analizzando le specificità relative al trattamento di dati sanitari per finalità di cura e di ricerca, anche distinguendo tra ricerca sperimentale e ricerca osservazionale; approfondendo le problematiche relative alla condivisione dei “dati dei gruppi”. La terza sezione si incentra sui profili evolutivi della valorizzazione del dato sanitario tra gli attori dell’ecosistema per la creazione di data lake nel sanitario per il miglioramento della ricerca/cura attraverso la concentrazione dei dati. La quarta sezione è, infine dedicata alle tecnologie per l’anonimizzazione e ai dati sintetici, alla scelta della tecnologia e alla sua implementazione. Abstract The White Paper of Data Valley "E-health Data Sharing" arises from the need, shared by operators in the sector, to reconstruct the applicable legal framework and define best practices for sharing data and creating data spaces in the healthcare sector. The first section describes the impact of data analysis in the healthcare sector, the European perspectives for creating dataspaces, and the emergence of the need to identify, define and consolidate models and best practices for anonymization and sharing. The second section, dedicated to the use of health data for treatment and research purposes, reconstructs the applicable legal framework, differentiating between personal data, anonymous data, and pseudonym data according to the GDPR; analyzing the specificities relating to the processing of health data for treatment and research purposes, also distinguishing between experimental research and observational research; deepening the problems relating to the sharing of "group data". 3 The third section focuses on the evolutionary profiles to enhance health data among the actors in the ecosystem by creating data lakes in health care to improve research/care through the concentration of data. Finally, the fourth section describes the technologies for anonymization and synthetic data, the choice of technology, and its implementation. 4 Indice 1. Il Data Sharing nel sanitario e gli obiettivi del White Paper 6 1.1. Introduzione 6 1.2. Descrizione dello scenario: l’impatto della data analysis nel settore sanitario 8 1.3. Prospettive europee: la creazione di data spaces nel settore sanitario 10 1.4. Come nasce il white paper: l’esigenza di individuare, definire e consolidare modelli e best practices per l’anonimizzazione e la condivisione del dato nel settore sanitario 11 2. L’utilizzo dei dati sanitari per finalità di cura e di ricerca 13 2.1. Dato personale, dato anonimo e dato pseudonimo ai sensi del GDPR 13 2.2. Dati relativi alla salute: finalità di cura e finalità di ricerca 15 2.3. Ricerca sperimentale e ricerca osservazionale 18 2.4. Dati granulari, cluster e gruppi 20 3. Profili evolutivi della valorizzazione del dato sanitario tra gli attori dell’ecosistema 3.1. Accesso al dato e sicurezza nella condivisione: la prospettiva europea 24 24 3.2. Data lake nel sanitario: il miglioramento della ricerca/cura attraverso la concentrazione dei dati 28 3.3. Strumenti Organizzativi: partnership, consorzi, contratti. 29 3.4. Dato RWE nel caso delle malattie rare: come estrarne nuovo valore 33 4. Le tecnologie per l’anonimizzazione 35 4.1. La scelta delle tecnologie per l’anonimizzazione 35 4.2. Aindo e i dati sintetici 38 4.3. La scelta del dataset: fase della scientifica primaria, fattibilità, fase della definizione per uso secondario 38 5. Conclusioni e prospettive future 40 5 1. Il Data Sharing nel sanitario e gli obiettivi del White Paper 1.1. Introduzione Silvia Martinelli, Carlo Rossi Chauvenet L’utilizzo di dati e algoritmi per l’organizzazione della produzione e per la realizzazione dell’incontro tra domanda e offerta ha determinato un cambio di paradigma che ha investito sia le forme di produzione e di scambio, sia il prodotto stesso. Il cambio di paradigma descritto è abilitato dalla creazione e gestione del flusso di dati. Possono essere quelli personali inseriti dall’utilizzatore o generati nell’interazione con il prodotto, oppure quelli raccolti da sensori e relativi all’ambiente circostante, o ancora quelli raccolti da migliaia di altri applicativi con i quali il prodotto ed il suo utilizzatore necessariamente interagiscono. Si moltiplicano così, in questi anni e in questo momento storico, i modelli di business basati sui dati, tutti fondati su nuove forme di utilizzo delle informazioni in essi raccolti. Al contempo, aumenta necessariamente l’interesse ad aver accesso a basi di dati ulteriori, per poter generare nuove correlazioni e nuovi servizi da proporre agli utenti finali, consumer o business o anche enti pubblici. La condivisione del dato ed il suo riutilizzo in modo innovativo per la creazione di nuovi prodotti e servizi smart incontrano, tuttavia, alcuni ostacoli. In primo luogo, l’utilizzo del dato, ove personale o anche ove poi anonimizzato fino alla sua anonimizzazione, richiede come noto e doveroso l’applicazione di tutti i principi, le cautele e le procedure previste dal nostro ordinamento per il trattamento dei dati personali. In secondo luogo, la condivisione del dato tra differenti entità, private o pubbliche, richiede accordi, partnership o la costruzione di nuove strutture giuridiche per la gestione della governance del dato e per la regolazione di tutte le potenziali problematiche che possano derivare dalla condivisione stessa. In particolare, dovranno essere stipulati accordi con riguardo alle possibilità e modalità di assunzione delle decisioni future, alla suddivisione dei rischi e alla predeterminazione delle responsabilità, nonché alla tutela dell’investimento effettuato. Precondizione della condivisione stessa è, inoltre, l’incontro che la genera, divenendo fondamentale l’individuazione del partner che è in possesso o in grado di acquisire l’asset di dati desiderato o, dall’altro lato, gestisce l’interfaccia o il prodotto o il sensore che dialoga con l’utente o l’ambiente che si desidera raggiungere. In terzo luogo, ma di nuovo precondizione fondamentale, vi è il dialogo tecnico e l’integrazione software. Quest’ultima è, infatti, fondamentale per la comunicazione in tempo reale fra i sistemi, 6 per la data quality, nonché per raggiungere il cliente finale stesso, accedendo all’interfaccia o al prodotto desiderati. “Data Valley” - www.datavalley.it - è un progetto che è nato per rispondere a questa esigenza di condivisione e integrazione, valutando attentamente anche gli elementi contrattuali e di compliance, si è specializzata nell’analisi di queste problematiche, prima organizzando degli incontri in forma di simposio tra le imprese del Triveneto e le Big Tech, in seguito creando un percorso di analisi sistematica degli aspetti economici, tecnici e giuridici per la creazione di nuove partnership e sinergie per la condivisione dei dati e l’integrazione tecnologica. L’esperienza iniziale è proseguita online con la creazione di tavoli di lavoro a partecipazione ristretta, focalizzati su tematiche ed esigenze specifiche e condivise ed il primo avviato ha portato all’elaborazione del presente White Paper. I tavoli di lavoro nascono dall’esigenza di mettere in comunicazione più soggetti appartenenti al medesimo settore ma rappresentativi delle diverse categorie di soggetti coinvolti, per l’individuazione dei need di condivisione, nonché degli ostacoli per poter lavorare assieme al loro superamento. A partire da novembre 2020, pressoché mensilmente, i membri del Gruppo di lavoro si sono riuniti per condividere esperienze ed esigenze, individuando e sviscerando i bisogni e le problematiche comuni. Le loro esperienze, discussioni, preoccupazioni e aspirazioni, hanno portato all’elaborazione del White Paper. La prima sezione del White Paper è dedicata alla descrizione dell’impatto della data analysis nel settore sanitario, alle prospettive europee per la creazione di data spaces e all’emergere dell’esigenza di individuare, definire e consolidare modelli e best practices per l’anonimizzazione e la condivisione. La seconda sezione, dedicata all’utilizzo dei dati sanitari per finalità di cura e di ricerca, ricostruisce il quadro giuridico applicabile, differenziando tra dato personale, dato anonimo e dato pseudonimo ai sensi del GDPR; analizzando le specificità relative al trattamento di dati sanitari per finalità di cura e di ricerca, anche distinguendo tra ricerca sperimentale e ricerca osservazionale; approfondendo le problematiche relative alla condivisione dei “dati dei gruppi”. La terza sezione s’incentra sui profili evolutivi della valorizzazione del dato sanitario tra gli attori dell’ecosistema per la creazione di data lake nel sanitario per il miglioramento della ricerca/cura attraverso la concentrazione dei dati. La quarta sezione è, infine dedicata alle tecnologie per l’anonimizzazione e ai dati sintetici, alla scelta della tecnologia e alla sua implementazione. 7 1.2. Descrizione dello scenario: l’impatto della data analysis nel settore sanitario Paola Aurucci Negli ultimi 25 anni l’invenzione, lo sviluppo e la diffusione delle ICT (le tecnologie dell’informazione e della comunicazione) ha ampliato enormemente la portata della produzione, raccolta, conservazione e condivisione di dati1. Banche dati digitali sempre più ampie e sistemi sempre più sofisticati di analisi hanno portato all’ascesa del c.d. dato-centrismo2 che ha enormi implicazioni per come la ricerca scientifica viene condotta, organizzata, governata e valutata3. Entrando nello specifico, ciò che davvero cambia rispetto al passato grazie alla proliferazione di dispositivi atti alla registrazione digitale di dati in ambienti eterogenei, è che essa permette di avere continuativamente un’immagine digitale in tempo reale di diversi sistemi sociali e tecnici, su scala globale e con un’alta risoluzione dei comportamenti individuali. Questa nuova capacità di misurazione degli esseri umani si accompagna a nuove ambizioni di comprendere tali sistemi e controllarli. Non a caso, un’immediata conseguenza della variazione di scala della numerosità della popolazione contattabile e misurabile nell’ambito delle scienze mediche è stata uno straordinario sviluppo della ricerca clinica ed epidemiologica osservazionale su dati real word, comprensiva della prevenzione primaria e secondaria e dell’assistenza in senso stretto. Tali studi osservazionali su grandi moli di dati, grazie alla disponibilità di tecnologie computazionali innovative, hanno permesso anche di esplorare la migliore combinazione delle variabili disponibili in un contesto controllato per predire un determinato esito (e.g. studi che mirano all’identificazione dei pazienti che hanno una più elevata probabilità di beneficiare di uno specifico trattamento). La sfera biomedica, poi, è stata particolarmente toccata dalla rivoluzione digitale. Il tasso di crescita dei dati elettronici in tale contesto è, infatti superiore alla media. Questo avviene in virtù di quattro importanti fenomeni: (i) digitalizzazione della diagnostica per immagini; (ii) digitalizzazione di cartelle cliniche e fascicoli sanitari (iii) esplosione dell’Internet of Things (di seguito “IoT” e (iv) lo sviluppo di tecniche di sequenziamento di Next Generation Sequencing (di seguito “NGS”) - anche detta anche Second Generation Sequencing o High-throughput Sequencing. Queste ultime sono impiegate nel campo delle cosiddette scienze «omiche» e permettono con tempi ridotti ed elevata sensibilità analitica, di acquisire un enorme quantitativo di dati relativi ai diversi livelli gerarchici di complessità biologica (DNA, mRNA, proteine, metaboliti ecc.). Il ricorso a tali tecniche ha permesso di fornire una visione globale dei processi cellulari e molecolari che caratterizzano gli individui contribuendo a rivoluzionare lo studio dei sistemi complessi Pagallo, U., Il diritto nell’età dell’informazione, G. Giappichelli Editore, 2014, p. 174. Floridi, L., The 4th revolution: how the infosphere is reshaping human reality, Oxford, 2014, p. 96. 3 Leonelli, S., La ricerca scientifica nell’era dei Big Data, Meltemi, 2018, p. 31. 1 2 8 (biologia dei sistemi), che attraverso modalità integrative e modelli computazionali avanzati mira a rispondere a quesiti biologici complessi come la patogenesi, la storia naturale e l’evoluzione delle malattie. Questo enorme quantitativo di dati, provenienti da fonti eterogenee che raccolgono e aggiornano i dati per ragioni in gran parte diverse da quelle legate alla ricerca clinica ed epidemiologica, se non analizzata ed integrata correttamente, rischia di trasformarsi in un handicap nel momento in cui si desideri tradurli in nuove scoperte scientifiche. Per fortuna, la disponibilità di tali dati rappresenta anche un’opportunità unica per addestrare algoritmi di apprendimento automatico, fattore fondamentale nello sviluppo dell’intelligenza artificiale, da utilizzare per la prevenzione delle malattie, la diagnostica e lo sviluppo di nuovi farmaci. Difatti, l’analisi di questo novel data stream attraverso le tecniche di intelligenza artificiale, e in particolare il machine learning, permette di identificare automaticamente delle correlazioni a partire dalle quali sarà possibile esprimere delle “predizioni” con ragionamenti di tipo induttivo e formulare delle ipotesi. In particolare, il ricorso al machine learning per l’integrazione dell’enorme quantitativo di dati prodotto dalle tecniche di sequenziamento di seconda generazione usati nella biologia molecolare permette di oggettivare e quantificare la natura eterogenea della maggior parte delle malattie e la variabilità fenotipica dei singoli individui a livello di genomica, epigenomica, trascrittomica, proteomica e metabolomica, la cosiddetta “panomica". Sarà quindi possibile procedere con una sempre più precisa profilazione del paziente e cucire il trattamento in base profilo genetico dell’individuo. Un’ulteriore progressione concettuale può essere individuata nella medicina di precisione, definita dal National Institute of Health (di seguito “NIH”) «un approccio emergente di trattamento e prevenzione delle malattie che tiene conto della variabilità individuale di geni, ambiente e stili di vita»4, ovvero che tiene conto non esclusivamente della variabilità genetica, ma anche dell’ambiente e della composizione del microbiota. L’affermazione di questo approccio dipenderà dell’integrazione di enormi quantità di dati prodotti dal ricorso a metodi ad alta processività per la caratterizzazione molecolare dei pazienti, insieme ad una altrettanto enorme quantità di dati fisiologici, clinici e ambientali ricavati da tecnologie multicanali come gli smartphone e sensori indossabili (oltre che dalle informazioni ottenute tramite la frequentazione compulsiva dei social media) e dalla loro analisi tramite strumenti di apprendimento automatico. Siamo quindi soltanto all’inizio di un processo che potrebbe tradursi in una rivoluzione epocale della pratica clinica ed assistenza sanitaria, la quale trova nella ricerca data intensive l’elemento cruciale che propone, solleva e crea una serie di criticità e questioni inedite. Oltre alle problematiche di ordine epistemologico, relative ad esempio alla reale affidabilità delle evidenze prodotte dall’analisi di dati eterogenei, e tecnico, legate allo sviluppo di sistemi in grado di processare e analizzare un enorme mole di dati in maniera sicura, le criticità più recalcitranti sono di ordine etico e giuridico. E ciò vale sia per le classiche ricerche osservazionali retrospettive su dati dal mondo reale, sia per indagini nell'ambito della medicina di precisione che 4 National Institute of Health, The promise of precision medicine, reperibile sul sito internet: www.nih.gov/about-nih/what-wedo/nih-turning-discovery-into-health/promise-precision-medicine. 9 prevedono l’utilizzo sistematico - spesso da parte di diversi centri di ricerca - di dati personali di natura sensibile e ultra-sensibile (dati genetici) per finalità ulteriori rispetto a quelle per cui furono inizialmente raccolti (utilizzo secondario). Considerando, infatti, la proliferazione di sistemi di registrazione digitale, dispositivi mobili, e wearable in ambiente sanitario, nonché l’insito valore di ricerca dei dati sanitari e genetici, l’affermarsi della ricerca data-driven, implica, come sottolineato da Mittlestadt e Floridi «l’impossibilità di prevedere al momento della raccolta tutti i futuri usi che si faranno dei dati»5. Ciò mette in crisi il ricorso al consenso come base giuridica per il trattamento di questi dati, visto che per essere valido deve essere informato e specifico, ovvero riferito a uno o più fini determinati e ciò non è possibile dal momento che tali dati probabilmente necessiteranno di essere riutilizzati, condivisi e aggregati ad altri per fini di ricerca. In questi casi ricontattare ogni singolo paziente per informarlo sul nuovo scopo di ricerca risulta eccessivamente costoso, organizzativamente impossibile, o potrebbe mettere a repentaglio il conseguimento delle finalità della ricerca. Tali finalità sono addirittura ignote al momento del trattamento nelle ricerche osservazionali basate sull’utilizzo di apprendimento automatico, capaci di fare un uso trasformativo delle informazioni, ovvero di identificare correlazioni invisibili ad occhio nudo al ricercatore, neanche astrattamente prevedibili prima dell’analisi dei dati. Tali ricerche sono, infatti, finalizzate a identificare l’ipotesi di studio - non testarla - e mettono duramente alla prova l’approccio basato sul ri-consenso. Alternativa a quest’ultimo è l’anonimizzazione, che tuttavia è difficile da raggiungere in un contesto di big data. 1.3. Prospettive europee: la creazione di data spaces nel settore sanitario Vanessa Cocca Il Regolamento generale sulla protezione dei dati (GDPR) ha creato condizioni di parità per l'uso dei dati personali, compresi i dati sanitari. Tuttavia, il panorama dei servizi sanitari digitali, all'interno e tra gli Stati membri europei, rimane frammentato a causa delle diverse trasposizioni normative nazionali. La frammentazione normativa in Europa in materia di trattamento del dato sanitario rappresenta un ostacolo importante per i player del settore sanitario. Di conseguenza, la Commissione Europea ritiene fondamentale rafforzare ed estendere la condivisione, l'uso e il riutilizzo dei dati sanitari per incentivare l'innovazione nel settore biomedico. 5 Mittelsadt, B.D. e Floridi, L., The ethics of big data: Current and foreseeable issues in biomedical context, in Science and Engineering Ethics, vol. XXII, n. 2 (2016), p. 303-341. 10 La stessa Commissione promuoverà, come discusso dagli Stati Membri in occasione della "Recovery and Resilience Facility"6, la realizzazione di spazi comuni europei di dati (data space7) in settori economici strategici e ambiti di interesse pubblico, al fine di rendere disponibili grandi quantitativi di dati agli operatori di un settore. In particolare, ogni spazio comune di dati sarà caratterizzato da una legislazione e un modello di governance peculiare in base al settore di riferimento per garantire il pieno utilizzo e l'interoperabilità dei dati8. Il data space vuole quindi essere uno strumento regolamentato a livello europeo e sviluppato nel pieno rispetto della normativa comunitaria in materia di protezione dei dati e conforme ai più alti standard disponibili in materia di cybersicurezza. La sfera biomedica-sanitaria, in virtù della peculiarità e delle implicazioni del dato oggetto di trattamento, rappresenta un settore in cui l'utilizzo dei dati può avere un impatto sistemico sull'intero ecosistema. Di conseguenza, la Commissione propone l'istituzione di un data space europeo di dati sanitari, volto a: aiutare le autorità sanitarie a prendere decisioni data-driven per migliorare l'accessibilità, l'efficacia e la sostenibilità dei sistemi sanitari, contribuire alla competitività dell'industria sanitaria dell'Unione europea, supportare il lavoro degli organismi di regolamentazione del sistema sanitario nella valutazione dei farmaci o prodotti biomedici e la dimostrazione della loro sicurezza ed efficacia, e infine, garantire ai cittadini l'accesso, il controllo e la portabilità dei dati sanitari personali implementando un libretto sanitario elettronico (EHR) salvaguardando la privacy. 1.4. Come nasce il white paper: l’esigenza di individuare, definire e consolidare modelli e best practices per l’anonimizzazione e la condivisione del dato nel settore sanitario Carlo Rossi Chauvenet L’obiettivo del white paper è quello di definire il quadro normativo e tecnico che rappresenta il nuovo level playing field nel quale gli attori del settore sanitario sono sempre più chiamati ad operare. Nel tradizionale rapporto tra il paziente ed il medico si sono aperti importanti spazi di interazione, governati dalla tecnologia, che richiedono ingenti investimenti ed una visione di natura sistemica. p. 17, Communication from the Commission to the European Parliament, the Council, the European Economic and Social Committee and the Committee of the Regions - 2030 Digital Compass: the European way for the Digital Decade, Bruxelles, 9 marzo 2021. 7 Un data space è un infrastruttura che collega diversi storage virtuali contenenti esclusivamente dati (non, ad esempio, aree comuni, dati di sistema o programmi) e con cui si interagisce attraverso un API o un software. 8 p. 29 , Comunicazione Della Commissione Al Parlamento Europeo, Al Consiglio, Al Comitato Economico E Sociale Europeo E Al Comitato Delle Regioni - Una strategia europea per i dati, Bruxelles, 19 febbraio 2020. 6 11 Il riferimento è ovviamente relativo alle aziende di ingegneria biomedicale, ai dispositivi medici e a tutti i dispositivi che misurano gli stili di vita delle persona, ai servizi di telemedicina fino alle piattaforme di ricerca in ambito biomedico. Questo ambito è in grande espansione, ma è molto fragile perché rimesso alle scelte regolatorie dei singoli Stati nazionali che in questo ambito sono sempre particolarmente stringenti. A loro volta queste scelte dipendono dalla valutazione delle tecnologie a disposizione che viene fatta dai singoli organismi normativi i quali sono spesso influenzati dai fatti di cronaca di incidenti connessi con l’utilizzo di certe tecnologie nelle loro fasi iniziali e dalle conseguenti preoccupazioni dell’opinione pubblica. Per questa ragione è sempre più opportuno che gli operatori dell’intero comparto salute definiscono in documenti unitari il quadro delle esigenze e delle soluzioni prospettate nell’interesse del paziente, autodefinendo un consensus sugli elementi regolatori e tecnologici al fine di favorire gli investimenti e metterli al riparo da comportamenti ondivaghi sul piano regolatorio nelle prime fasi di sviluppo di un settore ad alta innovazione. E’ il primo passo per la creazione di uno spazio laboratoriale di condivisione delle soluzioni e di integrazione di servizi secondo il modello “sandbox” utilizzato nel Regno Unito per quanto riguarda la regolazione finanziaria. Sul fronte della Data Protection in ambito sanitario il tema è sempre più attuale data l’esigenza di condividere ed integrare grandi moli di dati personali e non personali resa possibile dall’utilizzo di innovative tecniche di anonimizzazione del dato quale quella dell’utilizzo di dati sintetici. Nel prosieguo del documento verranno analizzati i bisogni della industry, l’attuale quadro regolatorio e le soluzioni tecnologiche disponibili formulando proposte di avanzamento del quadro regolatorio a tutela degli investimenti nel settore. 12 2. L’utilizzo dei dati sanitari per finalità di cura e di ricerca 2.1. Dato personale, dato anonimo e dato pseudonimo ai sensi del GDPR Piergiorgio Chiara This project has received funding from the European Union’s Horizon 2020 research and innovation programme under the Marie Skłodowska-Curie ITN EJD grant agreement No 814177 Il GDPR si applica solo ai dati personali. I dati non personali pertanto non rientrano nel suo campo di applicazione. La classificazione giuridica del dato è quindi un tema di centrale importanza in quanto determina se l'entità che tratta i dati è soggetta ai vari obblighi che il regolamento impone ai responsabili del trattamento. Eppure, la costruzione binaria del regime europeo della protezione dei dati, a 5 anni dall’entrata in vigore del Regolamento, ancora non assicura quella certezza del diritto desiderata dagli attori del mercato. Il Regolamento definisce il dato personale all’articolo 4(1) come qualsiasi informazione riguardante una persona fisica identificata o identificabile. Inoltre, si considera identificabile la persona fisica che può essere identificata, direttamente o indirettamente, con particolare riferimento a un identificativo come il nome, un numero di identificazione, dati relativi all'ubicazione, un identificativo online o a uno o più elementi caratteristici della sua identità fisica, fisiologica, genetica, psichica, economica, culturale o sociale. Prima di esaminare più nel dettaglio il test adottato dal Regolamento per determinare la personalità del dato, occorre evidenziare, nel contesto del dato non personale, una seconda rilevante dicotomia. Alcuni dati infatti sono sempre non personali perché non hanno mai riguardato una persona fisica identificata o identificabile. Altri, invece, sono originariamente dati personali ai sensi dell’articolo 4(1) ma, a seguito di un’operazione mirate ad eliminare il collegamento con la persona fisica, diventano non personali in quanto la persona fisica non è più identificata o identificabile. È soprattutto quest’ultima categoria di dati che dà origine alle già menzionate problematiche tecnicogiuridiche che interessano da vicino la ricerca, soprattutto in campo biomedico. In questo contesto, il Considerando 26 del Regolamento stabilisce il test da eseguire per far luce sulle diverse tecniche di trattamento che investono la distinzione binaria tra dato personale e non personale. In particolare, è opportuno analizzare più nel dettaglio il caso della pseudonimizzazione e dell’anonimizzazione. La pseudonimizzazione è concepita dal GDPR come un mezzo per ridurre i rischi per gli interessati “nascondendo” l'identità degli individui in un dataset, ad esempio, sostituendo uno o più identificatori personali con i cd. pseudonimi. Ovviamente, il collegamento tecnico-logico tra gli 13 pseudonimi e gli identificatori iniziali va opportunamente protetto dal titolare del trattamento. Il rischio di re-identificazione è ridotto, ed è certamente vero che tale trattamento impedisce l'identificazione diretta dell’interessato. Eppure, ai sensi del Considerando 26, i dati personali sottoposti a tecniche di pseudonimizzazione dovrebbero essere considerati informazioni su una persona fisica identificabile e pertanto ricadere sotto l’ambito di applicazione del Regolamento, in quanto potrebbero ancora essere attribuiti a una persona fisica mediante l'utilizzo di ulteriori informazioni. Di converso, lo stesso Considerando stabilisce che il Regolamento non dovrebbe applicarsi a informazioni anonime, vale a dire informazioni che non si riferiscono a una persona fisica identificata o identificabile o a dati personali resi sufficientemente anonimi da impedire o da non consentire più l'identificazione dell'interessato. Una lettura più approfondita del testo rivela il cuore del test del Considerando 26. Infatti, per stabilire l'identificabilità di una persona è opportuno considerare tutti i mezzi, come l'individuazione, di cui il titolare del trattamento o un terzo può ragionevolmente avvalersi per identificare detta persona fisica direttamente o indirettamente. Per accertare la ragionevole probabilità di utilizzo dei mezzi per identificare la persona fisica, si dovrebbe prendere in considerazione l'insieme dei fattori obiettivi, tra cui i costi e il tempo necessario per l'identificazione, tenendo conto sia delle tecnologie disponibili al momento del trattamento, sia degli sviluppi tecnologici. Il test elaborato dal considerando 26 del GDPR abbraccia essenzialmente un approccio basato sul rischio per determinare la personalità o meno del dato. Quando c'è un ragionevole rischio di identificazione, i dati dovrebbero essere trattati come dati personali. Dove, invece, tale rischio è trascurabile, i dati possono essere trattati come dati non personali, e questo anche se l'identificazione non può essere esclusa con assoluta certezza9. Questa lettura improntata sull’approccio al rischio del Regolamento ha trovato delle resistenze soprattutto nella cd. lettura “assolutista” del Gruppo di Lavoro 29, seguito da alcune autorità di controllo, come il Garante francese10 e quello irlandese11. Questa interpretazione prende in considerazione tutte le possibilità e le occasioni in cui chiunque sarebbe in grado di identificare la persona interessata: mentre il GDPR si riferisce esplicitamente alla sola possibilità di individuare la persona fisica, il Gruppo di Lavoro va oltre, aggiungendo al test di de-identificazione i criteri di i) collegabilità (linkability) di informazioni relative all’individuo in diversi datasets; e, ii) inferenza, ossia la possibilità di dedurre, con una significative probabilità, il valore di un attributo dai valori di un insieme di altri attributi12. 9 Finck, M. e Pallas, F., “They who must not be identified—distinguishing personal from non-personal data under the GDPR” (2020) International Data Privacy Law, 10(1), 11-36. 10 Commission Nationale de l'Informatique et des Libertés, “Comment prévenir les risques et organiser la sécurité de vos données ?” (2019). 11 Data Protection Commission, “Guidance on Anonymisation and Pseudonymisation” (2019). 12 Article 29 Working Party, Opinion 05/2014 on Anonymisation Techniques (WP 216) 0829/14/EN, 3. 14 Così, il Gruppo di Lavoro 29 fissa una soglia elevata da soddisfare, stabilendo il proprio “test del rischio zero” secondo il quale nessun rischio di re-identificazione può essere tollerato. Questo implicherebbe un’equazione perfetta tra anonimizzazione e cancellazione: il risultato di tale tecnica dovrebbe essere permanente, rendendo impossibile qualsiasi operazione tecnica che possa re-identificare il soggetto cui i dati personali originariamente si riferivano. L'approccio assoluto, tuttavia, difficilmente può essere sostenuto: esiste fiorente letteratura sulla natura non assoluta dell'anonimizzazione13. Pertanto, se non potessimo mai fare affidamento sulla nonpersonalità del dato, allora ogni informazione rimarrebbe sempre nell'ambito di applicazione del GDPR. Un’altra lettura del Considerando 26, cd. relativista, considera solo gli sforzi richiesti per identificare un individuo, senza addentrarsi nel campo oscuro delle mere possibilità teoriche. Diversi autori e, per certi versi il Garante britannico14, hanno sostenuto che i dati risultanti da operazioni di anonimizzazione per via di tecniche crittografiche non dovrebbero essere considerati dati personali se sono soddisfatti due requisiti: il metodo crittografico deve essere efficace, solido e aggiornato e il titolare del trattamento (o qualsiasi terzo) non è in possesso della chiave di decrittazione e nemmeno vi sono ragionevoli possibilità di che questi ottenga la chiave. Questo ragionamento ha avuto particolare successo nel campo del cloud computing15. Tuttavia, la posizione più convincente è quella basata sull’approccio al rischio, ispirante il Regolamento e confermata dalla Corte di Giustizia16. Se vi è una ragionevole probabilità che determinati dati, ancorché sottoposti ad operazioni di crittografia irreversibile (es., salted/peppered hash function) per l’ottenimento dell’anonimizzazione, possano essere (ri)collegati alla persona fisica cui originariamente si rifacevano, essi devono essere qualificati come dati personali. Invece, qualora la de-identificazione sia stata sufficientemente robusta, affinché l'identificazione non sia più ragionevolmente probabile, quei dati dovranno essere considerati come non personali17. 2.2. Dati relativi alla salute: finalità di cura e finalità di ricerca Paola Aurucci, Giorgio Presepio I «dati relativi alla salute», insieme ai dati biometrici e genetici, vengono inseriti dal GDPR nell’alveo «Categorie particolari di dati personali» (quella che nel gergo comune vengono indicati come “dati sensibili” o “super sensibili”). L’individuazione di tali Categorie particolari di dati, operata nello 13 Ohm, P., “Broken Promises of Privacy: Responding to the Surprising Failure of Anonymization” (2010) UCLA Law Review, 57(2); Sweeney, L., “Simple Demographics Often Identify People Uniquely”(2000) Health, 671; Narayanan, A., e Shmatikov, V., “Robust De-anonymization of Large Sparse Dataset”(2008) IEEE Symposium on Security and Privacy. 14 Information Commissioner’s Office, “Anonymisation: Managing Data Protection Risk Code of Practice” (2012) 15 Hon, K.W., Millard, C. e Walden, I., “The problem of ‘personal data’ in cloud computing: what information is regulated? -the cloud of unknowing” (2011) International Data Privacy Law, 1(4). 16 Case C-582/14 Patrick Breyer [2016] EU:C:2016:779. 17 Cfr. con AEPD ed EDPS, “Introduction to the Hash Function as a Personal Data Pseudonymisation Technique” (2019) 15 specifico dall’art. 9 del GDPR, è funzionale alla previsione di una disciplina più restrittiva del loro trattamento. Una protezione più elevata per questa tipologia di dati viene garantita in virtù della loro insita pericolosità, dato che non solo identificano l’individuo (come è per i dati comuni) ma essi concorrono indefettibilmente alla costruzione della sua identità, e per questo motivo sono suscettibili ad essere fonte di abusi e discriminazioni se trattati in modo improprio. A conferma di una ancora maggiore pericolosità del trattamento dei dati relativi alla salute (e di dati biometrici e genetici) rispetto a quello delle altre categorie particolari di dati, il paragrafo 4 dell’art. 9 autorizza gli Stati Membri a mantenere o introdurre ulteriori condizioni ed eventualmente limitazioni alla disciplina prevista dall’art. 9 summenzionato, la quale si rivela soltanto una disciplina minima rispetto a questo tipo di dati. L’art. 4 del GDPR definisce i dati relativi alla salute come quello «attinenti alla salute fisica o mentale di una persona fisica, compresa la prestazione di servizi di assistenza sanitaria, che rivelano informazioni relative al suo stato di salute». Il considerando 35 specifica un aspetto importante ulteriore, ovvero quello temporale, specificando che i dati relativi allo stato di salute riguardano la condizione fisica o mentale dell’individuo sia passata, sia presente, sia futura. Il considerando prosegue specificando che si tratta di dati raccolti tipicamente (anche se non viene indicata come situazione esclusiva) nel corso della registrazione per l’accesso ad una prestazione e prosegue con un elenco (non esaustivo) di esempi di tali dati: un simbolo o un elemento specifico attribuito a una persona fisica per identificarla in modo univoco a fini sanitari; le informazioni risultanti da esami e controlli effettuati su una parte del corpo o una sostanza organica, compresi i dati genetici e i campioni biologici; e qualsiasi informazione riguardante, ad esempio, una malattia, una disabilità, il rischio di malattie, l'anamnesi medica, i trattamenti clinici o lo stato fisiologico o biomedico dell'interessato, indipendentemente dalla fonte, quale, ad esempio, un medico o altro operatore sanitario, un ospedale, un dispositivo medico o un test diagnostico in vitro. L’European Data Protection Board ha poi aggiunto che sono da considerare fonti di dati relativi alla salute – oltre alle informazioni raccolte da un fornitore di assistenza sanitaria in una cartella clinica - anche informazioni che se incrociate altri dati siano tali da rivelare lo stato di salute o i rischi per la salute (ad esempio, la presunzione che una determinata persona sia esposta a un rischio più elevato di attacchi cardiaci basata su misurazioni ripetute della pressione arteriosa lungo un certo arco di tempo), i test di autovalutazione, in cui gli interessati rispondono a domande relative alla loro salute (ad esempio, descrivendo sintomatologia) e informazioni che a seguito del loro utilizzo in un contesto specifico rivelino lo stato di salute del soggetto (ad esempio, informazioni relative a un viaggio recente o alla permanenza in una regione interessata dal COVID-19 elaborate da un professionista sanitario per effettuare una diagnosi). In base a tali valutazioni, non dovrebbe invece considerarsi dato relativo alla salute una mera rappresentazione della realtà fisica del soggetto (e.g. la sua immagine, l’audio della sua voce o del battito cardiaco) se tale dato non venga poi elaborato in modo da rivelare elementi relativi allo stato di salute dell’interessato. Nella definizione di stato di salute dovrebbe poi rientrare – oltre ad una condizione patologica - sia la condizione di buona salute sia fisica che psichica18 - che quella di guarigione da una patologia. Alla luce di tali assunti e 18 Si veda sentenza del 6 novembre 2003 in causa C-101/01, Lindqvist, punto 50. 16 della pertinente giurisprudenza della Corte di giustizia dell'Unione europea ("CGUE")19, si può desumere che l’espressione «dati relativi alla salute» debba essere interpretata in modo estensivo. La disciplina prevista dal GDPR cerca di conciliare la tutela della persona fisica, riguardo alle informazioni sensibili che la riguardano, con l’esigenza che siano poste in essere attività rilevanti a livello economico e sociale, come la ricerca scientifica. Quest’ultima, in particolare, gode di un particolare favor all’interno del Regolamento che sebbene non preveda una definizione esplicita di «trattamento di dati effettuato per finalità di ricerca scientifica» al Considerando 159 stabilisce che tale assunto «dovrebbe essere interpretato in senso lato» e «tenendo conto dell’obiettivo comunitario di creare uno spazio europeo della ricerca – come previsto dall’art 179 del TFUE – per cui «i ricercatori, le conoscenze scientifiche e le tecnologie circolino liberamente». Lo stesso considerando fornisce poi una vasta gamma di esempi di cosa debba intendersi per attività scientifiche in cui vi rientrano la «ricerca finanziata dai privati» nonché gli «studi svolti nell’interesse pubblico nel settore della sanità pubblica». È indubbio che questa definizione ampia sia volta ad assicurare che vi rientrino sia le sperimentazioni cliniche, finanziate nella maggior parte dei casi da aziende farmaceutiche, che gli studi clinici osservazionali. Il Gruppo di lavoro « Articolo 29 » ha poi puntualizzato che l’interpretazione del termine «ricerca scientifica» non deve andare a travalicare il significato che gli viene comunemente attribuito ovvero «un progetto di ricerca istituito conformemente alle pertinenti norme etiche e metodologiche settoriali, in conformità delle buone prassi». Inoltre, come si vedrà in seguito, per la prima volta il GDPR prevede una deroga specifica al divieto di trattamento dei dati relativi alla salute, qualora ciò sia necessario per tali finalità di ricerca scientifica. Rispetto al «trattamento di dati relativi alla salute a fini di ricerca scientifica» occorre distinguere fra due diversi utilizzi che possono venire fatti di questi dati. Si parla di «uso primario» quando tali dati vengono raccolti direttamente per scopi di studio scientifico. Esempi di studi in campo biomedico che presuppongono l’utilizzo primario di dati relativi alla salute sono le sperimentazioni cliniche e gli studi osservazionali prospettici. In tali studi i dati relativi alla salute del paziente vengono infatti raccolti ab origine per le specifiche finalità per cui viene condotto lo studio stesso e devono essere esaustivamente descritte al soggetto prima di partecipare alla ricerca. Si parla invece di «uso secondario» quando i dati relativi alla salute che vengono utilizzati finalità di ricerca sono stati raccolti inizialmente per altre finalità (ad esempio per finalità di cura nell’ambito della normale pratica clinica, precedenti sperimentazioni cliniche o precedenti e diversi studi osservazionali). Si parla anche di trattamento «ulteriore per fini di ricerca». Un tipico esempio di uso secondario di dati relativi alla salute per finalità di ricerca lo si riscontra negli studi osservazionali retrospettivi in cui i dati personali sono stati raccolti in precedenza a fini di cura della salute o per l’esecuzione di precedenti progetti di ricerca ovvero sono stati ricavati da campioni biologici prelevati in precedenza per finalità di tutela della salute o per l’esecuzione di precedenti progetti di ricerca. 19 Ibidem 17 La distinzione tra ricerca scientifica basata sull'utilizzo primario o secondario dei dati relativi alla salute assume particolare importanza al fine di determinare la base giuridica del trattamento, gli obblighi di informazione e l’applicazione del principio della limitazione delle finalità. La proliferazione di sistemi di registrazione digitale, di dispositivi mobili, e wearable in ambiente sanitario, considerando l’insito valore di ricerca dei dati relativi alla salute biometrici e genetici, ha innescato una proliferazione senza precedenti di studi osservazionali data intensive basati sull’utilizzo secondario di dati relativi alla salute. Dati sanitari routinariamente raccolti nella normale pratica clinica vengono quindi continuamente riutilizzati, condivisi e aggregati ad altri per fini diversi diversi da quelli per cui sono stati raccolti. Tali ulteriori finalità di ricerca sono addirittura ignote al momento dell’accesso ai dati da parte del ricercatore negli studi che prevedono l’analisi degli stessi attraverso sistemi di intelligenza artificiale in grado di identificare correlazioni e collegamenti invisibili ad occhio nudo al ricercatore, neanche astrattamente prevedibili prima dell’analisi dei dati, su cui basare poi modelli predittivi che consentono di capire che determinate combinazioni di valori di alcuni parametri sono spesso associate a specifiche condizioni cliniche. 2.3. Ricerca sperimentale e ricerca osservazionale Paola Aurucci La ricerca biomedica in termini molto generali, può essere definita come una ricerca di carattere multidisciplinare che ricorre sempre di più ad approcci integrati che si servono di nozioni e apporti metodologici complementari e tipici di diverse discipline scientifiche per comprendere meccanismi fisiologici, patologici e farmacologici. Essa si suddivide in via preliminare fra ricerca preclinica (ricerca che non si conduce sugli esseri umani) e ricerca clinica (che si conduce sugli esseri umani). Quest’ultima è condotta direttamente sull’uomo (sia sano che malato) ed è finalizza allo studio diretto della malattia per lo sviluppo di nuovi trattamenti efficaci di prevenzione, diagnosi, riabilitazione/assistenza e cura. La ricerca clinica si basa su vari tipi di studi che si avvalgono sia della metodologia sperimentale che di quella osservazionale. Per questo motivo, a livello normativo il Regolamento (UE) N. 536/2014 per definire la sperimentazione clinica stabilisce prima cosa debba intendersi per studio clinico, ovvero « qualsiasi indagine effettuata in relazione a soggetti umani volta a: a) scoprire o verificare gli effetti clinici, farmacologici o altri effetti farmacodinamici di uno o più medicinali; b) identificare eventuali reazioni avverse di uno o più medicinali; oppure c) studiare l'assorbimento, la distribuzione, il metabolismo e l'eliminazione di uno o più medicinali, al fine di accertare la sicurezza e/o l'efficacia di tali medicinali. Solo nel successivo art. 2, par. 2 specifica che una sperimentazione clinica rappresenta una sottocategoria «che soddisfa una delle seguenti condizioni: (i) l’assegnazione del soggetto a una determinata strategia terapeutica è decisa anticipatamente e non rientra nella normale pratica clinica dello Stato membro interessato; (ii) la decisione di prescrivere i medicinali sperimentali e la decisione di includere il soggetto nello studio 18 clinico sono prese nello stesso momento; (iii) sono applicate ai soggetti procedure diagnostiche o di monitoraggio aggiuntive rispetto alla normale pratica clinica. Il Regolamento poi, seguendo un approccio che tiene debitamente conto degli orientamenti internazionali, in particolare quello degli Stati Uniti la cui normativa sugli studi sperimentali prevede, da parecchi anni, una classificazione di questi in base al livello di rischio - introduce il concetto di sperimentazioni a basso livello di intervento, in cui i medicinali oggetto di sperimentazione hanno già ricevuto l’autorizzazione per l’immissione in commercio, e vengono usati secondo i termini dell’autorizzazione dell’immissione in commercio (studi comparativi di farmaci autorizzati) o sulla base di evidenze scientifiche pubblicate/documentate (e.g. sperimentazioni off-lable). Le sperimentazioni a basso livello di intervento si distinguono dalle sperimentazioni cliniche “standard” in quanto prevedono un rischio aggiuntivo minimo per la sicurezza dei soggetti rispetto alla normale pratica clinica. Per valutare il rischio esistente per il soggetto in studio il Considerando 11 ricorda che questo origina da due ambiti il medicinale in sperimentazione e l’intevento, ovvero le procedure della sperimentazione clinica. Nel qualificare quali tipologie di sperimentazioni cliniche possono essere qualificate “a basso livello di intervento” i comitati dovranno perciò focalizzarsi sulla reale esistenza di elementi di evidenza scientifica a supporto dell’uso del farmaco nello studio secondo un’indicazione diversa da quella stabilita dall'AIC e sui possibili rischi “aggiuntivi rispetto alla normale pratica clinica” posti da dalle procedure previste dalla sperimentazione (e.g. diagnostiche e di monitoraggio). Tale tipologia di sperimentazioni cliniche dovrebbe essere soggetta a norme meno severe per quanto riguarda il monitoraggio, i requisiti applicabili al contenuto del fascicolo permanente e la tracciabilità dei medicinali sperimentali. Gli studi classificati come osservazionali prevedono – come quelli sperimentali - di stabilire un confronto tra gruppi, solo che il fenomeno in studio non è l’effetto di un intervento sperimentale, ma di una esposizione a un fattore di rischio o protettivo. Quest’ultima è di natura spontanea non è, quindi, condizionata dal ricercatore che si limita ad osservare ciò che si verifica in natura (nella pratica clinica), non agendo sulla condizione studiata, né assegnandola in modo casuale, né modificandola. I soggetti di ricerca sono inseriti nei gruppi a confronto sulla base delle caratteristiche personali o di loro esperienze non condizionate dallo studio. Il metodo osservazionale si è sviluppato prevalentemente nella ricerca epidemiologica che è stata definita «lo studio della distribuzione e dei determinanti delle situazioni o degli eventi collegati alla salute in una specifica popolazione, e l’applicazione di questo studio al controllo dei problemi di salute». Gli studi osservazionali possono essere prospettici e retrospettivi. Nei primi al momento in cui viene pianificato lo studio sia l’esposizione che gli esiti di interesse non si sono ancora verificati, di conseguenza i dati vengono raccolti prospetticamente e direttamente per gli scopi specifici dello studio. Nei secondi sono già avvenuti e i relativi dati vengono raccolti retrospettivamente – in quanto registrati in diversi dataset – e prevedono quindi un trattamento ulteriore di dati inizialmente raccolti per altre finalità ("utilizzo secondario"). La definizione normativa di studio osservazionale la rinveniamo alla lett. p) dell’art. 1 del d.lgs. n. 200/2007 19 secondo cui in tali ricerche «medicinali sono prescritti secondo le indicazioni dell'autorizzazione all'immissione in commercio ove l'assegnazione del paziente ad una determinata strategia terapeutica non e' decisa in anticipo da un protocollo di sperimentazione, rientra nella normale pratica clinica e la decisione di prescrivere il medicinale è del tutto indipendente da quella di includere il paziente nello studio, e nella quale ai pazienti non si applica nessuna procedura supplementare di diagnosi o monitoraggio». Tale definizione rivela molteplici criticità. In primo luogo ricomprende solo gli studi osservazionali sui farmaci e non riguarda agli studi osservazionali in generale. Vi sono, infatti, numerosi tipi di studi che sotto il profilo metodologico possono essere classificati come osservazionali ma che non rientrano nella definizione fornita dalla normativa in quanto non prevedono la prescrizione di medicinali (e.g. studi epidemiologici, studi osservazionali su dispositivi medici, studi sui campioni biologici e dati genetici; studi sul comportamento o sulla qualità della vita) contribuendo a creare una regolamentazione degli studi osservazionali lacunosa. Inoltre, in base alla teoria epidemiologica, lo studio osservazionale può prevedere procedure diagnostiche e valutative che non sono di routine nella pratica clinica del soggetto partecipante, e pertanto non qualificabili come meramente “aggiuntive” rispetto ad esse. Un parziale rimedio è stato le Linee guida per la classificazione e conduzione degli studi osservazionali sui farmaci. dell’AIFA. In tale documento rientrano nella definizione di “pratica clinica corrente”: «questionari, interviste, diari, indagini di economia sanitaria e di farmaco economia, valutazioni soggettive da parte del soggetto sul proprio stato di salute, scale di valutazione ed esami ematochimici, il cui uso sia giustificato dal protocollo dello studio». In definitiva, la disciplina nazionale si rivela del tutto lacunosa nel disciplinare e classificare le varie tipologie di studi osservazionali conducibili in ambito sanitario ed epidemiologico. Nella Legge n. 3/2018, “Delega al Governo in materia di sperimentazione clinica di medicinali nonché disposizioni per il riordino delle professioni sanitarie e per la dirigenza sanitaria del Ministero della salute” viene evidenziata la necessità di un nuovo strumento normativo – di tipo cogente – relativo agli studi osservazionali in ambito biomedico e sanitario. 2.4. Dati granulari, cluster e gruppi Alessandra Salluce L’utilizzo, sempre più pervasivo, di strumenti e risorse informatiche ha condotto, come si accennava anche nei Paragrafi precedenti, alla produzione e alla circolazione di una quantità di dati davvero imponente. Non bisogna tuttavia stupirsene: l’epoca post-moderna, caratterizzata da modelli di business c.d. “data-driven”, non rappresenta che la naturale evoluzione dei paradigmi operativi adottati in tutti i settori produttivi, ed è senza dubbio destinata, nel prossimo futuro, ad espandersi ulteriormente. 20 Anche il settore sanitario e della ricerca ne sono coinvolti: a titolo di esempio, basti pensare al sempre crescente numero di app in commercio in grado di raccogliere in tempo reale numerose informazioni personali di natura particolare, così come l’utilizzo – sempre più frequente – di strumenti tecnologici nello svolgimento delle più tradizionali attività mediche o, ancora, al ruolo della ricerca che, sin dagli albori, si nutre di dataset, ma ora ha a propria disposizione strumenti sempre più all’avanguardia, che consentono di elaborare moli di dati un tempo inimmaginabili. Ciò premesso, da un lato, non si nega l’assoluta utilità di un tale sviluppo sul fronte tecnologico – che, in campo sanitario, ha permesso il raggiungimento di traguardi un tempo impensabili – dall’altro, è importante riconoscere l’esistenza e la rilevanza del diritto alla riservatezza, che compete a ciascun individuo, soprattutto in relazione a certi tipi di informazione. È necessario, dunque, trovare un “punto di equilibrio”, che consenta di soddisfare la necessità di conoscenza richiesta per determinate finalità, soprattutto laddove collegate a interessi collettivi meritevoli di soddisfacimento, come la salute e il progresso in campo medico, ma, al tempo stesso, proteggere la riservatezza degli individui coinvolti, tenendo conto anche delle criticità derivanti dall’utilizzo di algoritmi e dalla possibilità di inferire informazioni personali tramite la correlazione di dati. Tale nodo cruciale, peraltro, è collegato a diversi aspetti, anche di natura etica, che concernono in primo luogo l’eventualità di dare luogo a discriminazioni. Inoltre, insieme agli aspetti più strettamente giuridici, è necessario includere nell’analisi anche gli aspetti più tecnici, legati in particolar modo alla sicurezza delle informazioni e alle modalità prescelte per la conservazione, l’accesso e la trasmissione. Nell’ambito della ricerca in ambito sanitario, peraltro, l’accesso ai dati non riguarda tanto un problema dal punto di vista autorizzativo, in quanto la trasmissione degli stessi è certamente autorizzata e necessaria, quanto piuttosto dal punto di vista tecnicoorganizzativo, poiché l’aspetto più critico è legato alla scelta delle modalità di rilascio delle informazioni: da questa scelta, infatti, potrebbero derivare violazioni alla sfera più riservata degli individui appartenenti al campione da analizzare, laddove dal dato rilasciato, sia esso in forma granulare o in forma aggregata, potrebbero dedursi aspetti più intimi o, nei casi più gravi, ricostruire completamente l’identità del soggetto. In tale complesso quadro generale, l’applicazione di tecniche di rilascio del dato, unito ad altre, di natura più strettamente informatica, volte a preservare la sicurezza delle informazioni, possono offrire un notevole contributo20. Sul punto, in via preliminare, è necessario chiarire le differenze – che poco sopra si accennavano – con riguardo alla tipologia di dato rilasciato per fini di ricerca: a tal riguardo, si parla di “microdati” quando le informazioni contenute nel database statistico sono “pure”, singole; si parla invece di “microdati” quando le informazioni sono rilasciate in forma aggregata, statistica. A loro volta, i dati, siano essi rilasciati in forma di micro o di macrodati, possono essere aggregati, andando a comporre dei gruppi, o cluster, sulla base di determinati parametri che li accomunano, a seconda della finalità dell’analisi da condurre. In questo caso, tuttavia, la scelta del criterio di 20 Sul punto, è doveroso specificare che mentre la cybersecurity si occupa della sicurezza dei sistemi informatici e dei flussi informativi tramite di essi scambiati, fornendo strumenti tesi a contrastare possibili infiltrazioni o, più in generale, danni a software, hardware o compromissioni della sicurezza dei dati, le tecniche di data protection sono tese ad evitare la correlazione e l’inferenza di informazioni e l’identificazione degli individui. 21 raggruppamento deve essere ben ponderata, dal momento che una scelta non ottimale potrà rendere più difficoltoso il percorso verso il raggiungimento del proprio scopo di ricerca, nonché, in alcuni casi, condurre a risultati non veritieri. Scegliere la tipologia di dato più adatta al nostro scopo, in ogni caso, presenta diverse criticità dal punto di vista della privacy e della tutela del dato personale, in quanto non solo da tale scelta deriva l’applicazione stessa del GDPR – che si applica, come noto, solo ai dati personali, escludendo dunque quelli anonimi, ammesso che lo siano realmente – ma anche l’applicazione delle misure di de-identificazione o pseudonimizzazione ritenute più idonee. Relativamente a tale aspetto, è possibile ravvisare alcune sostanziali differenze nel rilascio del dato in formato “puro” o in modalità aggregata. Innanzitutto, il dato puro è quello che, per definizione, risulta più delicato e meritevole di protezioni più consistenti: se non vengono applicate tecniche di data protection adeguate, infatti, è possibile risalire molto più facilmente al soggetto cui si riferiscono e, di conseguenza, anche dedurre informazioni ulteriori attinenti alla sua persona. Ciò può accadere, generalmente, in due casi specifici: - quando all’interno del dataset vi è un dato particolarmente “vistoso” (come può essere, in un’analisi di tipo socio-economico, uno stipendio molto più consistente degli altri in un database circoscritto ad un’area geografica di ridotte dimensioni); - quando i dati all’interno del database sono facilmente correlabili ad informazioni esterne (questo si verifica quando vi sono numerosi attributi corrispondenti nei due database correlati e le informazioni in essi contenute sono molto accurate e dettagliate). Ovviamente, i soggetti che presentano caratteristiche peculiari o, addirittura, uniche, sono più esposti al c.d. “disclosure risk”, che comporta l’identificazione dell’individuo o l’inferenza di determinati dati, in alcuni casi di natura particolarmente riservata. Inoltre, le due possibilità appena prospettate diventano più consistenti laddove siano pubblicati dati particolarmente accurati e vi sia più di un database esterno con il quale effettuare collegamenti. Anche il rilascio di dati in forma aggregata, in ogni caso, non è esente da rischi e criticità di tale sorta. Innanzitutto, è opportuno specificare l’esistenza di due possibili forme di pubblicazione del macrodato: le c.d. “tabelle di frequenza” riportano il numero esatto o la percentuale di soggetti che condividono quel determinato attributo; le “tabelle di magnitudo”, invece, riportano valori aggregati (genericamente sotto forma di media matematica) relativi ad un particolare attributo oggetto di analisi. Tra le due, queste ultime rappresentano quelle più problematiche, in quanto le tecniche di protezione applicabili alle tabelle di frequenza – come, ad esempio, il campionamento – potrebbero risultare insufficienti. Si è visto poco sopra come il dato rilasciato nella sua forma “pura” presenti più criticità dal punto di vista della protezione del dato, laddove anche l’applicazione di specifiche tecniche a ciò deputate (come, tra le altre, il campionamento, la generalizzazione, la soppressione o l’aggiunta di “rumore”) può in molti casi consentire la re-identificazione del soggetto interessato o l’inferenza di altre sue peculiari caratteristiche personali. Per valutare più realisticamente la protezione dell’anonimato dei soggetti rappresentati nel dataset, tuttavia, può risultare molto utile applicare i parametri di k- 22 anonimity, l-diversity e t-closeness21 che consentono, attraverso diversi metodi, di aggiungere in gradi differenti e via via crescenti delle difficoltà nell’effettiva identificazione dell’individuo rappresentato in un determinato gruppo d’analisi. A queste, negli ultimi anni, si sono aggiunte tecniche più innovative, che comportano l’aggiunta del c.d. “rumore”, come la differential privacy. Quanto appena osservato in riferimento ai microdati vale, seppure con alcune esclusioni, anche nel caso in cui si sia optato per il rilascio di macrodati: i rischi in cui si può incappare sono i medesimi, anche se le possibili tecniche di data protection applicabili sono differenti. Tra queste, a titolo esemplificativo, si segnalano il campionamento di valori o l’applicazione di “regole di soglia” o altre regole speciali. Il problema principale, e sotteso ad entrambe le tipologie di dataset sopra illustrate, in definitiva, si può convogliare nel problema dell’anonimità: quando è possibile affermare con ragionevole certezza di aver reso un dato anonimo? E quando, dopo aver applicato una delle tecniche ad oggi conosciute per proteggere la riservatezza dell’individuo, si può aver meno timore di una possibile re-identificazione? Oltre a tali interrogativi di natura più squisitamente tecnico-giuridica, emergono sempre più prepotentemente anche quelli di derivazione etica: ad esempio, quali sono i criteri più corretti per l’omologazione degli individui e il loro raggruppamento in cluster? Quali sono le possibili conseguenze di un “privacy leak”? Quali sono le discriminazioni che si potrebbero determinare nel riutilizzo di tali dati – anche in forma aggregata – per finalità ulteriori, specialmente laddove il trattamento avvenga in forma automatizzata? Si tratta di interrogativi cruciali, ai quali in molti casi si presta ancora troppo poca attenzione, ma che, soprattutto in campo sanitario, possono determinare risvolti davvero preoccupanti. 21 La proprietà di “k-anonimity” consente di individuare, all’interno di un gruppo, almeno k individui che presentano una caratteristica in comune; la proprietà di “l-diversity” indica la quantità di attributi sensibili diversi che ciascun individuo rappresentato in un dataset deve avere per assicurare un certo valore di anonimità; la proprietà di “t-closeness” invece, mira a ridistribuire i dati, cosicché tra l’intera distribuzione dei record e una sua parte selezionata risultino molto simili. 23 3. Profili evolutivi della valorizzazione del dato sanitario tra gli attori dell’ecosistema 3.1. Accesso al dato e sicurezza nella condivisione: la prospettiva europea Vanessa Cocca Muovendo la nostra analisi a livello europeo, vale la pena sottolineare che numerosi sono stati, nel corso degli ultimi anni, gli impulsi europei alla digitalizzazione del settore sanitario e alla condivisione dei dati sanitari22. Tra i principali punti d’azione figura l'interoperabilità dei sistemi di informazione, la sicurezza dei dati e le tecnologie per il miglioramento della privacy, il miglioramento dell'infrastruttura di servizi digitali per la sanità elettronica, lo scambio transfrontaliero di dati sanitari, i registri e le piattaforme comuni delle malattie, gli strumenti per la ricerca sulle malattie rare, la prevenzione e il controllo delle minacce sanitarie transfrontaliere, un uso migliore dei finanziamenti europei, la condivisione di best practices. I sistemi sanitari e assistenziali necessitano di riforme profonde e soluzioni innovative per diventare accessibili e efficaci nel fornire assistenza ai cittadini europei. La condivisione del dato è un passaggio essenziale per il raggiungimento di tali obiettivi: tuttavia i dati sono spesso disponibili in formati che non ne garantiscono l’interoperabilità e sono spesso gestiti in maniera difforme sia negli Stati membri che all'interno dei sistemi sanitari nazionali23. Il contesto di emergenza legato alla diffusione del Covid-19 ha mostrato il potenziale e ha aperto la strada all'uso generalizzato di soluzioni innovative in ambito medico, al ricorso alla telemedicina e all’assistenza remota. Le tecnologie digitali possono consentire ai cittadini di monitorare il loro stato di salute, prevenire l’insorgere di nuove patologie ed efficientare il funzionamento dei sistemi sanitari. Tuttavia, la crisi sanitaria ha anche esposto le vulnerabilità dello spazio digitale, la sua dipendenza da critical infrastructures, spesso non basate nei territori europei; ha evidenziato la dipendenza da poche grandi tech company, ha visto un aumento dell'afflusso di prodotti contraffatti e furti informatici, e ha amplificato l'impatto della disinformazione sulle nostre società democratiche24. A tal proposito, la Commissione Europea stima che l'introduzione di una maggiore integrazione dei servizi online, il miglioramento delle infrastrutture per la trasmissione elettronica e l’accesso ai dati potrebbe portare a benefici fino a 120 miliardi di euro all'anno25. Si veda la Strategia per il mercato unico digitale in Europa, COM(2015) 192 final, 2015. COMUNICAZIONE DELLA COMMISSIONE AL PARLAMENTO EUROPEO, AL CONSIGLIO, AL COMITATO ECONOMICO E SOCIALE EUROPEO E AL COMITATO DELLE REGIONI relativa alla trasformazione digitale della sanità e dell'assistenza nel mercato unico digitale, alla responsabilizzazione dei cittadini e alla creazione di una società più sana”, COM(2018) 233 final. 24COMUNICAZIONE DELLA COMMISSIONE AL PARLAMENTO EUROPEO, AL CONSIGLIO, AL COMITATO ECONOMICO E SOCIALE EUROPEO E AL COMITATO DELLE REGIONI "2030 Digital Compass: the European way for the Digital Decade", COM(2021) 118 final. 25 supra 8. 22 23 24 Costruire un'infrastruttura interconnessa paneuropea comune e polivalente per l'elaborazione dei dati, da usare nel pieno rispetto dei diritti fondamentali, sviluppare capacità periferiche in tempo reale per servire le esigenze degli utenti finali vicino a dove i dati vengono generati, progettare piattaforme middleware sicure, a basso consumo e interoperabili per usi settoriali, e consentire un facile scambio e condivisione dei dati, sono tra le priorità che l’Unione Europea ha individuato nel Digital Compass 203026. Tale visione è stata descritta ed incorporata nell’ambito del Programma EU4Health27 per il periodo 2021-2027, volto alla trasformazione digitale dei servizi sanitari, alla promozione dell’interoperabilità, allo sviluppo di uno spazio europeo dei dati sanitari. EU4Health rappresenta la risposta dell'Unione Europea alla diffusione del Covid-19. Con un investimento di 9,4 miliardi di euro, EU4Health diventa così il più grande programma per la salute di sempre in termini di risorse finanziarie, e fornirà finanziamenti agli Stati Membri, alle organizzazioni sanitarie e alle ONG. Il programma finanzierà, tra le altre, anche azioni legate alla creazione dell’European Health Data Space. La creazione di uno spazio europeo dei dati è una delle priorità della Commissione per il periodo 2019-2025, anche nel settore sanitario. Uno spazio comune europeo dei dati sanitari promuoverà un migliore scambio e accesso a diversi tipi di dati sanitari (cartelle cliniche elettroniche, dati genomici, dati dai registri dei pazienti, ecc.), non solo per sostenere la fornitura di assistenza sanitaria (il cosiddetto uso primario dei dati), ma anche per la ricerca sanitaria e la definizione delle politiche sanitarie (il cosiddetto uso secondario dei dati). Il sistema ruoterà intorno al rispetto dei principi di trasparenza e protezione dei dati personali dei pazienti, sul rafforzamento della data portability, sulla base di quanto stabilito dall’art.20 del GDPR. La Commissione lavorerà insieme agli stati membri per lo sviluppo dell’European Health Data Space, la cui costruzione ruoterà intorno a tre pilastri: a. un forte sistema di data governance dei dati e un framework di regole per lo scambio di dati; b. qualità dei dati; c. creazione di una struttura in grado di abilitare l’interoperabilità. La Commissione aveva già annunciato, nell’ambito dell’European Data Strategy28 e nel più recente Data Governance Act29, l'intenzione di ottenere risultati concreti nel settore dei dati sanitari e di sfruttare il potenziale creato dagli sviluppi delle tecnologie digitali per introdurre innovazione nell’ambito sanitario. La raccolta, l'accesso, la conservazione, l'uso e il ri-uso dei sanitari pone sfide supra 8. Regolamento (UE) 2021/522 del Parlamento Europeo e del Consiglio del 24 marzo 2021 che istituisce un programma d’azione dell’Unione in materia di salute per il periodo 2021-2027 («programma UE per la salute») (EU4Health) e che abroga il regolamento (UE) n. 282/2014. 28 COMUNICAZIONE DELLA COMMISSIONE AL PARLAMENTO EUROPEO, AL CONSIGLIO, AL COMITATO ECONOMICO E SOCIALE EUROPEO E AL COMITATO DELLE REGIONI “Una strategia europea per i dati”, COM(2020) 66 final. 29 Proposta di REGOLAMENTO DEL PARLAMENTO EUROPEO E DEL CONSIGLIO relativo alla governance europea dei dati, COM(2020) 767 final. 26 27 25 che devono essere affrontate in un quadro normativo che serva al meglio gli interessi e i diritti dei cittadini, in particolare per quanto riguarda il trattamento dei dati relativi allo stato di salute. Nonostante la Direttiva sull'assistenza sanitaria transfrontaliera30 abbia creato un framework collaborativo tra le autorità nazionali responsabili per la sanità elettronica (la "rete eHealth"), gli accordi e gli strumenti esistenti forniscono e rispondono solo in parte alle sfide. L'insufficiente scambio di dati sanitari ha un impatto negativo sulla fornitura di servizi sanitari (e dunque sull’uso primario del dato sanitario). Il livello di digitalizzazione varia notevolmente all’interno di ogni Stato Membro e l'interoperabilità tra i fornitori di servizi sanitari rimane limitata. La rete eHealth - e la relativa infrastruttura IT - ha migliorato lo scambio transfrontaliero di dati sanitari per l'assistenza sanitaria, soprattutto per quel che riguarda le cartelle cliniche dei pazienti e le prescrizioni elettroniche. Tuttavia la sua natura volontaria e non vincolante ne ha negativamente influenzato l'adozione e limitato l'impatto. Esercitare l'accesso e il controllo sui propri dati sanitari è spesso estremamente difficile per i pazienti. Le cartelle cliniche elettroniche (EHR) non sono ancora una realtà in tutta l'Unione e molti pazienti non possono facilmente accedere e usare le informazioni che contengono, o trasferirle tra diversi operatori, soprattutto quando il trasferimento è transfrontaliero. Questo porta alla duplicazione degli sforzi, ad inefficienze, ritardi delle cure e a costi più elevati per i sistemi sanitari e per i pazienti. La condivisione delle EHR è limitata, il che significa che queste informazioni non possono essere facilmente condivise nel trattamento dei pazienti. Quanto all’uso secondario del dato sanitario, l'accesso e lo scambio di dati sanitari per la ricerca scientifica e l'innovazione, per la definizione di nuove politiche e per le attività di regolamentazione rimane ancora molto limitata all’interno dell’Unione. La raccolta, l'accesso, la conservazione, l'uso e il riutilizzo dei dati sanitari nell'assistenza sanitaria pone sfide specifiche, di carattere principalmente legale e tecnologico. Difatti, da un punto di vista normativo, il GDPR stabilisce un framework comune di regole a cui gli Stati membri hanno aggiunto ulteriori specifiche e restrizioni in relazione al trattamento e alla condivisione di dati sanitari. Quindi, il trattamento dei dati sanitari personali negli Stati membri risulta essere frammentario, portando a ostacoli e a un accesso limitato dei ricercatori e delle istituzioni pubbliche, che a sua volta riduce la competitività dell'UE e il potenziale di innovazione a livello globale. Gli Stati membri hanno approcci diversi per l'accesso e la condivisione dei dati sanitari. Alcuni Stati membri hanno istituito organismi nazionali che facilitano l'accesso ai dati sanitari; tuttavia, tali organismi non esistono in tutti gli Stati membri. Una cooperazione, una governance e un'infrastruttura IT limitate a livello UE ostacolano l'accesso ai dati sanitari da parte di ricercatori, istituzioni pubbliche e organismi di regolamentazione. Un numero crescente di strumenti digitali per la salute integra poi sistemi di intelligenza artificiale (AI). La Commissione sta già lavorando su un quadro orizzontale per l'IA che copre aspetti legati Direttiva 2011/24/UE del Parlamento europeo e del Consiglio, del 9 marzo 2011 , concernente l’applicazione dei diritti dei pazienti relativi all’assistenza sanitaria transfrontaliera. 30 26 alla sicurezza e ai diritti fondamentali, che è destinato ad essere applicato in diversi settori, compresi i prodotti sanitari. Tuttavia, gli aspetti specifici relativi alla salute che si basano sul futuro quadro dell'IA, tra cui la formazione, i test e la convalida dei sistemi di IA, così come gli aspetti non coperti da questo quadro orizzontale potrebbero richiedere ulteriori considerazioni. L'uso di strumenti di IA, e in particolare l'opacità di alcune applicazioni, può rendere difficile l'attribuzione della responsabilità o garantire la conformità. È importante dunque assicurare adeguate garanzie sui diritti fondamentali e sul risarcimento dei danni. Tutte queste problematiche dovrebbero essere analizzate e risolte nell’ambito dell’European Heath Data Space; in particolare, il programma mira a: a. garantire l'accesso, la condivisione e l'uso ottimale dei dati sanitari ai fini della fornitura dell'assistenza sanitaria, nonché il loro riutilizzo per la ricerca e l'innovazione, l'elaborazione delle politiche e le attività di regolamentazione, in modo sicuro, tempestivo, trasparente e affidabile e con un'adeguata governance istituzionale; b. promuovere un vero e proprio mercato unico della salute digitale, che copra i servizi e i prodotti sanitari, compresa la telemedicina, il telemonitoraggio e la salute mobile; c. migliorare lo sviluppo, la diffusione e l'applicazione di prodotti e servizi sanitari digitali affidabili, compresi quelli che incorporano l'intelligenza artificiale nel settore della salute. d. stabilire un quadro giuridico e di governance appropriato per coprire l'accesso e lo scambio di dati sanitari per la fornitura di assistenza sanitaria, la ricerca, la definizione delle politiche e le attività di regolamentazione. L’European Health Data Space, integrato con aspetti del Data Governance Act, prevederà la designazione di organismi nazionali per la salute digitale ed organismi settoriali che si occuperanno dell'uso secondario dei dati sanitari. Si prevede inoltre: il sostegno alle autorità pubbliche (ad esempio le agenzie di medicina, le istituzioni epidemiologiche, gli istituti sanitari nazionali, gli organismi di HTA, l'EMA, l'ECDC) per l'accesso ai dati sanitari nel pieno rispetto delle norme sulla protezione dei dati; l'accesso ai dati genetici e il collegamento con i dati sanitari; il riutilizzo dei dati detenuti da soggetti privati; il sostegno alla formazione e alla sperimentazione di applicazioni sanitarie AI. L'interazione con il GDPR, in particolare gli articoli 9 e 89, per quanto riguarda la regolamentazione dei dati sanitari sarà oggetto di dettagliato studio e analisi. Si lavorerà inoltre verso l’eliminazione delle barriere tecniche che ostacolano l'uso e il riutilizzo dei dati, in particolare quelle relative alle infrastrutture, all'interoperabilità, alla qualità dei dati e agli standard in campo sanitario. Saranno esaminate le opzioni relative alle infrastrutture per l'uso dei dati per l'assistenza sanitaria, basandosi sull'infrastruttura di servizi digitali per la sanità elettronica (MyHealth@EU) per lo scambio transfrontaliero dei dati dei pazienti quando viaggiano all'estero. Saranno esaminate le opzioni riguardanti il rafforzamento dell'interoperabilità delle cartelle cliniche elettroniche, in linea con il formato europeo di scambio, così come l'interoperabilità semantica e tecnica dei diversi tipi di dati. Per quanto riguarda l'accesso ai dati a fini di ricerca, di elaborazione delle politiche e di regolamentazione, le opzioni riguarderanno diversi modelli di infrastrutture interoperabili per l'accesso ai dati e i relativi servizi per facilitare lo stoccaggio sicuro e 27 transfrontaliero, l'elaborazione e l'analisi dei dati sanitari. 3.2. Data lake nel sanitario: il miglioramento della ricerca/cura attraverso la concentrazione dei dati Daniele Panfilo La possibilità di aggregare informazione in sistemi che ne consentano un accesso ed un riutilizzo facile e veloce, come data lakes o data warehouse, costituisce uno dei driver fondamentali per la ricerca e lo sviluppo di soluzioni basate sull’analisi dei dati. Ciò risulta ancor più chiaro nel caso del dato sanitario. Tale aspetto è stato ulteriormente evidenziato dalla pandemia corrente che ha reso inderogabile la necessità di un'infrastruttura capace di facilitare la condivisione, l’accesso e un sicuro riutilizzo del dato sanitario. Se da un lato la crescita esponenziale dell’informazione disponibile segue un tasso di crescita molto elevato, grazie al significativo sviluppo e alla conseguente diffusione di dispositivi di acquisizione dati, dall’altra, l’accesso e il riutilizzo dell’asset informativo mostra fattori di crescita ben differenti. Le cause che ostacolano una più ampia democratizzazione dell'informazione sanitaria, mirata ad incentivare la rapida implementazione di progetti di ricerca e sviluppo, sono varie e hanno origini differenti. Da un lato la mancanza di una piattaforma standard per la sicura condivisione del dato sanitario, dall’altra la natura sensibile del dato trattato costituiscono alcuni tra i principali fattori alla base dello scarso riutilizzo dell asset informativo. Se da un lato The European Monitoring Tool31 prevede che per il 2025 il mercato dei dati europei raggiungerà il valore di oltre 140 miliardi di Euro, dall’altro risulta evidente che un vero e proprio cambio di paradigma tecnologico sarà necessario perchè la valorizzazione dell’asset informativo possa realizzarsi secondo le previsioni attese. A tal fine diversi iniziative europee sono emerse e stanno emergendo, con l’obiettivo di rendere possibile l’accesso e il riutilizzo del patrimonio informativo sanitario mediante l'aggregazione in data lake o data warehouses. Un esempio di tali iniziative è fornito dall’eHealth platform Belgium, un servizio governativo belga, che offre la possibilità agli attori del panorama sanitario di scambiare in maniera sicura informazioni anche sensibili. Un altro caso è quello rappresentato dal The Health Data Research Hubs inglese che facilita l’accesso ai dati del sistema sanitario nazionale per il settore pubblico, accademico e della ricerca industriale nel Regno Unito. La nascita di tali realtà in diversi stati membri mostra quanto sia centrale il tema della condivisione del dato e quanto tale necessità sia avvertita in tutti gli stati membri dell’unione. 31 First Report on Facts and Figures Updating the European Data Market Study Monitoring Tool By International Data Corporation (IDC) and the Lisbon Council, European Data Market Study Updated SMART 2016/0063. 28 L’aggregazione di tali informazioni mediante piattaforme dedicate, non solamente incentiva la ricerca facilitando l’accesso al dato, ma permette anche l'eliminazione di barriere geografiche, incoraggiando il nascere di collaborazioni e sinergie internazionali linfa vitale del progresso scientifico. Affinché le previsioni Europee del mercato dei dati possano realizzarsi, e perché l’Unione Europea possa beneficiare a pieno delle strategie presentate nel report “Impact Assessment on enhancing the use of data in Europe”, è necessario che le tecnologie a disposizione del mondo IT, e la ricerca di soluzioni innovative in materia di privacy dei dati si sviluppino e vengano adottate in maniera sinergica. 3.3. Strumenti Organizzativi: partnership, consorzi, contratti. Paolo Bartoli, Ruggero Di Maulo I registri a supporto degli studi osservazionali sulle malattie rare sono strumenti importanti per una strategia mirata ad accelerare la ricerca medica e lo sviluppo di nuove terapie e soluzioni per migliorare la qualità della vita dei pazienti. Il coinvolgimento dei pazienti attraverso le loro Associazioni gioca quindi un ruolo sempre più centrale, infatti è ormai evidente che queste sono il fulcro di tutto il processo di realizzazione e hanno sinteticamente alcune prerogative fondamentali, quali: - sono i portatori di interessi rispetto allo scopo finale (nuove terapie o soluzioni); - custodiscono lo strumento e la collezione dei dati; - sono garanti degli interessi della comunità per la quale operano; - sono veicolo di ingaggio e condivisione con i partecipanti, sia medici/ricercatori, che pazienti. La particolare natura dei registri in capo ad una Associazione richiede la capacità di strutturare e mantenere nel tempo la capacità operativa, di coinvolgere pazienti e medici e di raccogliere i dati garantendone la sicurezza e disponibilità. Tali dati hanno un valore crescente per l’ecosistema in quanto sono la base della generazione di real-world evidence (RWE), che è sempre più richiesta dagli enti regolatori e dalle aziende sia nelle fasi iniziali della ricerca farmacologica, che nelle successive attività di registrazione, definizione del prezzo e post-marketing surveillance. Questi elementi si basano sulla capacità di gestione “industriale” e amministrativa, tanto più quanto maggiore è la complessità tecnologica e regolatoria sottostante a un registro che voglia sopravvivere nel tempo ed essere in regola con le norme di legge. Sono necessarie pertanto risorse economiche e umane non facili da reperire e mantenere nel tempo. 29 Tale capacità di gestione non può essere garantita al di fuori di un approccio d’impresa. L’organizzazione strutturata di risorse umane e materiali per un fine definito offre queste garanzie, a patto che sia in grado di sostenersi finanziariamente. Preparazione ed esperienza, sicurezza, qualità sono fattori che hanno un costo elevato, e devono confluire in un modello ove siano chiari ruoli e responsabilità. Altro aspetto fondamentale è un approccio volto al medio-lungo periodo, in quanto non è raro che in questo contesto i risultati di una ricerca possano portare a delle soluzioni concrete per le generazioni successive dei pazienti che hanno partecipato alla ricerca stessa nella fase di early-stage. Un approccio “a progetto”, con team organizzati su base estemporanea e tempistiche di 1-3 anni è efficace ad esempio per un trial clinico di prodotto, ma non lo è per uno studio osservazionale di lungo periodo, dove va realizzata una organizzazione permanente per la raccolta e gestione della qualità del dato da un lato, e per l’engagement dei pazienti e dei clinici dall’altro. Anche dal punto di vista della sostenibilità economica, per un progetto di 1-3 anni un grant può essere uno strumento adatto, mentre per un registro osservazionale di lungo periodo vanno garantiti fondi in maniera strutturale (modello industriale). Cloud-R si propone di strutturare i processi e renderli operativi sotto il profilo organizzativo e tecnologico applicando un modello di industrializzazione già sperimentato, e soprattutto può finanziare dall’inizio la realizzazione e il mantenimento del registro. Questa capacità è possibile però se, e solo se – raggiunto l'obiettivo di una raccolta dati di qualità - tali dati, attraverso una loro corretta anonimizzazione, possono poi essere condivisi per finalità secondarie di ricerca con altri ricercatori e industrie, a titolo oneroso, per remunerare l’attività d’impresa di cloud-R, condizione necessaria per sostenere il sistema nel medio-lungo periodo. Nella pratica, la capacità di sostenere i costi del registro a favore dell’Associazione e dei ricercatori si basa sulla capacità di Cloud-R di sostenere il rischio d’impresa della realizzazione di un registro, grazie alla disponibilità in esclusiva dei dati del registro anonimizzati e alla conseguente possibilità di creare, organizzare e condividere tali dati per finalità secondarie di ricerca, remunerando così il proprio investimento. La condivisione dei dati secondari per Cloud-R ha valenza di business, basato su uno scopo etico che si riassume nel rendere disponibile conoscenza e informazioni ad altri portatori di interesse anche al di fuori singolo contesto nel quale vengono raccolti i dati (vedi raccomandazioni EMA) e nello stesso tempo di reperire nuove risorse finanziarie, che oggi non sono disponibili per tale tipo di ricerca indipendente. L’Associazione è libera dal canto suo di utilizzare i dati del registro per le finalità primarie di ricerca, tipicamente senza finalità di lucro, e in accordo con i progetti dei medici secondo quanto indicato nel protocollo dello studio osservazionale servito dal registro. Si tratta di attività che rientrano nelle facoltà dell’Associazione, per le quali essa si deve comunque dotare degli organi di governo e delle minime indispensabili competenze legali, amministrative e regolatorie. 30 È quindi importante riconoscere reciprocamente la netta distinzione tra le attività senza fine di lucro che gravitano intorno all’Associazione e le attività d’impresa caratterizzate dalla necessità imprescindibile dell’equilibrio finanziario e della remunerazione del rischio in capo a Cloud-R. ● Finalità primarie di ricerca: senza finalità lucro - Associazione - Medici L’Associazione opera in collaborazione con i medici e i centri di riferimento regolando i rapporti attraverso le convenzioni sottoscritte con le strutture sanitarie ove operano i medici, e che recepiscono quanto indicato in protocollo per gli aspetti legati alla raccolta dei dati e al loro uso per pubblicazioni e in generale per gli usi primari. ● Finalità secondarie di ricerca: con finalità di lucro e impatto sociale - Cloud-R Condivisione estesa della conoscenza basata su dati anonimizzati, equilibrio finanziario e remunerazione del rischio. L’Associazione si avvale di Cloud-R per tutte le attività informatiche e tecniche oltre che per gli aspetti di compliance (dalla privacy alla sicurezza sia di processo che di struttura) ai fini della raccolta dei dati e alla gestione del registro. La possibilità da parte di Cloud-R di disporre dei dati anonimizzati consente la copertura della filiera dei costi informatici di struttura e di processo, oltre a coprire potenzialmente anche tutti i costi di data entry e data monitor, che di consueto sono coperti dai centri partecipanti e dal promotore e permette di mantenere il registro a medio-lungo termine. Questa distinzione risponde bene alla diversa natura dell’Associazione e di Cloud-R, e corrisponde alle rispettive finalità societarie. Le premesse di cui sopra sono alla base delle clausole fondamentali del contratto di servizio sottostante alla realizzazione del registro, e vengono sottoscritte dal cloud-R e dalla Associazione, la quale , di norma, è il Promotore dello studio osservazionale. Il modello può essere visualizzato nella sua interezza attraverso la seguente infografica: 31 La generazione di dati utilizzabili per il mercato è visibile più in dettaglio in questa infografica: 32 3.4. Dato RWE nel caso delle malattie rare: come estrarne nuovo valore Paolo Bartoli, Ruggero Di Maulo Il modello che viene portato avanti da Cloud-R ha la capacità di rivoluzionare la raccolta dati nelle malattie rare, infatti interviene sulla fase di governance dei processi che tradizionalmente vengono gestiti in modo destrutturato, non integrati con le fasi di tipo tecnologico e informatico, creando così i punti di rottura che spesso poi si manifestano nelle inadempienze sotto il profilo della compliance, nella indisponibilità dei dati e nella dissoluzione della stessa organizzazione dello studio. La vera debolezza di questi progetti sta nella differente velocità tra l'evoluzione tecnologica e quella della organizzazione - il fattore umano - dei processi, tra la parte hard e quella soft delle competenze/cultura e attitudini necessarie, che invece devono essere armonizzate per portare a risultati duraturi. Il focus dell’azione di Cloud-R è quindi nel cambiamento culturale, nello sviluppo di una autocoscienza - mindfulness con un termine oggi in voga - collettiva degli stakeholders dell'intero ecosistema, che mai come adesso sono chiamati a cogliere le opportunità date dalla potenza del digitale e nel contempo a gestire le crescenti complessità che dalla digitalizzazione derivano. 33 I casi d’uso possono essere molteplici, quali: 34 4. Le tecnologie per l’anonimizzazione 4.1. La scelta delle tecnologie per l’anonimizzazione Daniele Panfilo L’accesso e il riutilizzo del dato sanitario sono spesso ostacolati da vari fattori. Una delle principali cause di difficoltà è rappresentata dal fatto che molti dei dati sanitari sono classificati come dati sensibili. Le informazioni personali contenute all’interno di questi dati, se impropriamente divulgate potrebbero causare una grave violazione del diritto alla riservatezza. I rischi associati con l’utilizzo dell’informazione sanitaria inoltre impattano varie dimensioni da quella della sicurezza a quella reputazionale. Ciò impone che l’incaricato della gestione dell’asset informativo sanitario rispetti i più alti standard volti a tutelare la privacy degli individui. In questo modo si andrà ad incoraggiare la ricerca e l’innovazione garantendo al tempo stesso la sicurezza e i diritti degli individui. Da un punto di vista tecnico, esistono diversi approcci per tutelare la privacy degli individui che vanno dalle soluzioni standard di anonimizzazione e pseudo anonimizzazione fino alla moderna sintetizzazione del dato. La scelta di una o dell’altra tecnica dipende dal grado di sicurezza che si vuole ottenere e dal tipo di uso previsto per il dato. ● Anonimizzazione L’anonimizzazione è quel processo di offuscamento del dato che prevede in maniera irreversibile la rimozione totale dell’elemento identificativo. Esistono molteplici tecniche di anonimizzazione e una prima macro distinzione è quella tra tecniche di randomizzazione e tecniche di generalizzazione. ➢ Randomizzazione: opera sul grado di verità del dato per minare la correlazione che esiste tra lo stesso e la persona. Tra le principali tecniche di randomizzazione rientrano: ○ Aggiunta di rumore: si va ad aggiungere rumore su determinate colonne con l’obiettivo di diminuire l'accuratezza delle informazioni cercando comunque di mantenere inalterata la distribuzione. ○ Permutazione: si procede con il mescolare i valori di alcuni attributi affinché essi risultino collegati a persone o entità differenti. Tuttavia, se sussistono forti relazioni logiche tra alcuni attributi l’effetto potrebbe essere facilmente invertito (esempio medico curante e reparto ospedaliero). Tale operazione mira a rompere determinate correlazioni tra gli attributi che faciliterebbero l’identificazione dei soggetti. Ciononostante tale tecnica garantisce che le distribuzioni marginali degli attributi restino invariate. 35 ○ Privacy differenziale: tale tecnica è in principio simile all’aggiunta di rumore. La principale differenza risiede nel fatto che la seconda prevede l’inserimento di rumore “a priori”. Di contro nella privacy differenziale, l’aggiunta del rumore avviene ”on the fly” al momento dell’esecuzione dell’interrogazione della base dati. Il risultato dell’interrogazione presenta dunque un quantità opportuna di rumore e può essere condivisa con soggetti terzi poiché, se opportunamente implementata, tale tecnica non consente una facile re-identificazione dei soggetti. Il dato vero rimane comunque disponibile al titolare del trattamento. ➢ Generalizzazione\Aggregazione: ha come obiettivo quello di raggruppare i singoli record in classi che contengono più soggetti per eliminare la possibilità di un identificazione puntuale. Ciò può essere ottenuto modificando la scala di un attributo. Se per esempio avessimo una colonna città potremmo sostituirla con la regione allargando/diluendo l'informazione ingrandendo l’insieme di ricerca. ○ K-anonimato: Le tecniche di generalizzazione garantiscono l’anonimato delle persone tramite il loro raggruppamento in insiemi con altre k- persone. L’idea alla base delle tecniche di k-anonimato è quella di sostituire il valore puntuale degli identificatori con dei range di valori che comprendano almeno altri k-soggetti. Ad esempio si sostituiscono dei valori precisi di dosaggio di un farmaco con degli intervalli di valori. ○ L-diversità/T-vicinanza: estende e migliora il k-anonimato imponendo che all’interno di ogni intervallo di valori con k-soggetti esistano almeno L-diversi valori. Rafforza il concetto del k-anonimato contro gli attacchi tramite deduzione. ● Pseudoanonimizzazione La pseudonimizzazione punta a sostituire gli attributi identificativi di un dato con altri valori che non permettano l’identificazione dei soggetti. L’obiettivo della pseudonimizzazione è dunque quello di ridurre la possibilità di correlazione di un insieme di dati all’identità originale dei soggetti interessati. Tale trasformazione dei dati, differentemente dal caso dell’anonimizzazione, è spesso un processo reversibile. In sostanza si procede separando il dato in indicatori diretti (per esempio il codice fiscale) che consentono la facile identificazione del soggetto, e che devono essere cifrati o mascherati, e identificatori indiretti (per esempio il luogo di nascita) che possono essere invece condivisi senza fasi di pre-processamento. Tra le principali tecniche di pseudonimizzazione troviamo: ➢ Hashing functions: è una funzione non invertibile che prende in input un attributo 36 di lunghezza arbitraria e restituisce una stringa di lunghezza predefinita. Nonostante non sia invertibile, se si conosce la natura dell’attributo in input e se questo ha dimensione finita(per esempio le sigle delle province italiane), la funzione consente di riprodurre il risultato dell hashing semplicemente lasciando nuovamente l’input. ➢ Hashing functions e salt: è una versione migliorata della classica funzione di hashing che per limitare la possibile re-identificazione dei soggetti aggiunge al dato originale in input un valore random detto salt che può essere noto. ➢ Hash cifrato con chiave memorizzata: molto simile alla hash con salt. In questo caso il salt è una chiave privata nota solamente al responsabile del trattamento. ➢ Crittografia con chiave segreta: è un’operazione reversibile che prevede che il dato originale venga trasformato utilizzando tecniche di crittografia basate su chiavi segrete. La principale distinzione nelle tecniche di pseudo-anonimizzazione è quella tra pseudoanonimizzazione simmetrica e asimmetrica: o Simmetrica: in questo caso la chiave di cifratura e di decifratura coincidono; o Asimmetrica: in questo caso si usa una chiave per cifrare e un altra chiave distinta per decifrare il dato, non rendendo necessaria la condivisione della chiave di cifratura. ➢ Tokenizzazione: prevede l’assegnazione di un valore generato in maniera random ad ogni istanza dell’attributo che intendiamo pseudonimizzare. Ovviamente la mappatura deve far attenzione al fatto che non vengano assegnati numeri random uguali a istanze diverse per evitare confusione. ● Sintetizzazione Differentemente dalle precedenti tecniche di anonimizzazione e pseudonimizzazione, le moderne soluzioni di sintetizzazione dati basate su modelli di machine learning di tipo generativo, rappresentano un paradigma completamente nuovo per la gestione del dato personale. Tali tecniche partono dal presupposto che nella maggior parte dei casi e delle applicazioni, il singolo record costituisce esclusivamente una liability mentre il vero asset è rappresentato dal contenuto statistico del dataset. La sintetizzazione dei dati per mezzo di sistemi di AI rappresenta la nuova frontiera nella gestione dei dati sensibili. I moderni sistemi di generazione di dati sintetici sono strumenti capaci campionare nuovi record dalla distribuzione di dati in input generando dunque nuovo dato (sintetico). 37 I dati generati mediante soluzioni avanzate di intelligenza artificiale sono altamente rappresentativi della distribuzione statistica in input, tanto che possono essere usati per allenamento di modelli di machine learning o per analisi statistica descrittiva esibendo risultati statisticamente comparabili a quelli ottenibili con i dati veri. Vista la natura artificiale del dato sintetico ottenuto mediante modelli generativi, l'identificazione dei soggetti reali o la possibilità di attacchi di appartenenza (Membership Inference Attacks (MIA)), in assenza di accesso ai parametri del modello di generazione o al dataset reale e fatta esclusione per casi degeneri (dataset contenenti solo poche unità), risulta poco probabile e molto più complessa se comparata al caso di MIA su modelli discriminativi32. 4.2. Aindo e i dati sintetici Daniele Panfilo Aindo srl ha sviluppato una tecnologia basata modelli di machine learning generativi per la produzione di dati sintetici in contesto sanitario. Tale tecnologia a partire da pazienti veri consente la creazione di pazienti artificiali che mostrano le stesse caratteristiche statistiche della popolazione reale. Il paziente artificiale, generato per mezzo di modelli di AI, esibisce le caratteristiche statistiche di quello reale, mantenendo dunque l’utilità in fase di analisi ma impedisce la re identificazione dei soggetti reali o la condivisione di informazioni personali. I pazienti sintetici generati possono essere usati per analisi statistica o per l’allenamento di modelli di machine learning senza esporre mai i dati reali. Tale tecnologia è volta a facilitare i progetti di ricerca e sviluppo in ambito medico, velocizzando di molto il tempo di accesso al dato consentendo la condivisione dell’asset statistico senza compromettere la privacy dei pazienti. 4.3. La scelta del dataset: fase della scientifica primaria, fattibilità, fase della definizione per uso secondario Paolo Bartoli, Ruggero Di Maulo I dataset vengono definiti dal promotore dello studio, con la consulenza informatica, di processo di cloud-R, oltre che regolatoria/legale se necessaria. Le tecniche di anonimizzazione possono essere definite dal promotore in quanto titolare, o da esso approvate quando proposte da cloud-R, che ha il ruolo di Responsabile del trattamento e avrà , per 32 "An Overview of Privacy in Machine Learning." https://arxiv.org/abs/2005.08679. Accessed 17 Jun. 2021. 38 contratto, i diritti di utilizzo di tali dati anonimizzati. Gli interessi delle parti sono coerenti fra loro e hanno il medesimo obiettivo funzionale: rendere i dati un oggetto autonomo, privo di riferimenti alle persone. La limitata numerosità dei dati sulle malattie rare (pochi pazienti) rende difficile la scelta delle tecniche di anonimizzazione. Una di queste prevede la cancellazione degli elementi che possano portare alla re-identificazione del paziente. Più dati sono cancellati o accorpati, più è difficile risalire all'identità del paziente, meno informazioni si avranno. DATASET SORGENTE ALGORITMO DI ANONIMIZZAZION E NOME CAMPO VALORE CAMPO SORGENTE (Dati pseudonimi) DATASET ANONIMIZZATO IRREVERSIBILMENTE NOME CAMPO VALORE CAMPO POST ANONIMIZZAZIONE Identificativo univoco numerico del paziente 3 Trasformazione irreversibile Identificativo record Random Data di nascita 10/2001 Trasformazione irreversibile Anno di nascita 2001 Età 3 Eliminazione irreversibile 39 Sesso Femmina Sesso Femmina Consenso partecipazione al registro per pazienti Sì Nessuna azione Nessuna azione Consenso partecipazione al registro per pazienti Sì Data firma consenso 20/09/2018 Trasformazione irreversibile Anno firma consenso 2018 Data di diagnosi 06/12/2002 Trasformazione irreversibile Anno di diagnosi 2002 Le tecniche adottabili sono diverse, ma tutte pongono il trade-off tra qualità dei dati e anonimizzazione, tenendo conto che questa non è graduabile. Inoltre potrebbe essere necessario considerare i caratteri che definiscono un dato quale “anonimo”. Questi potrebbero cambiare a causa dell’evoluzione tecnologica digitale e della AI, potenziali elementi che potrebbero rendere riconoscibili domani profili personali sottostanti a dati oggi considerati anonimi. La possibilità di portare il dataset a uno stato di non relazione “essenziale” con il concetto di dato personale può essere sperimentata con l’adozione di algoritmi che generino un dataset - derivato dall'originario - definito sintetico, nel quale i dati granulari sono trasformati in entità di informazione diverse dalle originali, mantenendo la capacità di generare statistiche sovrapponibili a quelle generate dal dataset di origine contenente i riferimenti personali. Questo argomento è oggetto di trattazione in altra sede. 5. Conclusioni e prospettive future La pubblicazione del white paper "E-health Data Sharing" segna la conclusione della prima fase di un percorso e il punto di partenza per costruire un confronto multilaterale tra i portatori di interesse, coinvolgendo le istituzioni, l'accademia e il settore privato. Più precisamente, come Data Valley continueremo a raccogliere e integrare nuovi contributi per arricchire la prima versione del white paper e creeremo strumenti complementari a questo documento, quali checklist e toolkit, al fine di evidenziare gli elementi più rilevanti. Invitiamo i soggetti interessati alla condivisione di ulteriori esperienze e modelli per la condivisione del dato nel settore sanitario a scriverci a [email protected] 40

Log In

Data Valley White Paper E health data sharing (draft giugno 2021)

Sign up for access to the world's latest research.

Related papers

Related papers

Related topics