Data Valley White Paper
e-Health Data Sharing
Best practices e soluzioni per la condivisione del dato,
l’anonimizzazione e la creazione di data lake con dati sanitari.
DRAFT - Versione aggiornata a giugno 2021
Data Valley Consulting -
[email protected] – www.data-valley.it
Partecipanti al tavolo di lavoro e alla redazione del White Paper
Carlo Rossi Chauvenet, Data Valley
Silvia Martinelli, Data Valley - Università degli Studi di Torino
Paola Aurucci, Università degli Studi di Torino
Alessandra Salluce, Università degli Studi di Milano
Piergiorgio Chiara, University of Luxemburg - LAST-JD-RIoE
Vanessa Cocca, CRCLEX
Giorgio Presepio, San Raffaele (DPO)
Elena Cappellaro, Astrazeneca
Federica Rizzo, EPEE / Green Innovation Network
Paolo Bartoli, Cloud-R - Soluzioni software per registri di malattie rare
Ruggero Di Maulo, Cloud-R - Soluzioni software per registri di malattie rare
Daniele Panfilo, Aindo - Tecnologia all’avanguardia per la produzione di dati sintetici
Jovan Stevovic, Chino.io - Soluzione software per la gestione del dato sanitario
2
Abstract
Il Data Valley White Paper “E-health Data Sharing” nasce dall’esigenza, condivisa dagli operatori
del settore, di ricostruire il quadro giuridico applicabile e definire best practices per la condivisione
dei dati e la creazione di data spaces in ambito sanitario.
La prima sezione è dedicata alla descrizione dell’impatto della data analysis nel settore sanitario, alle
prospettive europee per la creazione di data spaces e all’emergere dell’esigenza di individuare,
definire e consolidare modelli e best practices per l’anonimizzazione e la condivisione.
La seconda sezione, dedicata all’utilizzo dei dati sanitari per finalità di cura e di ricerca, ricostruisce
il quadro giuridico applicabile, differenziando tra dato personale, dato anonimo e dato pseudonimo
ai sensi del GDPR; analizzando le specificità relative al trattamento di dati sanitari per finalità di
cura e di ricerca, anche distinguendo tra ricerca sperimentale e ricerca osservazionale;
approfondendo le problematiche relative alla condivisione dei “dati dei gruppi”.
La terza sezione si incentra sui profili evolutivi della valorizzazione del dato sanitario tra gli attori
dell’ecosistema per la creazione di data lake nel sanitario per il miglioramento della ricerca/cura
attraverso la concentrazione dei dati.
La quarta sezione è, infine dedicata alle tecnologie per l’anonimizzazione e ai dati sintetici, alla scelta
della tecnologia e alla sua implementazione.
Abstract
The White Paper of Data Valley "E-health Data Sharing" arises from the need, shared by operators
in the sector, to reconstruct the applicable legal framework and define best practices for sharing
data and creating data spaces in the healthcare sector.
The first section describes the impact of data analysis in the healthcare sector, the European
perspectives for creating dataspaces, and the emergence of the need to identify, define and
consolidate models and best practices for anonymization and sharing.
The second section, dedicated to the use of health data for treatment and research purposes,
reconstructs the applicable legal framework, differentiating between personal data, anonymous
data, and pseudonym data according to the GDPR; analyzing the specificities relating to the
processing of health data for treatment and research purposes, also distinguishing between
experimental research and observational research; deepening the problems relating to the sharing
of "group data".
3
The third section focuses on the evolutionary profiles to enhance health data among the actors in
the ecosystem by creating data lakes in health care to improve research/care through the
concentration of data.
Finally, the fourth section describes the technologies for anonymization and synthetic data, the
choice of technology, and its implementation.
4
Indice
1.
Il Data Sharing nel sanitario e gli obiettivi del White Paper
6
1.1. Introduzione
6
1.2. Descrizione dello scenario: l’impatto della data analysis nel settore sanitario
8
1.3. Prospettive europee: la creazione di data spaces nel settore sanitario
10
1.4. Come nasce il white paper: l’esigenza di individuare, definire e consolidare modelli e best
practices per l’anonimizzazione e la condivisione del dato nel settore sanitario
11
2.
L’utilizzo dei dati sanitari per finalità di cura e di ricerca
13
2.1. Dato personale, dato anonimo e dato pseudonimo ai sensi del GDPR
13
2.2. Dati relativi alla salute: finalità di cura e finalità di ricerca
15
2.3. Ricerca sperimentale e ricerca osservazionale
18
2.4. Dati granulari, cluster e gruppi
20
3. Profili evolutivi della valorizzazione del dato sanitario tra gli attori dell’ecosistema
3.1. Accesso al dato e sicurezza nella condivisione: la prospettiva europea
24
24
3.2. Data lake nel sanitario: il miglioramento della ricerca/cura attraverso la concentrazione dei
dati
28
3.3. Strumenti Organizzativi: partnership, consorzi, contratti.
29
3.4. Dato RWE nel caso delle malattie rare: come estrarne nuovo valore
33
4. Le tecnologie per l’anonimizzazione
35
4.1. La scelta delle tecnologie per l’anonimizzazione
35
4.2. Aindo e i dati sintetici
38
4.3. La scelta del dataset: fase della scientifica primaria, fattibilità, fase della definizione per uso
secondario
38
5. Conclusioni e prospettive future
40
5
1. Il Data Sharing nel sanitario e gli obiettivi del White Paper
1.1. Introduzione
Silvia Martinelli, Carlo Rossi Chauvenet
L’utilizzo di dati e algoritmi per l’organizzazione della produzione e per la realizzazione
dell’incontro tra domanda e offerta ha determinato un cambio di paradigma che ha investito sia
le forme di produzione e di scambio, sia il prodotto stesso.
Il cambio di paradigma descritto è abilitato dalla creazione e gestione del flusso di dati. Possono
essere quelli personali inseriti dall’utilizzatore o generati nell’interazione con il prodotto, oppure
quelli raccolti da sensori e relativi all’ambiente circostante, o ancora quelli raccolti da migliaia di
altri applicativi con i quali il prodotto ed il suo utilizzatore necessariamente interagiscono.
Si moltiplicano così, in questi anni e in questo momento storico, i modelli di business basati sui
dati, tutti fondati su nuove forme di utilizzo delle informazioni in essi raccolti. Al contempo,
aumenta necessariamente l’interesse ad aver accesso a basi di dati ulteriori, per poter generare
nuove correlazioni e nuovi servizi da proporre agli utenti finali, consumer o business o anche
enti pubblici.
La condivisione del dato ed il suo riutilizzo in modo innovativo per la creazione di nuovi prodotti
e servizi smart incontrano, tuttavia, alcuni ostacoli.
In primo luogo, l’utilizzo del dato, ove personale o anche ove poi anonimizzato fino alla sua
anonimizzazione, richiede come noto e doveroso l’applicazione di tutti i principi, le cautele e le
procedure previste dal nostro ordinamento per il trattamento dei dati personali.
In secondo luogo, la condivisione del dato tra differenti entità, private o pubbliche, richiede
accordi, partnership o la costruzione di nuove strutture giuridiche per la gestione della
governance del dato e per la regolazione di tutte le potenziali problematiche che possano derivare
dalla condivisione stessa. In particolare, dovranno essere stipulati accordi con riguardo alle
possibilità e modalità di assunzione delle decisioni future, alla suddivisione dei rischi e alla
predeterminazione delle responsabilità, nonché alla tutela dell’investimento effettuato.
Precondizione della condivisione stessa è, inoltre, l’incontro che la genera, divenendo fondamentale
l’individuazione del partner che è in possesso o in grado di acquisire l’asset di dati
desiderato o, dall’altro lato, gestisce l’interfaccia o il prodotto o il sensore che dialoga con
l’utente o l’ambiente che si desidera raggiungere.
In terzo luogo, ma di nuovo precondizione fondamentale, vi è il dialogo tecnico e l’integrazione
software. Quest’ultima è, infatti, fondamentale per la comunicazione in tempo reale fra i sistemi,
6
per la data quality, nonché per raggiungere il cliente finale stesso, accedendo all’interfaccia o al
prodotto desiderati.
“Data Valley” - www.datavalley.it - è un progetto che è nato per rispondere a questa esigenza di
condivisione e integrazione, valutando attentamente anche gli elementi contrattuali e di compliance,
si è specializzata nell’analisi di queste problematiche, prima organizzando degli incontri in forma di
simposio tra le imprese del Triveneto e le Big Tech, in seguito creando un percorso di analisi
sistematica degli aspetti economici, tecnici e giuridici per la creazione di nuove partnership e
sinergie per la condivisione dei dati e l’integrazione tecnologica.
L’esperienza iniziale è proseguita online con la creazione di tavoli di lavoro a partecipazione
ristretta, focalizzati su tematiche ed esigenze specifiche e condivise ed il primo avviato ha portato
all’elaborazione del presente White Paper.
I tavoli di lavoro nascono dall’esigenza di mettere in comunicazione più soggetti appartenenti
al medesimo settore ma rappresentativi delle diverse categorie di soggetti coinvolti, per
l’individuazione dei need di condivisione, nonché degli ostacoli per poter lavorare assieme al
loro superamento.
A partire da novembre 2020, pressoché mensilmente, i membri del Gruppo di lavoro si sono riuniti
per condividere esperienze ed esigenze, individuando e sviscerando i bisogni e le problematiche
comuni. Le loro esperienze, discussioni, preoccupazioni e aspirazioni, hanno portato
all’elaborazione del White Paper.
La prima sezione del White Paper è dedicata alla descrizione dell’impatto della data analysis nel
settore sanitario, alle prospettive europee per la creazione di data spaces e all’emergere dell’esigenza
di individuare, definire e consolidare modelli e best practices per l’anonimizzazione e la
condivisione.
La seconda sezione, dedicata all’utilizzo dei dati sanitari per finalità di cura e di ricerca, ricostruisce
il quadro giuridico applicabile, differenziando tra dato personale, dato anonimo e dato pseudonimo
ai sensi del GDPR; analizzando le specificità relative al trattamento di dati sanitari per finalità di
cura e di ricerca, anche distinguendo tra ricerca sperimentale e ricerca osservazionale;
approfondendo le problematiche relative alla condivisione dei “dati dei gruppi”.
La terza sezione s’incentra sui profili evolutivi della valorizzazione del dato sanitario tra gli attori
dell’ecosistema per la creazione di data lake nel sanitario per il miglioramento della ricerca/cura
attraverso la concentrazione dei dati.
La quarta sezione è, infine dedicata alle tecnologie per l’anonimizzazione e ai dati sintetici, alla scelta
della tecnologia e alla sua implementazione.
7
1.2. Descrizione dello scenario: l’impatto della data analysis nel settore
sanitario
Paola Aurucci
Negli ultimi 25 anni l’invenzione, lo sviluppo e la diffusione delle ICT (le tecnologie
dell’informazione e della comunicazione) ha ampliato enormemente la portata della
produzione, raccolta, conservazione e condivisione di dati1. Banche dati digitali sempre più
ampie e sistemi sempre più sofisticati di analisi hanno portato all’ascesa del c.d. dato-centrismo2 che
ha enormi implicazioni per come la ricerca scientifica viene condotta, organizzata, governata e
valutata3.
Entrando nello specifico, ciò che davvero cambia rispetto al passato grazie alla proliferazione di
dispositivi atti alla registrazione digitale di dati in ambienti eterogenei, è che essa permette di avere
continuativamente un’immagine digitale in tempo reale di diversi sistemi sociali e tecnici, su scala
globale e con un’alta risoluzione dei comportamenti individuali. Questa nuova capacità di
misurazione degli esseri umani si accompagna a nuove ambizioni di comprendere tali sistemi
e controllarli. Non a caso, un’immediata conseguenza della variazione di scala della numerosità
della popolazione contattabile e misurabile nell’ambito delle scienze mediche è stata uno
straordinario sviluppo della ricerca clinica ed epidemiologica osservazionale su dati real word,
comprensiva della prevenzione primaria e secondaria e dell’assistenza in senso stretto. Tali studi
osservazionali su grandi moli di dati, grazie alla disponibilità di tecnologie computazionali
innovative, hanno permesso anche di esplorare la migliore combinazione delle variabili disponibili
in un contesto controllato per predire un determinato esito (e.g. studi che mirano all’identificazione
dei pazienti che hanno una più elevata probabilità di beneficiare di uno specifico trattamento).
La sfera biomedica, poi, è stata particolarmente toccata dalla rivoluzione digitale. Il tasso di
crescita dei dati elettronici in tale contesto è, infatti superiore alla media. Questo avviene in
virtù di quattro importanti fenomeni: (i) digitalizzazione della diagnostica per immagini; (ii)
digitalizzazione di cartelle cliniche e fascicoli sanitari (iii) esplosione dell’Internet of Things
(di seguito “IoT” e (iv) lo sviluppo di tecniche di sequenziamento di Next Generation Sequencing
(di seguito “NGS”) - anche detta anche Second Generation Sequencing o High-throughput Sequencing.
Queste ultime sono impiegate nel campo delle cosiddette scienze «omiche» e permettono con tempi
ridotti ed elevata sensibilità analitica, di acquisire un enorme quantitativo di dati relativi ai diversi
livelli gerarchici di complessità biologica (DNA, mRNA, proteine, metaboliti ecc.). Il ricorso a
tali tecniche ha permesso di fornire una visione globale dei processi cellulari e molecolari
che caratterizzano gli individui contribuendo a rivoluzionare lo studio dei sistemi complessi
Pagallo, U., Il diritto nell’età dell’informazione, G. Giappichelli Editore, 2014, p. 174.
Floridi, L., The 4th revolution: how the infosphere is reshaping human reality, Oxford, 2014, p. 96.
3 Leonelli, S., La ricerca scientifica nell’era dei Big Data, Meltemi, 2018, p. 31.
1
2
8
(biologia dei sistemi), che attraverso modalità integrative e modelli computazionali avanzati mira a
rispondere a quesiti biologici complessi come la patogenesi, la storia naturale e l’evoluzione delle
malattie.
Questo enorme quantitativo di dati, provenienti da fonti eterogenee che raccolgono e aggiornano
i dati per ragioni in gran parte diverse da quelle legate alla ricerca clinica ed epidemiologica, se non
analizzata ed integrata correttamente, rischia di trasformarsi in un handicap nel momento in cui si
desideri tradurli in nuove scoperte scientifiche. Per fortuna, la disponibilità di tali dati
rappresenta anche un’opportunità unica per addestrare algoritmi di apprendimento
automatico, fattore fondamentale nello sviluppo dell’intelligenza artificiale, da utilizzare per la
prevenzione delle malattie, la diagnostica e lo sviluppo di nuovi farmaci. Difatti, l’analisi di questo
novel data stream attraverso le tecniche di intelligenza artificiale, e in particolare il machine learning,
permette di identificare automaticamente delle correlazioni a partire dalle quali sarà possibile
esprimere delle “predizioni” con ragionamenti di tipo induttivo e formulare delle ipotesi. In
particolare, il ricorso al machine learning per l’integrazione dell’enorme quantitativo di dati prodotto
dalle tecniche di sequenziamento di seconda generazione usati nella biologia molecolare permette
di oggettivare e quantificare la natura eterogenea della maggior parte delle malattie e la variabilità
fenotipica dei singoli individui a livello di genomica, epigenomica, trascrittomica, proteomica e
metabolomica, la cosiddetta “panomica". Sarà quindi possibile procedere con una sempre più
precisa profilazione del paziente e cucire il trattamento in base profilo genetico dell’individuo.
Un’ulteriore progressione concettuale può essere individuata nella medicina di precisione, definita
dal National Institute of Health (di seguito “NIH”) «un approccio emergente di trattamento e
prevenzione delle malattie che tiene conto della variabilità individuale di geni, ambiente e
stili di vita»4, ovvero che tiene conto non esclusivamente della variabilità genetica, ma anche
dell’ambiente e della composizione del microbiota. L’affermazione di questo approccio dipenderà
dell’integrazione di enormi quantità di dati prodotti dal ricorso a metodi ad alta processività
per la caratterizzazione molecolare dei pazienti, insieme ad una altrettanto enorme quantità di dati
fisiologici, clinici e ambientali ricavati da tecnologie multicanali come gli smartphone e sensori
indossabili (oltre che dalle informazioni ottenute tramite la frequentazione compulsiva dei social
media) e dalla loro analisi tramite strumenti di apprendimento automatico.
Siamo quindi soltanto all’inizio di un processo che potrebbe tradursi in una rivoluzione
epocale della pratica clinica ed assistenza sanitaria, la quale trova nella ricerca data intensive
l’elemento cruciale che propone, solleva e crea una serie di criticità e questioni inedite. Oltre alle
problematiche di ordine epistemologico, relative ad esempio alla reale affidabilità delle evidenze
prodotte dall’analisi di dati eterogenei, e tecnico, legate allo sviluppo di sistemi in grado di
processare e analizzare un enorme mole di dati in maniera sicura, le criticità più recalcitranti
sono di ordine etico e giuridico. E ciò vale sia per le classiche ricerche osservazionali
retrospettive su dati dal mondo reale, sia per indagini nell'ambito della medicina di precisione che
4 National Institute of Health, The promise of precision medicine, reperibile sul sito internet: www.nih.gov/about-nih/what-wedo/nih-turning-discovery-into-health/promise-precision-medicine.
9
prevedono l’utilizzo sistematico - spesso da parte di diversi centri di ricerca - di dati personali di
natura sensibile e ultra-sensibile (dati genetici) per finalità ulteriori rispetto a quelle per cui furono
inizialmente raccolti (utilizzo secondario). Considerando, infatti, la proliferazione di sistemi di
registrazione digitale, dispositivi mobili, e wearable in ambiente sanitario, nonché l’insito valore di
ricerca dei dati sanitari e genetici, l’affermarsi della ricerca data-driven, implica, come
sottolineato da Mittlestadt e Floridi «l’impossibilità di prevedere al momento della raccolta
tutti i futuri usi che si faranno dei dati»5. Ciò mette in crisi il ricorso al consenso come base
giuridica per il trattamento di questi dati, visto che per essere valido deve essere informato e
specifico, ovvero riferito a uno o più fini determinati e ciò non è possibile dal momento che tali
dati probabilmente necessiteranno di essere riutilizzati, condivisi e aggregati ad altri per fini di
ricerca. In questi casi ricontattare ogni singolo paziente per informarlo sul nuovo scopo di ricerca
risulta eccessivamente costoso, organizzativamente impossibile, o potrebbe mettere a repentaglio
il conseguimento delle finalità della ricerca. Tali finalità sono addirittura ignote al momento del
trattamento nelle ricerche osservazionali basate sull’utilizzo di apprendimento automatico, capaci
di fare un uso trasformativo delle informazioni, ovvero di identificare correlazioni invisibili ad
occhio nudo al ricercatore, neanche astrattamente prevedibili prima dell’analisi dei dati. Tali
ricerche sono, infatti, finalizzate a identificare l’ipotesi di studio - non testarla - e mettono
duramente alla prova l’approccio basato sul ri-consenso. Alternativa a quest’ultimo è
l’anonimizzazione, che tuttavia è difficile da raggiungere in un contesto di big data.
1.3. Prospettive europee: la creazione di data spaces nel settore
sanitario
Vanessa Cocca
Il Regolamento generale sulla protezione dei dati (GDPR) ha creato condizioni di parità per l'uso
dei dati personali, compresi i dati sanitari. Tuttavia, il panorama dei servizi sanitari digitali,
all'interno e tra gli Stati membri europei, rimane frammentato a causa delle diverse trasposizioni
normative nazionali.
La frammentazione normativa in Europa in materia di trattamento del dato sanitario rappresenta
un ostacolo importante per i player del settore sanitario. Di conseguenza, la Commissione Europea
ritiene fondamentale rafforzare ed estendere la condivisione, l'uso e il riutilizzo dei dati sanitari per
incentivare l'innovazione nel settore biomedico.
5 Mittelsadt, B.D. e Floridi, L., The ethics of big data: Current and foreseeable issues in biomedical context, in Science and
Engineering Ethics, vol. XXII, n. 2 (2016), p. 303-341.
10
La stessa Commissione promuoverà, come discusso dagli Stati Membri in occasione della
"Recovery and Resilience Facility"6, la realizzazione di spazi comuni europei di dati (data space7) in
settori economici strategici e ambiti di interesse pubblico, al fine di rendere disponibili grandi
quantitativi di dati agli operatori di un settore.
In particolare, ogni spazio comune di dati sarà caratterizzato da una legislazione e un modello di
governance peculiare in base al settore di riferimento per garantire il pieno utilizzo e
l'interoperabilità dei dati8. Il data space vuole quindi essere uno strumento regolamentato a livello
europeo e sviluppato nel pieno rispetto della normativa comunitaria in materia di protezione dei
dati e conforme ai più alti standard disponibili in materia di cybersicurezza.
La sfera biomedica-sanitaria, in virtù della peculiarità e delle implicazioni del dato oggetto di
trattamento, rappresenta un settore in cui l'utilizzo dei dati può avere un impatto sistemico
sull'intero ecosistema. Di conseguenza, la Commissione propone l'istituzione di un data space
europeo di dati sanitari, volto a: aiutare le autorità sanitarie a prendere decisioni data-driven per
migliorare l'accessibilità, l'efficacia e la sostenibilità dei sistemi sanitari, contribuire alla competitività
dell'industria sanitaria dell'Unione europea, supportare il lavoro degli organismi di
regolamentazione del sistema sanitario nella valutazione dei farmaci o prodotti biomedici e la
dimostrazione della loro sicurezza ed efficacia, e infine, garantire ai cittadini l'accesso, il controllo
e la portabilità dei dati sanitari personali implementando un libretto sanitario elettronico (EHR)
salvaguardando la privacy.
1.4. Come nasce il white paper: l’esigenza di individuare, definire e
consolidare modelli e best practices per l’anonimizzazione e la
condivisione del dato nel settore sanitario
Carlo Rossi Chauvenet
L’obiettivo del white paper è quello di definire il quadro normativo e tecnico che rappresenta
il nuovo level playing field nel quale gli attori del settore sanitario sono sempre più chiamati
ad operare.
Nel tradizionale rapporto tra il paziente ed il medico si sono aperti importanti spazi di interazione,
governati dalla tecnologia, che richiedono ingenti investimenti ed una visione di natura sistemica.
p. 17, Communication from the Commission to the European Parliament, the Council, the European Economic and Social
Committee and the Committee of the Regions - 2030 Digital Compass: the European way for the Digital Decade, Bruxelles, 9
marzo 2021.
7 Un data space è un infrastruttura che collega diversi storage virtuali contenenti esclusivamente dati (non, ad esempio, aree comuni,
dati di sistema o programmi) e con cui si interagisce attraverso un API o un software.
8 p. 29 , Comunicazione Della Commissione Al Parlamento Europeo, Al Consiglio, Al Comitato Economico E Sociale Europeo
E Al Comitato Delle Regioni - Una strategia europea per i dati, Bruxelles, 19 febbraio 2020.
6
11
Il riferimento è ovviamente relativo alle aziende di ingegneria biomedicale, ai dispositivi medici e a
tutti i dispositivi che misurano gli stili di vita delle persona, ai servizi di telemedicina fino alle
piattaforme di ricerca in ambito biomedico.
Questo ambito è in grande espansione, ma è molto fragile perché rimesso alle scelte regolatorie
dei singoli Stati nazionali che in questo ambito sono sempre particolarmente stringenti. A loro
volta queste scelte dipendono dalla valutazione delle tecnologie a disposizione che viene fatta dai
singoli organismi normativi i quali sono spesso influenzati dai fatti di cronaca di incidenti connessi
con l’utilizzo di certe tecnologie nelle loro fasi iniziali e dalle conseguenti preoccupazioni
dell’opinione pubblica.
Per questa ragione è sempre più opportuno che gli operatori dell’intero comparto salute
definiscono in documenti unitari il quadro delle esigenze e delle soluzioni prospettate
nell’interesse del paziente, autodefinendo un consensus sugli elementi regolatori e tecnologici al
fine di favorire gli investimenti e metterli al riparo da comportamenti ondivaghi sul piano
regolatorio nelle prime fasi di sviluppo di un settore ad alta innovazione. E’ il primo passo per la
creazione di uno spazio laboratoriale di condivisione delle soluzioni e di integrazione di
servizi secondo il modello “sandbox” utilizzato nel Regno Unito per quanto riguarda la regolazione
finanziaria.
Sul fronte della Data Protection in ambito sanitario il tema è sempre più attuale data l’esigenza
di condividere ed integrare grandi moli di dati personali e non personali resa possibile
dall’utilizzo di innovative tecniche di anonimizzazione del dato quale quella dell’utilizzo di dati
sintetici.
Nel prosieguo del documento verranno analizzati i bisogni della industry, l’attuale quadro
regolatorio e le soluzioni tecnologiche disponibili formulando proposte di avanzamento del quadro
regolatorio a tutela degli investimenti nel settore.
12
2. L’utilizzo dei dati sanitari per finalità di cura e di ricerca
2.1. Dato personale, dato anonimo e dato pseudonimo ai sensi del
GDPR
Piergiorgio Chiara
This project has received funding from the European Union’s Horizon 2020 research and innovation programme
under the Marie Skłodowska-Curie ITN EJD grant agreement No 814177
Il GDPR si applica solo ai dati personali. I dati non personali pertanto non rientrano nel suo campo
di applicazione. La classificazione giuridica del dato è quindi un tema di centrale importanza in
quanto determina se l'entità che tratta i dati è soggetta ai vari obblighi che il regolamento impone
ai responsabili del trattamento. Eppure, la costruzione binaria del regime europeo della protezione
dei dati, a 5 anni dall’entrata in vigore del Regolamento, ancora non assicura quella certezza del
diritto desiderata dagli attori del mercato.
Il Regolamento definisce il dato personale all’articolo 4(1) come qualsiasi informazione
riguardante una persona fisica identificata o identificabile. Inoltre, si considera identificabile la
persona fisica che può essere identificata, direttamente o indirettamente, con particolare
riferimento a un identificativo come il nome, un numero di identificazione, dati relativi
all'ubicazione, un identificativo online o a uno o più elementi caratteristici della sua identità fisica,
fisiologica, genetica, psichica, economica, culturale o sociale.
Prima di esaminare più nel dettaglio il test adottato dal Regolamento per determinare la personalità
del dato, occorre evidenziare, nel contesto del dato non personale, una seconda rilevante dicotomia.
Alcuni dati infatti sono sempre non personali perché non hanno mai riguardato una persona fisica
identificata o identificabile. Altri, invece, sono originariamente dati personali ai sensi dell’articolo
4(1) ma, a seguito di un’operazione mirate ad eliminare il collegamento con la persona fisica,
diventano non personali in quanto la persona fisica non è più identificata o identificabile. È
soprattutto quest’ultima categoria di dati che dà origine alle già menzionate problematiche tecnicogiuridiche che interessano da vicino la ricerca, soprattutto in campo biomedico.
In questo contesto, il Considerando 26 del Regolamento stabilisce il test da eseguire per far luce
sulle diverse tecniche di trattamento che investono la distinzione binaria tra dato personale e non
personale. In particolare, è opportuno analizzare più nel dettaglio il caso della
pseudonimizzazione e dell’anonimizzazione.
La pseudonimizzazione è concepita dal GDPR come un mezzo per ridurre i rischi per gli interessati
“nascondendo” l'identità degli individui in un dataset, ad esempio, sostituendo uno o più
identificatori personali con i cd. pseudonimi. Ovviamente, il collegamento tecnico-logico tra gli
13
pseudonimi e gli identificatori iniziali va opportunamente protetto dal titolare del trattamento. Il
rischio di re-identificazione è ridotto, ed è certamente vero che tale trattamento impedisce
l'identificazione diretta dell’interessato. Eppure, ai sensi del Considerando 26, i dati personali
sottoposti a tecniche di pseudonimizzazione dovrebbero essere considerati informazioni su una
persona fisica identificabile e pertanto ricadere sotto l’ambito di applicazione del Regolamento, in
quanto potrebbero ancora essere attribuiti a una persona fisica mediante l'utilizzo di
ulteriori informazioni.
Di converso, lo stesso Considerando stabilisce che il Regolamento non dovrebbe applicarsi a
informazioni anonime, vale a dire informazioni che non si riferiscono a una persona fisica
identificata o identificabile o a dati personali resi sufficientemente anonimi da impedire o da
non consentire più l'identificazione dell'interessato.
Una lettura più approfondita del testo rivela il cuore del test del Considerando 26. Infatti, per
stabilire l'identificabilità di una persona è opportuno considerare tutti i mezzi, come
l'individuazione, di cui il titolare del trattamento o un terzo può ragionevolmente avvalersi per
identificare detta persona fisica direttamente o indirettamente. Per accertare la ragionevole
probabilità di utilizzo dei mezzi per identificare la persona fisica, si dovrebbe prendere in
considerazione l'insieme dei fattori obiettivi, tra cui i costi e il tempo necessario per
l'identificazione, tenendo conto sia delle tecnologie disponibili al momento del
trattamento, sia degli sviluppi tecnologici.
Il test elaborato dal considerando 26 del GDPR abbraccia essenzialmente un approccio basato
sul rischio per determinare la personalità o meno del dato. Quando c'è un ragionevole rischio
di identificazione, i dati dovrebbero essere trattati come dati personali. Dove, invece, tale
rischio è trascurabile, i dati possono essere trattati come dati non personali, e questo anche
se l'identificazione non può essere esclusa con assoluta certezza9.
Questa lettura improntata sull’approccio al rischio del Regolamento ha trovato delle resistenze
soprattutto nella cd. lettura “assolutista” del Gruppo di Lavoro 29, seguito da alcune autorità di
controllo, come il Garante francese10 e quello irlandese11. Questa interpretazione prende in
considerazione tutte le possibilità e le occasioni in cui chiunque sarebbe in grado di identificare la
persona interessata: mentre il GDPR si riferisce esplicitamente alla sola possibilità di individuare
la persona fisica, il Gruppo di Lavoro va oltre, aggiungendo al test di de-identificazione i criteri di
i) collegabilità (linkability) di informazioni relative all’individuo in diversi datasets; e, ii) inferenza, ossia
la possibilità di dedurre, con una significative probabilità, il valore di un attributo dai valori di un
insieme di altri attributi12.
9 Finck, M. e Pallas, F., “They who must not be identified—distinguishing personal from non-personal data under the GDPR”
(2020) International Data Privacy Law, 10(1), 11-36.
10 Commission Nationale de l'Informatique et des Libertés, “Comment prévenir les risques et organiser la sécurité de vos données ?”
(2019).
11 Data Protection Commission, “Guidance on Anonymisation and Pseudonymisation” (2019).
12 Article 29 Working Party, Opinion 05/2014 on Anonymisation Techniques (WP 216) 0829/14/EN, 3.
14
Così, il Gruppo di Lavoro 29 fissa una soglia elevata da soddisfare, stabilendo il proprio “test del
rischio zero” secondo il quale nessun rischio di re-identificazione può essere tollerato.
Questo implicherebbe un’equazione perfetta tra anonimizzazione e cancellazione: il risultato
di tale tecnica dovrebbe essere permanente, rendendo impossibile qualsiasi operazione tecnica che
possa re-identificare il soggetto cui i dati personali originariamente si riferivano. L'approccio
assoluto, tuttavia, difficilmente può essere sostenuto: esiste fiorente letteratura sulla natura non
assoluta dell'anonimizzazione13. Pertanto, se non potessimo mai fare affidamento sulla nonpersonalità del dato, allora ogni informazione rimarrebbe sempre nell'ambito di applicazione del
GDPR.
Un’altra lettura del Considerando 26, cd. relativista, considera solo gli sforzi richiesti per
identificare un individuo, senza addentrarsi nel campo oscuro delle mere possibilità
teoriche. Diversi autori e, per certi versi il Garante britannico14, hanno sostenuto che i dati
risultanti da operazioni di anonimizzazione per via di tecniche crittografiche non dovrebbero essere
considerati dati personali se sono soddisfatti due requisiti: il metodo crittografico deve essere
efficace, solido e aggiornato e il titolare del trattamento (o qualsiasi terzo) non è in possesso della
chiave di decrittazione e nemmeno vi sono ragionevoli possibilità di che questi ottenga la chiave.
Questo ragionamento ha avuto particolare successo nel campo del cloud computing15.
Tuttavia, la posizione più convincente è quella basata sull’approccio al rischio, ispirante il
Regolamento e confermata dalla Corte di Giustizia16. Se vi è una ragionevole probabilità che
determinati dati, ancorché sottoposti ad operazioni di crittografia irreversibile (es., salted/peppered
hash function) per l’ottenimento dell’anonimizzazione, possano essere (ri)collegati alla persona fisica
cui originariamente si rifacevano, essi devono essere qualificati come dati personali. Invece, qualora
la de-identificazione sia stata sufficientemente robusta, affinché l'identificazione non sia più
ragionevolmente probabile, quei dati dovranno essere considerati come non personali17.
2.2. Dati relativi alla salute: finalità di cura e finalità di ricerca
Paola Aurucci, Giorgio Presepio
I «dati relativi alla salute», insieme ai dati biometrici e genetici, vengono inseriti dal GDPR nell’alveo
«Categorie particolari di dati personali» (quella che nel gergo comune vengono indicati come “dati
sensibili” o “super sensibili”). L’individuazione di tali Categorie particolari di dati, operata nello
13 Ohm,
P., “Broken Promises of Privacy: Responding to the Surprising Failure of Anonymization” (2010) UCLA Law Review,
57(2); Sweeney, L., “Simple Demographics Often Identify People Uniquely”(2000) Health, 671; Narayanan, A., e Shmatikov,
V., “Robust De-anonymization of Large Sparse Dataset”(2008) IEEE Symposium on Security and Privacy.
14 Information Commissioner’s Office, “Anonymisation: Managing Data Protection Risk Code of Practice” (2012)
15 Hon, K.W., Millard, C. e Walden, I., “The problem of ‘personal data’ in cloud computing: what information is regulated? -the
cloud of unknowing” (2011) International Data Privacy Law, 1(4).
16 Case C-582/14 Patrick Breyer [2016] EU:C:2016:779.
17 Cfr. con AEPD ed EDPS, “Introduction to the Hash Function as a Personal Data Pseudonymisation Technique” (2019)
15
specifico dall’art. 9 del GDPR, è funzionale alla previsione di una disciplina più restrittiva del loro
trattamento. Una protezione più elevata per questa tipologia di dati viene garantita in virtù della
loro insita pericolosità, dato che non solo identificano l’individuo (come è per i dati comuni) ma
essi concorrono indefettibilmente alla costruzione della sua identità, e per questo motivo sono
suscettibili ad essere fonte di abusi e discriminazioni se trattati in modo improprio. A conferma di
una ancora maggiore pericolosità del trattamento dei dati relativi alla salute (e di dati biometrici e
genetici) rispetto a quello delle altre categorie particolari di dati, il paragrafo 4 dell’art. 9 autorizza
gli Stati Membri a mantenere o introdurre ulteriori condizioni ed eventualmente limitazioni alla
disciplina prevista dall’art. 9 summenzionato, la quale si rivela soltanto una disciplina minima
rispetto a questo tipo di dati. L’art. 4 del GDPR definisce i dati relativi alla salute come quello
«attinenti alla salute fisica o mentale di una persona fisica, compresa la prestazione di servizi di assistenza sanitaria,
che rivelano informazioni relative al suo stato di salute». Il considerando 35 specifica un aspetto importante
ulteriore, ovvero quello temporale, specificando che i dati relativi allo stato di salute riguardano la
condizione fisica o mentale dell’individuo sia passata, sia presente, sia futura. Il considerando
prosegue specificando che si tratta di dati raccolti tipicamente (anche se non viene indicata come
situazione esclusiva) nel corso della registrazione per l’accesso ad una prestazione e prosegue con
un elenco (non esaustivo) di esempi di tali dati: un simbolo o un elemento specifico attribuito a
una persona fisica per identificarla in modo univoco a fini sanitari; le informazioni risultanti da
esami e controlli effettuati su una parte del corpo o una sostanza organica, compresi i dati genetici
e i campioni biologici; e qualsiasi informazione riguardante, ad esempio, una malattia, una disabilità,
il rischio di malattie, l'anamnesi medica, i trattamenti clinici o lo stato fisiologico o biomedico
dell'interessato, indipendentemente dalla fonte, quale, ad esempio, un medico o altro operatore
sanitario, un ospedale, un dispositivo medico o un test diagnostico in vitro. L’European Data
Protection Board ha poi aggiunto che sono da considerare fonti di dati relativi alla salute – oltre alle
informazioni raccolte da un fornitore di assistenza sanitaria in una cartella clinica - anche
informazioni che se incrociate altri dati siano tali da rivelare lo stato di salute o i rischi per la salute
(ad esempio, la presunzione che una determinata persona sia esposta a un rischio più elevato di
attacchi cardiaci basata su misurazioni ripetute della pressione arteriosa lungo un certo arco di
tempo), i test di autovalutazione, in cui gli interessati rispondono a domande relative alla loro salute
(ad esempio, descrivendo sintomatologia) e informazioni che a seguito del loro utilizzo in un
contesto specifico rivelino lo stato di salute del soggetto (ad esempio, informazioni relative a un
viaggio recente o alla permanenza in una regione interessata dal COVID-19 elaborate da un
professionista sanitario per effettuare una diagnosi). In base a tali valutazioni, non dovrebbe invece
considerarsi dato relativo alla salute una mera rappresentazione della realtà fisica del soggetto (e.g.
la sua immagine, l’audio della sua voce o del battito cardiaco) se tale dato non venga poi elaborato
in modo da rivelare elementi relativi allo stato di salute dell’interessato. Nella definizione di stato
di salute dovrebbe poi rientrare – oltre ad una condizione patologica - sia la condizione di buona
salute sia fisica che psichica18 - che quella di guarigione da una patologia. Alla luce di tali assunti e
18
Si veda sentenza del 6 novembre 2003 in causa C-101/01, Lindqvist, punto 50.
16
della pertinente giurisprudenza della Corte di giustizia dell'Unione europea ("CGUE")19, si può
desumere che l’espressione «dati relativi alla salute» debba essere interpretata in modo estensivo.
La disciplina prevista dal GDPR cerca di conciliare la tutela della persona fisica, riguardo alle
informazioni sensibili che la riguardano, con l’esigenza che siano poste in essere attività rilevanti a
livello economico e sociale, come la ricerca scientifica. Quest’ultima, in particolare, gode di un
particolare favor all’interno del Regolamento che sebbene non preveda una definizione esplicita di
«trattamento di dati effettuato per finalità di ricerca scientifica» al Considerando 159 stabilisce che
tale assunto «dovrebbe essere interpretato in senso lato» e «tenendo conto dell’obiettivo comunitario di creare uno
spazio europeo della ricerca – come previsto dall’art 179 del TFUE – per cui «i ricercatori, le conoscenze scientifiche
e le tecnologie circolino liberamente». Lo stesso considerando fornisce poi una vasta gamma di esempi di
cosa debba intendersi per attività scientifiche in cui vi rientrano la «ricerca finanziata dai privati»
nonché gli «studi svolti nell’interesse pubblico nel settore della sanità pubblica». È indubbio che questa
definizione ampia sia volta ad assicurare che vi rientrino sia le sperimentazioni cliniche, finanziate
nella maggior parte dei casi da aziende farmaceutiche, che gli studi clinici osservazionali. Il Gruppo
di lavoro « Articolo 29 » ha poi puntualizzato che l’interpretazione del termine «ricerca scientifica»
non deve andare a travalicare il significato che gli viene comunemente attribuito ovvero «un progetto
di ricerca istituito conformemente alle pertinenti norme etiche e metodologiche settoriali, in conformità delle buone
prassi».
Inoltre, come si vedrà in seguito, per la prima volta il GDPR prevede una deroga specifica al divieto
di trattamento dei dati relativi alla salute, qualora ciò sia necessario per tali finalità di ricerca
scientifica.
Rispetto al «trattamento di dati relativi alla salute a fini di ricerca scientifica» occorre distinguere fra
due diversi utilizzi che possono venire fatti di questi dati. Si parla di «uso primario» quando tali dati
vengono raccolti direttamente per scopi di studio scientifico. Esempi di studi in campo biomedico
che presuppongono l’utilizzo primario di dati relativi alla salute sono le sperimentazioni cliniche e
gli studi osservazionali prospettici. In tali studi i dati relativi alla salute del paziente vengono infatti
raccolti ab origine per le specifiche finalità per cui viene condotto lo studio stesso e devono essere
esaustivamente descritte al soggetto prima di partecipare alla ricerca. Si parla invece di «uso
secondario» quando i dati relativi alla salute che vengono utilizzati finalità di ricerca sono stati
raccolti inizialmente per altre finalità (ad esempio per finalità di cura nell’ambito della normale
pratica clinica, precedenti sperimentazioni cliniche o precedenti e diversi studi osservazionali). Si
parla anche di trattamento «ulteriore per fini di ricerca». Un tipico esempio di uso secondario di
dati relativi alla salute per finalità di ricerca lo si riscontra negli studi osservazionali retrospettivi in
cui i dati personali sono stati raccolti in precedenza a fini di cura della salute o per l’esecuzione di
precedenti progetti di ricerca ovvero sono stati ricavati da campioni biologici prelevati in
precedenza per finalità di tutela della salute o per l’esecuzione di precedenti progetti di ricerca.
19
Ibidem
17
La distinzione tra ricerca scientifica basata sull'utilizzo primario o secondario dei dati relativi alla
salute assume particolare importanza al fine di determinare la base giuridica del trattamento, gli
obblighi di informazione e l’applicazione del principio della limitazione delle finalità.
La proliferazione di sistemi di registrazione digitale, di dispositivi mobili, e wearable in ambiente
sanitario, considerando l’insito valore di ricerca dei dati relativi alla salute biometrici e genetici, ha
innescato una proliferazione senza precedenti di studi osservazionali data intensive basati sull’utilizzo
secondario di dati relativi alla salute. Dati sanitari routinariamente raccolti nella normale pratica
clinica vengono quindi continuamente riutilizzati, condivisi e aggregati ad altri per fini diversi
diversi da quelli per cui sono stati raccolti. Tali ulteriori finalità di ricerca sono addirittura ignote al
momento dell’accesso ai dati da parte del ricercatore negli studi che prevedono l’analisi degli stessi
attraverso sistemi di intelligenza artificiale in grado di identificare correlazioni e collegamenti
invisibili ad occhio nudo al ricercatore, neanche astrattamente prevedibili prima dell’analisi dei dati,
su cui basare poi modelli predittivi che consentono di capire che determinate combinazioni di valori
di alcuni parametri sono spesso associate a specifiche condizioni cliniche.
2.3. Ricerca sperimentale e ricerca osservazionale
Paola Aurucci
La ricerca biomedica in termini molto generali, può essere definita come una ricerca di carattere
multidisciplinare che ricorre sempre di più ad approcci integrati che si servono di nozioni e apporti
metodologici complementari e tipici di diverse discipline scientifiche per comprendere meccanismi
fisiologici, patologici e farmacologici. Essa si suddivide in via preliminare fra ricerca preclinica
(ricerca che non si conduce sugli esseri umani) e ricerca clinica (che si conduce sugli esseri umani).
Quest’ultima è condotta direttamente sull’uomo (sia sano che malato) ed è finalizza allo studio
diretto della malattia per lo sviluppo di nuovi trattamenti efficaci di prevenzione, diagnosi,
riabilitazione/assistenza e cura. La ricerca clinica si basa su vari tipi di studi che si avvalgono sia
della metodologia sperimentale che di quella osservazionale. Per questo motivo, a livello normativo
il Regolamento (UE) N. 536/2014 per definire la sperimentazione clinica stabilisce prima cosa
debba intendersi per studio clinico, ovvero « qualsiasi indagine effettuata in relazione a soggetti
umani volta a: a) scoprire o verificare gli effetti clinici, farmacologici o altri effetti farmacodinamici
di uno o più medicinali; b) identificare eventuali reazioni avverse di uno o più medicinali; oppure
c) studiare l'assorbimento, la distribuzione, il metabolismo e l'eliminazione di uno o più medicinali,
al fine di accertare la sicurezza e/o l'efficacia di tali medicinali. Solo nel successivo art. 2, par. 2
specifica che una sperimentazione clinica rappresenta una sottocategoria «che soddisfa una delle
seguenti condizioni: (i) l’assegnazione del soggetto a una determinata strategia terapeutica è decisa
anticipatamente e non rientra nella normale pratica clinica dello Stato membro interessato; (ii) la
decisione di prescrivere i medicinali sperimentali e la decisione di includere il soggetto nello studio
18
clinico sono prese nello stesso momento; (iii) sono applicate ai soggetti procedure diagnostiche o
di monitoraggio aggiuntive rispetto alla normale pratica clinica.
Il Regolamento poi, seguendo un approccio che tiene debitamente conto degli orientamenti
internazionali, in particolare quello degli Stati Uniti la cui normativa sugli studi sperimentali
prevede, da parecchi anni, una classificazione di questi in base al livello di rischio - introduce il
concetto di sperimentazioni a basso livello di intervento, in cui i medicinali oggetto di
sperimentazione hanno già ricevuto l’autorizzazione per l’immissione in commercio, e vengono
usati secondo i termini dell’autorizzazione dell’immissione in commercio (studi comparativi di
farmaci autorizzati) o sulla base di evidenze scientifiche pubblicate/documentate (e.g.
sperimentazioni off-lable). Le sperimentazioni a basso livello di intervento si distinguono dalle
sperimentazioni cliniche “standard” in quanto prevedono un rischio aggiuntivo minimo per la
sicurezza dei soggetti rispetto alla normale pratica clinica. Per valutare il rischio esistente per il
soggetto in studio il Considerando 11 ricorda che questo origina da due ambiti il medicinale in
sperimentazione e l’intevento, ovvero le procedure della sperimentazione clinica. Nel qualificare
quali tipologie di sperimentazioni cliniche possono essere qualificate “a basso livello di intervento”
i comitati dovranno perciò focalizzarsi sulla reale esistenza di elementi di evidenza scientifica a
supporto dell’uso del farmaco nello studio secondo un’indicazione diversa da quella stabilita
dall'AIC e sui possibili rischi “aggiuntivi rispetto alla normale pratica clinica” posti da
dalle procedure previste dalla sperimentazione (e.g. diagnostiche e di monitoraggio). Tale
tipologia di sperimentazioni cliniche dovrebbe essere soggetta a norme meno severe per quanto
riguarda il monitoraggio, i requisiti applicabili al contenuto del fascicolo permanente e la
tracciabilità dei medicinali sperimentali. Gli studi classificati come osservazionali prevedono –
come quelli sperimentali - di stabilire un confronto tra gruppi, solo che il fenomeno in studio non
è l’effetto di un intervento sperimentale, ma di una esposizione a un fattore di rischio o protettivo.
Quest’ultima è di natura spontanea non è, quindi, condizionata dal ricercatore che si limita ad
osservare ciò che si verifica in natura (nella pratica clinica), non agendo sulla condizione studiata,
né assegnandola in modo casuale, né modificandola. I soggetti di ricerca sono inseriti nei gruppi a
confronto sulla base delle caratteristiche personali o di loro esperienze non condizionate dallo
studio.
Il metodo osservazionale si è sviluppato prevalentemente nella ricerca epidemiologica che è stata
definita «lo studio della distribuzione e dei determinanti delle situazioni o degli eventi collegati alla
salute in una specifica popolazione, e l’applicazione di questo studio al controllo dei problemi di
salute». Gli studi osservazionali possono essere prospettici e retrospettivi. Nei primi al momento
in cui viene pianificato lo studio sia l’esposizione che gli esiti di interesse non si sono ancora
verificati, di conseguenza i dati vengono raccolti prospetticamente e direttamente per gli scopi
specifici dello studio. Nei secondi sono già avvenuti e i relativi dati vengono raccolti
retrospettivamente – in quanto registrati in diversi dataset – e prevedono quindi un trattamento
ulteriore di dati inizialmente raccolti per altre finalità ("utilizzo secondario"). La definizione
normativa di studio osservazionale la rinveniamo alla lett. p) dell’art. 1 del d.lgs. n. 200/2007
19
secondo cui in tali ricerche «medicinali sono prescritti secondo le indicazioni dell'autorizzazione
all'immissione in commercio ove l'assegnazione del paziente ad una determinata strategia
terapeutica non e' decisa in anticipo da un protocollo di sperimentazione, rientra nella normale
pratica clinica e la decisione di prescrivere il medicinale è del tutto indipendente da quella di
includere il paziente nello studio, e nella quale ai pazienti non si applica nessuna procedura
supplementare di diagnosi o monitoraggio». Tale definizione rivela molteplici criticità. In primo
luogo ricomprende solo gli studi osservazionali sui farmaci e non riguarda agli studi osservazionali
in generale. Vi sono, infatti, numerosi tipi di studi che sotto il profilo metodologico possono essere
classificati come osservazionali ma che non rientrano nella definizione fornita dalla normativa in
quanto non prevedono la prescrizione di medicinali (e.g. studi epidemiologici, studi osservazionali
su dispositivi medici, studi sui campioni biologici e dati genetici; studi sul comportamento o sulla
qualità della vita) contribuendo a creare una regolamentazione degli studi osservazionali lacunosa.
Inoltre, in base alla teoria epidemiologica, lo studio osservazionale può prevedere procedure
diagnostiche e valutative che non sono di routine nella pratica clinica del soggetto partecipante, e
pertanto non qualificabili come meramente “aggiuntive” rispetto ad esse.
Un parziale rimedio è stato le Linee guida per la classificazione e conduzione degli studi
osservazionali sui farmaci. dell’AIFA. In tale documento rientrano nella definizione di “pratica
clinica corrente”: «questionari, interviste, diari, indagini di economia sanitaria e di farmaco
economia, valutazioni soggettive da parte del soggetto sul proprio stato di salute, scale di
valutazione ed esami ematochimici, il cui uso sia giustificato dal protocollo dello studio». In
definitiva, la disciplina nazionale si rivela del tutto lacunosa nel disciplinare e classificare le varie
tipologie di studi osservazionali conducibili in ambito sanitario ed epidemiologico. Nella Legge n.
3/2018, “Delega al Governo in materia di sperimentazione clinica di medicinali nonché
disposizioni per il riordino delle professioni sanitarie e per la dirigenza sanitaria del Ministero della
salute” viene evidenziata la necessità di un nuovo strumento normativo – di tipo cogente – relativo
agli studi osservazionali in ambito biomedico e sanitario.
2.4. Dati granulari, cluster e gruppi
Alessandra Salluce
L’utilizzo, sempre più pervasivo, di strumenti e risorse informatiche ha condotto, come si
accennava anche nei Paragrafi precedenti, alla produzione e alla circolazione di una quantità di dati
davvero imponente. Non bisogna tuttavia stupirsene: l’epoca post-moderna, caratterizzata da
modelli di business c.d. “data-driven”, non rappresenta che la naturale evoluzione dei paradigmi
operativi adottati in tutti i settori produttivi, ed è senza dubbio destinata, nel prossimo futuro, ad
espandersi ulteriormente.
20
Anche il settore sanitario e della ricerca ne sono coinvolti: a titolo di esempio, basti pensare al
sempre crescente numero di app in commercio in grado di raccogliere in tempo reale numerose
informazioni personali di natura particolare, così come l’utilizzo – sempre più frequente – di
strumenti tecnologici nello svolgimento delle più tradizionali attività mediche o, ancora, al ruolo
della ricerca che, sin dagli albori, si nutre di dataset, ma ora ha a propria disposizione strumenti
sempre più all’avanguardia, che consentono di elaborare moli di dati un tempo inimmaginabili.
Ciò premesso, da un lato, non si nega l’assoluta utilità di un tale sviluppo sul fronte tecnologico –
che, in campo sanitario, ha permesso il raggiungimento di traguardi un tempo impensabili –
dall’altro, è importante riconoscere l’esistenza e la rilevanza del diritto alla riservatezza, che compete
a ciascun individuo, soprattutto in relazione a certi tipi di informazione.
È necessario, dunque, trovare un “punto di equilibrio”, che consenta di soddisfare la necessità di
conoscenza richiesta per determinate finalità, soprattutto laddove collegate a interessi collettivi
meritevoli di soddisfacimento, come la salute e il progresso in campo medico, ma, al tempo stesso,
proteggere la riservatezza degli individui coinvolti, tenendo conto anche delle criticità derivanti
dall’utilizzo di algoritmi e dalla possibilità di inferire informazioni personali tramite la correlazione
di dati. Tale nodo cruciale, peraltro, è collegato a diversi aspetti, anche di natura etica, che
concernono in primo luogo l’eventualità di dare luogo a discriminazioni. Inoltre, insieme agli aspetti
più strettamente giuridici, è necessario includere nell’analisi anche gli aspetti più tecnici, legati in
particolar modo alla sicurezza delle informazioni e alle modalità prescelte per la conservazione,
l’accesso e la trasmissione. Nell’ambito della ricerca in ambito sanitario, peraltro, l’accesso ai dati
non riguarda tanto un problema dal punto di vista autorizzativo, in quanto la trasmissione degli
stessi è certamente autorizzata e necessaria, quanto piuttosto dal punto di vista tecnicoorganizzativo, poiché l’aspetto più critico è legato alla scelta delle modalità di rilascio delle
informazioni: da questa scelta, infatti, potrebbero derivare violazioni alla sfera più riservata degli
individui appartenenti al campione da analizzare, laddove dal dato rilasciato, sia esso in forma
granulare o in forma aggregata, potrebbero dedursi aspetti più intimi o, nei casi più gravi, ricostruire
completamente l’identità del soggetto.
In tale complesso quadro generale, l’applicazione di tecniche di rilascio del dato, unito ad altre, di
natura più strettamente informatica, volte a preservare la sicurezza delle informazioni, possono
offrire un notevole contributo20.
Sul punto, in via preliminare, è necessario chiarire le differenze – che poco sopra si accennavano –
con riguardo alla tipologia di dato rilasciato per fini di ricerca: a tal riguardo, si parla di “microdati”
quando le informazioni contenute nel database statistico sono “pure”, singole; si parla invece di
“microdati” quando le informazioni sono rilasciate in forma aggregata, statistica. A loro volta, i
dati, siano essi rilasciati in forma di micro o di macrodati, possono essere aggregati, andando a
comporre dei gruppi, o cluster, sulla base di determinati parametri che li accomunano, a seconda
della finalità dell’analisi da condurre. In questo caso, tuttavia, la scelta del criterio di
20 Sul punto, è doveroso specificare che mentre la cybersecurity si occupa della sicurezza dei sistemi informatici e dei flussi informativi
tramite di essi scambiati, fornendo strumenti tesi a contrastare possibili infiltrazioni o, più in generale, danni a software, hardware o
compromissioni della sicurezza dei dati, le tecniche di data protection sono tese ad evitare la correlazione e l’inferenza di informazioni
e l’identificazione degli individui.
21
raggruppamento deve essere ben ponderata, dal momento che una scelta non ottimale potrà
rendere più difficoltoso il percorso verso il raggiungimento del proprio scopo di ricerca, nonché,
in alcuni casi, condurre a risultati non veritieri.
Scegliere la tipologia di dato più adatta al nostro scopo, in ogni caso, presenta diverse criticità dal
punto di vista della privacy e della tutela del dato personale, in quanto non solo da tale scelta deriva
l’applicazione stessa del GDPR – che si applica, come noto, solo ai dati personali, escludendo
dunque quelli anonimi, ammesso che lo siano realmente – ma anche l’applicazione delle misure di
de-identificazione o pseudonimizzazione ritenute più idonee.
Relativamente a tale aspetto, è possibile ravvisare alcune sostanziali differenze nel rilascio del dato
in formato “puro” o in modalità aggregata. Innanzitutto, il dato puro è quello che, per definizione,
risulta più delicato e meritevole di protezioni più consistenti: se non vengono applicate tecniche di
data protection adeguate, infatti, è possibile risalire molto più facilmente al soggetto cui si riferiscono
e, di conseguenza, anche dedurre informazioni ulteriori attinenti alla sua persona. Ciò può accadere,
generalmente, in due casi specifici:
- quando all’interno del dataset vi è un dato particolarmente “vistoso” (come può essere,
in un’analisi di tipo socio-economico, uno stipendio molto più consistente degli altri in
un database circoscritto ad un’area geografica di ridotte dimensioni);
- quando i dati all’interno del database sono facilmente correlabili ad informazioni
esterne (questo si verifica quando vi sono numerosi attributi corrispondenti nei due
database correlati e le informazioni in essi contenute sono molto accurate e dettagliate).
Ovviamente, i soggetti che presentano caratteristiche peculiari o, addirittura, uniche, sono più
esposti al c.d. “disclosure risk”, che comporta l’identificazione dell’individuo o l’inferenza di
determinati dati, in alcuni casi di natura particolarmente riservata. Inoltre, le due possibilità appena
prospettate diventano più consistenti laddove siano pubblicati dati particolarmente accurati e vi sia
più di un database esterno con il quale effettuare collegamenti.
Anche il rilascio di dati in forma aggregata, in ogni caso, non è esente da rischi e criticità di tale
sorta. Innanzitutto, è opportuno specificare l’esistenza di due possibili forme di pubblicazione del
macrodato: le c.d. “tabelle di frequenza” riportano il numero esatto o la percentuale di soggetti che
condividono quel determinato attributo; le “tabelle di magnitudo”, invece, riportano valori
aggregati (genericamente sotto forma di media matematica) relativi ad un particolare attributo
oggetto di analisi. Tra le due, queste ultime rappresentano quelle più problematiche, in quanto le
tecniche di protezione applicabili alle tabelle di frequenza – come, ad esempio, il campionamento
– potrebbero risultare insufficienti.
Si è visto poco sopra come il dato rilasciato nella sua forma “pura” presenti più criticità dal punto
di vista della protezione del dato, laddove anche l’applicazione di specifiche tecniche a ciò deputate
(come, tra le altre, il campionamento, la generalizzazione, la soppressione o l’aggiunta di “rumore”)
può in molti casi consentire la re-identificazione del soggetto interessato o l’inferenza di altre sue
peculiari caratteristiche personali. Per valutare più realisticamente la protezione dell’anonimato dei
soggetti rappresentati nel dataset, tuttavia, può risultare molto utile applicare i parametri di k-
22
anonimity, l-diversity e t-closeness21 che consentono, attraverso diversi metodi, di aggiungere in
gradi differenti e via via crescenti delle difficoltà nell’effettiva identificazione dell’individuo
rappresentato in un determinato gruppo d’analisi. A queste, negli ultimi anni, si sono aggiunte
tecniche più innovative, che comportano l’aggiunta del c.d. “rumore”, come la differential privacy.
Quanto appena osservato in riferimento ai microdati vale, seppure con alcune esclusioni, anche nel
caso in cui si sia optato per il rilascio di macrodati: i rischi in cui si può incappare sono i medesimi,
anche se le possibili tecniche di data protection applicabili sono differenti. Tra queste, a titolo
esemplificativo, si segnalano il campionamento di valori o l’applicazione di “regole di soglia” o altre
regole speciali.
Il problema principale, e sotteso ad entrambe le tipologie di dataset sopra illustrate, in definitiva, si
può convogliare nel problema dell’anonimità: quando è possibile affermare con ragionevole
certezza di aver reso un dato anonimo? E quando, dopo aver applicato una delle tecniche ad oggi
conosciute per proteggere la riservatezza dell’individuo, si può aver meno timore di una possibile
re-identificazione?
Oltre a tali interrogativi di natura più squisitamente tecnico-giuridica, emergono sempre più
prepotentemente anche quelli di derivazione etica: ad esempio, quali sono i criteri più corretti per
l’omologazione degli individui e il loro raggruppamento in cluster? Quali sono le possibili
conseguenze di un “privacy leak”? Quali sono le discriminazioni che si potrebbero determinare nel
riutilizzo di tali dati – anche in forma aggregata – per finalità ulteriori, specialmente laddove il
trattamento avvenga in forma automatizzata?
Si tratta di interrogativi cruciali, ai quali in molti casi si presta ancora troppo poca attenzione, ma
che, soprattutto in campo sanitario, possono determinare risvolti davvero preoccupanti.
21 La proprietà di “k-anonimity” consente di individuare, all’interno di un gruppo, almeno k individui che presentano una
caratteristica in comune; la proprietà di “l-diversity” indica la quantità di attributi sensibili diversi che ciascun individuo rappresentato
in un dataset deve avere per assicurare un certo valore di anonimità; la proprietà di “t-closeness” invece, mira a ridistribuire i dati,
cosicché tra l’intera distribuzione dei record e una sua parte selezionata risultino molto simili.
23
3. Profili evolutivi della valorizzazione del dato sanitario tra gli attori
dell’ecosistema
3.1. Accesso al dato e sicurezza nella condivisione: la prospettiva
europea
Vanessa Cocca
Muovendo la nostra analisi a livello europeo, vale la pena sottolineare che numerosi sono stati, nel
corso degli ultimi anni, gli impulsi europei alla digitalizzazione del settore sanitario e alla
condivisione dei dati sanitari22. Tra i principali punti d’azione figura l'interoperabilità dei sistemi di
informazione, la sicurezza dei dati e le tecnologie per il miglioramento della privacy, il
miglioramento dell'infrastruttura di servizi digitali per la sanità elettronica, lo scambio
transfrontaliero di dati sanitari, i registri e le piattaforme comuni delle malattie, gli strumenti per la
ricerca sulle malattie rare, la prevenzione e il controllo delle minacce sanitarie transfrontaliere, un
uso migliore dei finanziamenti europei, la condivisione di best practices.
I sistemi sanitari e assistenziali necessitano di riforme profonde e soluzioni innovative per diventare
accessibili e efficaci nel fornire assistenza ai cittadini europei. La condivisione del dato è un
passaggio essenziale per il raggiungimento di tali obiettivi: tuttavia i dati sono spesso disponibili in
formati che non ne garantiscono l’interoperabilità e sono spesso gestiti in maniera difforme sia
negli Stati membri che all'interno dei sistemi sanitari nazionali23.
Il contesto di emergenza legato alla diffusione del Covid-19 ha mostrato il potenziale e ha aperto
la strada all'uso generalizzato di soluzioni innovative in ambito medico, al ricorso alla telemedicina
e all’assistenza remota. Le tecnologie digitali possono consentire ai cittadini di monitorare il loro
stato di salute, prevenire l’insorgere di nuove patologie ed efficientare il funzionamento dei sistemi
sanitari. Tuttavia, la crisi sanitaria ha anche esposto le vulnerabilità dello spazio digitale, la sua
dipendenza da critical infrastructures, spesso non basate nei territori europei; ha evidenziato la
dipendenza da poche grandi tech company, ha visto un aumento dell'afflusso di prodotti
contraffatti e furti informatici, e ha amplificato l'impatto della disinformazione sulle nostre società
democratiche24. A tal proposito, la Commissione Europea stima che l'introduzione di una maggiore
integrazione dei servizi online, il miglioramento delle infrastrutture per la trasmissione elettronica
e l’accesso ai dati potrebbe portare a benefici fino a 120 miliardi di euro all'anno25.
Si veda la Strategia per il mercato unico digitale in Europa, COM(2015) 192 final, 2015.
COMUNICAZIONE DELLA COMMISSIONE AL PARLAMENTO EUROPEO, AL CONSIGLIO, AL
COMITATO ECONOMICO E SOCIALE EUROPEO E AL COMITATO DELLE REGIONI relativa alla
trasformazione digitale della sanità e dell'assistenza nel mercato unico digitale, alla responsabilizzazione dei cittadini e alla creazione
di una società più sana”, COM(2018) 233 final.
24COMUNICAZIONE DELLA COMMISSIONE AL PARLAMENTO EUROPEO, AL CONSIGLIO, AL
COMITATO ECONOMICO E SOCIALE EUROPEO E AL COMITATO DELLE REGIONI "2030 Digital
Compass: the European way for the Digital Decade", COM(2021) 118 final.
25 supra 8.
22
23
24
Costruire un'infrastruttura interconnessa paneuropea comune e polivalente per l'elaborazione dei
dati, da usare nel pieno rispetto dei diritti fondamentali, sviluppare capacità periferiche in tempo
reale per servire le esigenze degli utenti finali vicino a dove i dati vengono generati, progettare
piattaforme middleware sicure, a basso consumo e interoperabili per usi settoriali, e consentire un
facile scambio e condivisione dei dati, sono tra le priorità che l’Unione Europea ha individuato nel
Digital Compass 203026.
Tale visione è stata descritta ed incorporata nell’ambito del Programma EU4Health27 per il periodo
2021-2027, volto alla trasformazione digitale dei servizi sanitari, alla promozione
dell’interoperabilità, allo sviluppo di uno spazio europeo dei dati sanitari. EU4Health rappresenta
la risposta dell'Unione Europea alla diffusione del Covid-19. Con un investimento di 9,4 miliardi
di euro, EU4Health diventa così il più grande programma per la salute di sempre in termini di
risorse finanziarie, e fornirà finanziamenti agli Stati Membri, alle organizzazioni sanitarie e alle
ONG.
Il programma finanzierà, tra le altre, anche azioni legate alla creazione dell’European Health Data
Space. La creazione di uno spazio europeo dei dati è una delle priorità della Commissione per il
periodo 2019-2025, anche nel settore sanitario. Uno spazio comune europeo dei dati sanitari
promuoverà un migliore scambio e accesso a diversi tipi di dati sanitari (cartelle cliniche
elettroniche, dati genomici, dati dai registri dei pazienti, ecc.), non solo per sostenere la fornitura di
assistenza sanitaria (il cosiddetto uso primario dei dati), ma anche per la ricerca sanitaria e la
definizione delle politiche sanitarie (il cosiddetto uso secondario dei dati).
Il sistema ruoterà intorno al rispetto dei principi di trasparenza e protezione dei dati personali dei
pazienti, sul rafforzamento della data portability, sulla base di quanto stabilito dall’art.20 del GDPR.
La Commissione lavorerà insieme agli stati membri per lo sviluppo dell’European Health Data
Space, la cui costruzione ruoterà intorno a tre pilastri:
a. un forte sistema di data governance dei dati e un framework di regole per lo scambio di dati;
b. qualità dei dati;
c. creazione di una struttura in grado di abilitare l’interoperabilità.
La Commissione aveva già annunciato, nell’ambito dell’European Data Strategy28 e nel più recente
Data Governance Act29, l'intenzione di ottenere risultati concreti nel settore dei dati sanitari e di
sfruttare il potenziale creato dagli sviluppi delle tecnologie digitali per introdurre innovazione
nell’ambito sanitario. La raccolta, l'accesso, la conservazione, l'uso e il ri-uso dei sanitari pone sfide
supra 8.
Regolamento (UE) 2021/522 del Parlamento Europeo e del Consiglio del 24 marzo 2021 che istituisce un programma d’azione
dell’Unione in materia di salute per il periodo 2021-2027 («programma UE per la salute») (EU4Health) e che abroga il
regolamento (UE) n. 282/2014.
28 COMUNICAZIONE DELLA COMMISSIONE AL PARLAMENTO EUROPEO, AL CONSIGLIO, AL
COMITATO ECONOMICO E SOCIALE EUROPEO E AL COMITATO DELLE REGIONI “Una strategia
europea per i dati”, COM(2020) 66 final.
29 Proposta di REGOLAMENTO DEL PARLAMENTO EUROPEO E DEL CONSIGLIO relativo alla governance
europea dei dati, COM(2020) 767 final.
26
27
25
che devono essere affrontate in un quadro normativo che serva al meglio gli interessi e i diritti dei
cittadini, in particolare per quanto riguarda il trattamento dei dati relativi allo stato di salute.
Nonostante la Direttiva sull'assistenza sanitaria transfrontaliera30 abbia creato un framework
collaborativo tra le autorità nazionali responsabili per la sanità elettronica (la "rete eHealth"), gli
accordi e gli strumenti esistenti forniscono e rispondono solo in parte alle sfide.
L'insufficiente scambio di dati sanitari ha un impatto negativo sulla fornitura di servizi sanitari (e
dunque sull’uso primario del dato sanitario). Il livello di digitalizzazione varia notevolmente
all’interno di ogni Stato Membro e l'interoperabilità tra i fornitori di servizi sanitari rimane limitata.
La rete eHealth - e la relativa infrastruttura IT - ha migliorato lo scambio transfrontaliero di dati
sanitari per l'assistenza sanitaria, soprattutto per quel che riguarda le cartelle cliniche dei pazienti e
le prescrizioni elettroniche. Tuttavia la sua natura volontaria e non vincolante ne ha negativamente
influenzato l'adozione e limitato l'impatto.
Esercitare l'accesso e il controllo sui propri dati sanitari è spesso estremamente difficile per i
pazienti. Le cartelle cliniche elettroniche (EHR) non sono ancora una realtà in tutta l'Unione e
molti pazienti non possono facilmente accedere e usare le informazioni che contengono, o
trasferirle tra diversi operatori, soprattutto quando il trasferimento è transfrontaliero. Questo porta
alla duplicazione degli sforzi, ad inefficienze, ritardi delle cure e a costi più elevati per i sistemi
sanitari e per i pazienti. La condivisione delle EHR è limitata, il che significa che queste
informazioni non possono essere facilmente condivise nel trattamento dei pazienti.
Quanto all’uso secondario del dato sanitario, l'accesso e lo scambio di dati sanitari per la ricerca
scientifica e l'innovazione, per la definizione di nuove politiche e per le attività di regolamentazione
rimane ancora molto limitata all’interno dell’Unione.
La raccolta, l'accesso, la conservazione, l'uso e il riutilizzo dei dati sanitari nell'assistenza sanitaria
pone sfide specifiche, di carattere principalmente legale e tecnologico. Difatti, da un punto di vista
normativo, il GDPR stabilisce un framework comune di regole a cui gli Stati membri hanno
aggiunto ulteriori specifiche e restrizioni in relazione al trattamento e alla condivisione di dati
sanitari. Quindi, il trattamento dei dati sanitari personali negli Stati membri risulta essere
frammentario, portando a ostacoli e a un accesso limitato dei ricercatori e delle istituzioni
pubbliche, che a sua volta riduce la competitività dell'UE e il potenziale di innovazione a livello
globale.
Gli Stati membri hanno approcci diversi per l'accesso e la condivisione dei dati sanitari. Alcuni Stati
membri hanno istituito organismi nazionali che facilitano l'accesso ai dati sanitari; tuttavia, tali
organismi non esistono in tutti gli Stati membri. Una cooperazione, una governance e
un'infrastruttura IT limitate a livello UE ostacolano l'accesso ai dati sanitari da parte di ricercatori,
istituzioni pubbliche e organismi di regolamentazione.
Un numero crescente di strumenti digitali per la salute integra poi sistemi di intelligenza artificiale
(AI). La Commissione sta già lavorando su un quadro orizzontale per l'IA che copre aspetti legati
Direttiva 2011/24/UE del Parlamento europeo e del Consiglio, del 9 marzo 2011 , concernente l’applicazione dei diritti dei
pazienti relativi all’assistenza sanitaria transfrontaliera.
30
26
alla sicurezza e ai diritti fondamentali, che è destinato ad essere applicato in diversi settori, compresi
i prodotti sanitari. Tuttavia, gli aspetti specifici relativi alla salute che si basano sul futuro quadro
dell'IA, tra cui la formazione, i test e la convalida dei sistemi di IA, così come gli aspetti non coperti
da questo quadro orizzontale potrebbero richiedere ulteriori considerazioni. L'uso di strumenti di
IA, e in particolare l'opacità di alcune applicazioni, può rendere difficile l'attribuzione della
responsabilità o garantire la conformità. È importante dunque assicurare adeguate garanzie sui
diritti fondamentali e sul risarcimento dei danni.
Tutte queste problematiche dovrebbero essere analizzate e risolte nell’ambito dell’European Heath
Data Space; in particolare, il programma mira a:
a. garantire l'accesso, la condivisione e l'uso ottimale dei dati sanitari ai fini della fornitura
dell'assistenza sanitaria, nonché il loro riutilizzo per la ricerca e l'innovazione, l'elaborazione
delle politiche e le attività di regolamentazione, in modo sicuro, tempestivo, trasparente e
affidabile e con un'adeguata governance istituzionale;
b. promuovere un vero e proprio mercato unico della salute digitale, che copra i servizi e i
prodotti sanitari, compresa la telemedicina, il telemonitoraggio e la salute mobile;
c. migliorare lo sviluppo, la diffusione e l'applicazione di prodotti e servizi sanitari digitali
affidabili, compresi quelli che incorporano l'intelligenza artificiale nel settore della salute.
d. stabilire un quadro giuridico e di governance appropriato per coprire l'accesso e lo scambio di
dati sanitari per la fornitura di assistenza sanitaria, la ricerca, la definizione delle politiche e le
attività di regolamentazione.
L’European Health Data Space, integrato con aspetti del Data Governance Act, prevederà la
designazione di organismi nazionali per la salute digitale ed organismi settoriali che si occuperanno
dell'uso secondario dei dati sanitari. Si prevede inoltre: il sostegno alle autorità pubbliche (ad
esempio le agenzie di medicina, le istituzioni epidemiologiche, gli istituti sanitari nazionali, gli
organismi di HTA, l'EMA, l'ECDC) per l'accesso ai dati sanitari nel pieno rispetto delle norme sulla
protezione dei dati; l'accesso ai dati genetici e il collegamento con i dati sanitari; il riutilizzo dei dati
detenuti da soggetti privati; il sostegno alla formazione e alla sperimentazione di applicazioni
sanitarie AI. L'interazione con il GDPR, in particolare gli articoli 9 e 89, per quanto riguarda la
regolamentazione dei dati sanitari sarà oggetto di dettagliato studio e analisi.
Si lavorerà inoltre verso l’eliminazione delle barriere tecniche che ostacolano l'uso e il riutilizzo dei
dati, in particolare quelle relative alle infrastrutture, all'interoperabilità, alla qualità dei dati e agli
standard in campo sanitario. Saranno esaminate le opzioni relative alle infrastrutture per l'uso dei
dati per l'assistenza sanitaria, basandosi sull'infrastruttura di servizi digitali per la sanità elettronica
(MyHealth@EU) per lo scambio transfrontaliero dei dati dei pazienti quando viaggiano all'estero.
Saranno esaminate le opzioni riguardanti il rafforzamento dell'interoperabilità delle cartelle cliniche
elettroniche, in linea con il formato europeo di scambio, così come l'interoperabilità semantica e
tecnica dei diversi tipi di dati. Per quanto riguarda l'accesso ai dati a fini di ricerca, di elaborazione
delle politiche e di regolamentazione, le opzioni riguarderanno diversi modelli di infrastrutture
interoperabili per l'accesso ai dati e i relativi servizi per facilitare lo stoccaggio sicuro e
27
transfrontaliero, l'elaborazione e l'analisi dei dati sanitari.
3.2. Data lake nel sanitario: il miglioramento della ricerca/cura
attraverso la concentrazione dei dati
Daniele Panfilo
La possibilità di aggregare informazione in sistemi che ne consentano un accesso ed un riutilizzo
facile e veloce, come data lakes o data warehouse, costituisce uno dei driver fondamentali per la
ricerca e lo sviluppo di soluzioni basate sull’analisi dei dati. Ciò risulta ancor più chiaro nel caso del
dato sanitario. Tale aspetto è stato ulteriormente evidenziato dalla pandemia corrente che ha reso
inderogabile la necessità di un'infrastruttura capace di facilitare la condivisione, l’accesso e un sicuro
riutilizzo del dato sanitario.
Se da un lato la crescita esponenziale dell’informazione disponibile segue un tasso di crescita molto
elevato, grazie al significativo sviluppo e alla conseguente diffusione di dispositivi di acquisizione
dati, dall’altra, l’accesso e il riutilizzo dell’asset informativo mostra fattori di crescita ben differenti.
Le cause che ostacolano una più ampia democratizzazione dell'informazione sanitaria, mirata ad
incentivare la rapida implementazione di progetti di ricerca e sviluppo, sono varie e hanno origini
differenti.
Da un lato la mancanza di una piattaforma standard per la sicura condivisione del dato sanitario,
dall’altra la natura sensibile del dato trattato costituiscono alcuni tra i principali fattori alla base dello
scarso riutilizzo dell asset informativo.
Se da un lato The European Monitoring Tool31 prevede che per il 2025 il mercato dei dati europei
raggiungerà il valore di oltre 140 miliardi di Euro, dall’altro risulta evidente che un vero e proprio
cambio di paradigma tecnologico sarà necessario perchè la valorizzazione dell’asset informativo
possa realizzarsi secondo le previsioni attese.
A tal fine diversi iniziative europee sono emerse e stanno emergendo, con l’obiettivo di rendere
possibile l’accesso e il riutilizzo del patrimonio informativo sanitario mediante l'aggregazione in
data lake o data warehouses. Un esempio di tali iniziative è fornito dall’eHealth platform Belgium, un
servizio governativo belga, che offre la possibilità agli attori del panorama sanitario di scambiare in
maniera sicura informazioni anche sensibili. Un altro caso è quello rappresentato dal The Health
Data Research Hubs inglese che facilita l’accesso ai dati del sistema sanitario nazionale per il settore
pubblico, accademico e della ricerca industriale nel Regno Unito.
La nascita di tali realtà in diversi stati membri mostra quanto sia centrale il tema della condivisione
del dato e quanto tale necessità sia avvertita in tutti gli stati membri dell’unione.
31 First Report on Facts and Figures Updating the European Data Market Study Monitoring Tool By International Data
Corporation (IDC) and the Lisbon Council, European Data Market Study Updated SMART 2016/0063.
28
L’aggregazione di tali informazioni mediante piattaforme dedicate, non solamente incentiva la
ricerca facilitando l’accesso al dato, ma permette anche l'eliminazione di barriere geografiche,
incoraggiando il nascere di collaborazioni e sinergie internazionali linfa vitale del progresso
scientifico.
Affinché le previsioni Europee del mercato dei dati possano realizzarsi, e perché l’Unione Europea
possa beneficiare a pieno delle strategie presentate nel report “Impact Assessment on enhancing
the use of data in Europe”, è necessario che le tecnologie a disposizione del mondo IT, e la ricerca
di soluzioni innovative in materia di privacy dei dati si sviluppino e vengano adottate in maniera
sinergica.
3.3. Strumenti Organizzativi: partnership, consorzi, contratti.
Paolo Bartoli, Ruggero Di Maulo
I registri a supporto degli studi osservazionali sulle malattie rare sono strumenti importanti per una
strategia mirata ad accelerare la ricerca medica e lo sviluppo di nuove terapie e soluzioni per
migliorare la qualità della vita dei pazienti.
Il coinvolgimento dei pazienti attraverso le loro Associazioni gioca quindi un ruolo sempre più
centrale, infatti è ormai evidente che queste sono il fulcro di tutto il processo di realizzazione e
hanno sinteticamente alcune prerogative fondamentali, quali:
-
sono i portatori di interessi rispetto allo scopo finale (nuove terapie o soluzioni);
-
custodiscono lo strumento e la collezione dei dati;
-
sono garanti degli interessi della comunità per la quale operano;
-
sono veicolo di ingaggio e condivisione con i partecipanti, sia medici/ricercatori, che pazienti.
La particolare natura dei registri in capo ad una Associazione richiede la capacità di strutturare e
mantenere nel tempo la capacità operativa, di coinvolgere pazienti e medici e di raccogliere i dati
garantendone la sicurezza e disponibilità. Tali dati hanno un valore crescente per l’ecosistema in
quanto sono la base della generazione di real-world evidence (RWE), che è sempre più richiesta
dagli enti regolatori e dalle aziende sia nelle fasi iniziali della ricerca farmacologica, che nelle
successive attività di registrazione, definizione del prezzo e post-marketing surveillance.
Questi elementi si basano sulla capacità di gestione “industriale” e amministrativa, tanto più quanto
maggiore è la complessità tecnologica e regolatoria sottostante a un registro che voglia sopravvivere
nel tempo ed essere in regola con le norme di legge. Sono necessarie pertanto risorse economiche
e umane non facili da reperire e mantenere nel tempo.
29
Tale capacità di gestione non può essere garantita al di fuori di un approccio d’impresa.
L’organizzazione strutturata di risorse umane e materiali per un fine definito offre queste garanzie,
a patto che sia in grado di sostenersi finanziariamente. Preparazione ed esperienza, sicurezza,
qualità sono fattori che hanno un costo elevato, e devono confluire in un modello ove siano chiari
ruoli e responsabilità.
Altro aspetto fondamentale è un approccio volto al medio-lungo periodo, in quanto non è raro che
in questo contesto i risultati di una ricerca possano portare a delle soluzioni concrete per le
generazioni successive dei pazienti che hanno partecipato alla ricerca stessa nella fase di early-stage.
Un approccio “a progetto”, con team organizzati su base estemporanea e tempistiche di 1-3 anni è
efficace ad esempio per un trial clinico di prodotto, ma non lo è per uno studio osservazionale di
lungo periodo, dove va realizzata una organizzazione permanente per la raccolta e gestione della
qualità del dato da un lato, e per l’engagement dei pazienti e dei clinici dall’altro. Anche dal punto
di vista della sostenibilità economica, per un progetto di 1-3 anni un grant può essere uno strumento
adatto, mentre per un registro osservazionale di lungo periodo vanno garantiti fondi in maniera
strutturale (modello industriale).
Cloud-R si propone di strutturare i processi e renderli operativi sotto il profilo organizzativo e
tecnologico applicando un modello di industrializzazione già sperimentato, e soprattutto può
finanziare dall’inizio la realizzazione e il mantenimento del registro. Questa capacità è possibile
però se, e solo se – raggiunto l'obiettivo di una raccolta dati di qualità - tali dati, attraverso una loro
corretta anonimizzazione, possono poi essere condivisi per finalità secondarie di ricerca con altri
ricercatori e industrie, a titolo oneroso, per remunerare l’attività d’impresa di cloud-R, condizione
necessaria per sostenere il sistema nel medio-lungo periodo.
Nella pratica, la capacità di sostenere i costi del registro a favore dell’Associazione e dei ricercatori
si basa sulla capacità di Cloud-R di sostenere il rischio d’impresa della realizzazione di un registro,
grazie alla disponibilità in esclusiva dei dati del registro anonimizzati e alla conseguente possibilità
di creare, organizzare e condividere tali dati per finalità secondarie di ricerca, remunerando così il
proprio investimento.
La condivisione dei dati secondari per Cloud-R ha valenza di business, basato su uno scopo etico
che si riassume nel rendere disponibile conoscenza e informazioni ad altri portatori di interesse
anche al di fuori singolo contesto nel quale vengono raccolti i dati (vedi raccomandazioni EMA) e
nello stesso tempo di reperire nuove risorse finanziarie, che oggi non sono disponibili per tale tipo
di ricerca indipendente.
L’Associazione è libera dal canto suo di utilizzare i dati del registro per le finalità primarie di ricerca,
tipicamente senza finalità di lucro, e in accordo con i progetti dei medici secondo quanto indicato
nel protocollo dello studio osservazionale servito dal registro. Si tratta di attività che rientrano nelle
facoltà dell’Associazione, per le quali essa si deve comunque dotare degli organi di governo e delle
minime indispensabili competenze legali, amministrative e regolatorie.
30
È quindi importante riconoscere reciprocamente la netta distinzione tra le attività senza fine di
lucro che gravitano intorno all’Associazione e le attività d’impresa caratterizzate dalla necessità
imprescindibile dell’equilibrio finanziario e della remunerazione del rischio in capo a Cloud-R.
● Finalità primarie di ricerca: senza finalità lucro
- Associazione
- Medici
L’Associazione opera in collaborazione con i medici e i centri di riferimento regolando i rapporti
attraverso le convenzioni sottoscritte con le strutture sanitarie ove operano i medici, e che
recepiscono quanto indicato in protocollo per gli aspetti legati alla raccolta dei dati e al loro uso per
pubblicazioni e in generale per gli usi primari.
● Finalità secondarie di ricerca: con finalità di lucro e impatto sociale
- Cloud-R
Condivisione estesa della conoscenza basata su dati anonimizzati, equilibrio finanziario e
remunerazione del rischio.
L’Associazione si avvale di Cloud-R per tutte le attività informatiche e tecniche oltre che per gli
aspetti di compliance (dalla privacy alla sicurezza sia di processo che di struttura) ai fini della
raccolta dei dati e alla gestione del registro.
La possibilità da parte di Cloud-R di disporre dei dati anonimizzati consente la copertura della
filiera dei costi informatici di struttura e di processo, oltre a coprire potenzialmente anche tutti i
costi di data entry e data monitor, che di consueto sono coperti dai centri partecipanti e dal
promotore e permette di mantenere il registro a medio-lungo termine.
Questa distinzione risponde bene alla diversa natura dell’Associazione e di Cloud-R, e corrisponde
alle rispettive finalità societarie.
Le premesse di cui sopra sono alla base delle clausole fondamentali del contratto di servizio
sottostante alla realizzazione del registro, e vengono sottoscritte dal cloud-R e dalla Associazione,
la quale , di norma, è il Promotore dello studio osservazionale.
Il modello può essere visualizzato nella sua interezza attraverso la seguente infografica:
31
La generazione di dati utilizzabili per il mercato è visibile più in dettaglio in questa infografica:
32
3.4. Dato RWE nel caso delle malattie rare: come estrarne nuovo valore
Paolo Bartoli, Ruggero Di Maulo
Il modello che viene portato avanti da Cloud-R ha la capacità di rivoluzionare la raccolta dati nelle
malattie rare, infatti interviene sulla fase di governance dei processi che tradizionalmente vengono
gestiti in modo destrutturato, non integrati con le fasi di tipo tecnologico e informatico, creando
così i punti di rottura che spesso poi si manifestano nelle inadempienze sotto il profilo della
compliance, nella indisponibilità dei dati e nella dissoluzione della stessa organizzazione dello
studio. La vera debolezza di questi progetti sta nella differente velocità tra l'evoluzione tecnologica
e quella della organizzazione - il fattore umano - dei processi, tra la parte hard e quella soft delle
competenze/cultura e attitudini necessarie, che invece devono essere armonizzate per portare a
risultati duraturi.
Il focus dell’azione di Cloud-R è quindi nel cambiamento culturale, nello sviluppo di una
autocoscienza - mindfulness con un termine oggi in voga - collettiva degli stakeholders dell'intero
ecosistema, che mai come adesso sono chiamati a cogliere le opportunità date dalla potenza del
digitale e nel contempo a gestire le crescenti complessità che dalla digitalizzazione derivano.
33
I casi d’uso possono essere molteplici, quali:
34
4. Le tecnologie per l’anonimizzazione
4.1. La scelta delle tecnologie per l’anonimizzazione
Daniele Panfilo
L’accesso e il riutilizzo del dato sanitario sono spesso ostacolati da vari fattori. Una delle principali
cause di difficoltà è rappresentata dal fatto che molti dei dati sanitari sono classificati come dati
sensibili. Le informazioni personali contenute all’interno di questi dati, se impropriamente divulgate
potrebbero causare una grave violazione del diritto alla riservatezza. I rischi associati con l’utilizzo
dell’informazione sanitaria inoltre impattano varie dimensioni da quella della sicurezza a quella
reputazionale.
Ciò impone che l’incaricato della gestione dell’asset informativo sanitario rispetti i più alti standard
volti a tutelare la privacy degli individui. In questo modo si andrà ad incoraggiare la ricerca e
l’innovazione garantendo al tempo stesso la sicurezza e i diritti degli individui.
Da un punto di vista tecnico, esistono diversi approcci per tutelare la privacy degli individui che
vanno dalle soluzioni standard di anonimizzazione e pseudo anonimizzazione fino alla moderna
sintetizzazione del dato. La scelta di una o dell’altra tecnica dipende dal grado di sicurezza che si
vuole ottenere e dal tipo di uso previsto per il dato.
● Anonimizzazione
L’anonimizzazione è quel processo di offuscamento del dato che prevede in maniera
irreversibile
la
rimozione
totale
dell’elemento
identificativo.
Esistono molteplici tecniche di anonimizzazione e una prima macro distinzione è quella tra
tecniche
di
randomizzazione
e
tecniche
di
generalizzazione.
➢ Randomizzazione: opera sul grado di verità del dato per minare la correlazione che
esiste tra lo stesso e la persona. Tra le principali tecniche di randomizzazione rientrano:
○ Aggiunta di rumore: si va ad aggiungere rumore su determinate colonne con
l’obiettivo di diminuire l'accuratezza delle informazioni cercando comunque di
mantenere
inalterata
la
distribuzione.
○ Permutazione: si procede con il mescolare i valori di alcuni attributi affinché essi
risultino collegati a persone o entità differenti. Tuttavia, se sussistono forti relazioni
logiche tra alcuni attributi l’effetto potrebbe essere facilmente invertito (esempio
medico curante e reparto ospedaliero). Tale operazione mira a rompere determinate
correlazioni tra gli attributi che faciliterebbero l’identificazione dei soggetti.
Ciononostante tale tecnica garantisce che le distribuzioni marginali degli attributi
restino
invariate.
35
○ Privacy differenziale: tale tecnica è in principio simile all’aggiunta di rumore. La
principale differenza risiede nel fatto che la seconda prevede l’inserimento di
rumore “a priori”. Di contro nella privacy differenziale, l’aggiunta del rumore
avviene ”on the fly” al momento dell’esecuzione dell’interrogazione della base dati.
Il risultato dell’interrogazione presenta dunque un quantità opportuna di rumore e
può essere condivisa con soggetti terzi poiché, se opportunamente implementata,
tale tecnica non consente una facile re-identificazione dei soggetti. Il dato vero
rimane comunque disponibile al titolare del trattamento.
➢ Generalizzazione\Aggregazione: ha come obiettivo quello di raggruppare i singoli
record in classi che contengono più soggetti per eliminare la possibilità di un
identificazione puntuale. Ciò può essere ottenuto modificando la scala di un attributo.
Se per esempio avessimo una colonna città potremmo sostituirla con la regione
allargando/diluendo l'informazione ingrandendo l’insieme di ricerca.
○ K-anonimato: Le tecniche di generalizzazione garantiscono l’anonimato delle
persone tramite il loro raggruppamento in insiemi con altre k- persone. L’idea alla
base delle tecniche di k-anonimato è quella di sostituire il valore puntuale degli
identificatori con dei range di valori che comprendano almeno altri k-soggetti. Ad
esempio si sostituiscono dei valori precisi di dosaggio di un farmaco con degli
intervalli
di
valori.
○ L-diversità/T-vicinanza: estende e migliora il k-anonimato imponendo che
all’interno di ogni intervallo di valori con k-soggetti esistano almeno L-diversi valori.
Rafforza il concetto del k-anonimato contro gli attacchi tramite deduzione.
● Pseudoanonimizzazione
La pseudonimizzazione punta a sostituire gli attributi identificativi di un dato con altri
valori che non permettano l’identificazione dei soggetti.
L’obiettivo della pseudonimizzazione è dunque quello di ridurre la possibilità di
correlazione di un insieme di dati all’identità originale dei soggetti interessati.
Tale trasformazione dei dati, differentemente dal caso dell’anonimizzazione, è spesso un
processo reversibile.
In sostanza si procede separando il dato in indicatori diretti (per esempio il codice fiscale)
che consentono la facile identificazione del soggetto, e che devono essere cifrati o
mascherati, e identificatori indiretti (per esempio il luogo di nascita) che possono essere
invece condivisi senza fasi di pre-processamento.
Tra le principali tecniche di pseudonimizzazione troviamo:
➢ Hashing functions: è una funzione non invertibile che prende in input un attributo
36
di lunghezza arbitraria e restituisce una stringa di lunghezza predefinita. Nonostante
non sia invertibile, se si conosce la natura dell’attributo in input e se questo ha
dimensione finita(per esempio le sigle delle province italiane), la funzione consente di
riprodurre il risultato dell hashing semplicemente lasciando nuovamente l’input.
➢ Hashing functions e salt: è una versione migliorata della classica funzione di hashing
che per limitare la possibile re-identificazione dei soggetti aggiunge al dato originale in
input
un
valore
random
detto
salt
che
può
essere
noto.
➢ Hash cifrato con chiave memorizzata: molto simile alla hash con salt. In questo
caso il salt è una chiave privata nota solamente al responsabile del trattamento.
➢ Crittografia con chiave segreta: è un’operazione reversibile che prevede che il dato
originale venga trasformato utilizzando tecniche di crittografia basate su chiavi segrete.
La principale distinzione nelle tecniche di pseudo-anonimizzazione è quella tra pseudoanonimizzazione simmetrica e asimmetrica:
o Simmetrica: in questo caso la chiave di cifratura e di decifratura
coincidono;
o Asimmetrica: in questo caso si usa una chiave per cifrare e un altra chiave
distinta per decifrare il dato, non rendendo necessaria la condivisione della
chiave
di
cifratura.
➢ Tokenizzazione: prevede l’assegnazione di un valore generato in maniera random ad
ogni istanza dell’attributo che intendiamo pseudonimizzare. Ovviamente la mappatura
deve far attenzione al fatto che non vengano assegnati numeri random uguali a istanze
diverse per evitare confusione.
● Sintetizzazione
Differentemente dalle precedenti tecniche di anonimizzazione e pseudonimizzazione, le
moderne soluzioni di sintetizzazione dati basate su modelli di machine learning di tipo
generativo, rappresentano un paradigma completamente nuovo per la gestione del dato
personale.
Tali tecniche partono dal presupposto che nella maggior parte dei casi e delle applicazioni,
il singolo record costituisce esclusivamente una liability mentre il vero asset è
rappresentato dal contenuto statistico del dataset.
La sintetizzazione dei dati per mezzo di sistemi di AI rappresenta la nuova frontiera nella
gestione dei dati sensibili.
I moderni sistemi di generazione di dati sintetici sono strumenti capaci campionare nuovi
record dalla distribuzione di dati in input generando dunque nuovo dato (sintetico).
37
I dati generati mediante soluzioni avanzate di intelligenza artificiale sono altamente
rappresentativi della distribuzione statistica in input, tanto che possono essere usati per
allenamento di modelli di machine learning o per analisi statistica descrittiva esibendo
risultati statisticamente comparabili a quelli ottenibili con i dati veri.
Vista la natura artificiale del dato sintetico ottenuto mediante modelli generativi,
l'identificazione dei soggetti reali o la possibilità di attacchi di appartenenza (Membership
Inference Attacks (MIA)), in assenza di accesso ai parametri del modello di generazione
o al dataset reale e fatta esclusione per casi degeneri (dataset contenenti solo poche unità),
risulta poco probabile e molto più complessa se comparata al caso di MIA su modelli
discriminativi32.
4.2. Aindo e i dati sintetici
Daniele Panfilo
Aindo srl ha sviluppato una tecnologia basata modelli di machine learning generativi per la
produzione di dati sintetici in contesto sanitario. Tale tecnologia a partire da pazienti veri consente
la creazione di pazienti artificiali che mostrano le stesse caratteristiche statistiche della popolazione
reale. Il paziente artificiale, generato per mezzo di modelli di AI, esibisce le caratteristiche statistiche
di quello reale, mantenendo dunque l’utilità in fase di analisi ma impedisce la re identificazione dei
soggetti reali o la condivisione di informazioni personali.
I pazienti sintetici generati possono essere usati per analisi statistica o per l’allenamento di modelli
di machine learning senza esporre mai i dati reali. Tale tecnologia è volta a facilitare i progetti di
ricerca e sviluppo in ambito medico, velocizzando di molto il tempo di accesso al dato consentendo
la condivisione dell’asset statistico senza compromettere la privacy dei pazienti.
4.3. La scelta del dataset: fase della scientifica primaria, fattibilità, fase
della definizione per uso secondario
Paolo Bartoli, Ruggero Di Maulo
I dataset vengono definiti dal promotore dello studio, con la consulenza informatica, di processo
di cloud-R, oltre che regolatoria/legale se necessaria.
Le tecniche di anonimizzazione possono essere definite dal promotore in quanto titolare, o da esso
approvate quando proposte da cloud-R, che ha il ruolo di Responsabile del trattamento e avrà , per
32
"An Overview of Privacy in Machine Learning." https://arxiv.org/abs/2005.08679. Accessed 17 Jun. 2021.
38
contratto, i diritti di utilizzo di tali dati anonimizzati.
Gli interessi delle parti sono coerenti fra loro e hanno il medesimo obiettivo funzionale: rendere i
dati un oggetto autonomo, privo di riferimenti alle persone.
La limitata numerosità dei dati sulle malattie rare (pochi pazienti) rende difficile la scelta delle
tecniche di anonimizzazione. Una di queste prevede la cancellazione degli elementi che possano
portare alla re-identificazione del paziente. Più dati sono cancellati o accorpati, più è difficile risalire
all'identità del paziente, meno informazioni si avranno.
DATASET SORGENTE
ALGORITMO DI
ANONIMIZZAZION
E
NOME CAMPO
VALORE
CAMPO
SORGENTE
(Dati
pseudonimi)
DATASET ANONIMIZZATO
IRREVERSIBILMENTE
NOME CAMPO
VALORE CAMPO POST
ANONIMIZZAZIONE
Identificativo univoco
numerico del paziente
3
Trasformazione irreversibile
Identificativo record
Random
Data di nascita
10/2001
Trasformazione irreversibile
Anno di nascita
2001
Età
3
Eliminazione irreversibile
39
Sesso
Femmina
Sesso
Femmina
Consenso
partecipazione al
registro per pazienti
Sì
Nessuna azione
Nessuna azione
Consenso
partecipazione al
registro per pazienti
Sì
Data firma consenso
20/09/2018
Trasformazione irreversibile
Anno firma consenso
2018
Data di diagnosi
06/12/2002
Trasformazione irreversibile
Anno di diagnosi
2002
Le tecniche adottabili sono diverse, ma tutte pongono il trade-off tra qualità dei dati e
anonimizzazione, tenendo conto che questa non è graduabile. Inoltre potrebbe essere necessario
considerare i caratteri che definiscono un dato quale “anonimo”. Questi potrebbero cambiare a
causa dell’evoluzione tecnologica digitale e della AI, potenziali elementi che potrebbero rendere
riconoscibili domani profili personali sottostanti a dati oggi considerati anonimi.
La possibilità di portare il dataset a uno stato di non relazione “essenziale” con il concetto di dato
personale può essere sperimentata con l’adozione di algoritmi che generino un dataset - derivato
dall'originario - definito sintetico, nel quale i dati granulari sono trasformati in entità di
informazione diverse dalle originali, mantenendo la capacità di generare statistiche sovrapponibili
a quelle generate dal dataset di origine contenente i riferimenti personali. Questo argomento è
oggetto di trattazione in altra sede.
5. Conclusioni e prospettive future
La pubblicazione del white paper "E-health Data Sharing" segna la conclusione della prima fase di
un percorso e il punto di partenza per costruire un confronto multilaterale tra i portatori di
interesse, coinvolgendo le istituzioni, l'accademia e il settore privato. Più precisamente, come Data
Valley continueremo a raccogliere e integrare nuovi contributi per arricchire la prima versione del
white paper e creeremo strumenti complementari a questo documento, quali checklist e toolkit, al
fine di evidenziare gli elementi più rilevanti.
Invitiamo i soggetti interessati alla condivisione di ulteriori esperienze e modelli per la condivisione
del dato nel settore sanitario a scriverci a
[email protected]
40