Le rôle critique du Big Data dans la santé moderne

Le Big Data joue un rôle de plus en plus prépondérant dans le domaine de la santé. L’analyse de vastes ensembles de données offre de nouvelles perspectives pour améliorer la gestion des pathologies, les traitements et les politiques de santé. Cet article explore les avancées technologiques, les défis et les perspectives futures liées à l’utilisation des mégadonnées en santé.

📅 Création du Health Data Hub

Le Health Data Hub, créé en 2019, illustre l’impact et la valeur du Big Data pour les recherches futures dans le domaine de la santé en France. Cette plateforme facilite l’accès aux données de santé pour les chercheurs et les innovateurs.

Découverte et utilisation des big data en santé

Les progrès technologiques ont fait exploser la quantité de données de santé collectées à chaque instant. L’imagerie médicale, la génomique, mais aussi les cohortes, les registres ou les objets connectés génèrent désormais des flux massifs d’informations sur la santé des populations. Ces big data représentent une mine d’or pour la recherche biomédicale et la santé publique, ouvrant la voie à de nombreuses avancées.

Le potentiel du Big Data pour transformer la santé

L’analyse de ces mégadonnées permet d’acquérir une meilleure connaissance de l’état de santé des populations, d’identifier des facteurs de risque de maladies, d’aider au diagnostic et au choix des traitements. Elle est aussi précieuse pour la pharmacovigilance et la détection d’épidémies.

Grâce aux progrès du séquençage génomique, il est aujourd’hui possible d’obtenir le génome complet d’un individu en moins d’une journée pour un coût de quelques centaines d’euros. Cela permet de mener des études génétiques sur des centaines de milliers de variants chez des milliers de patients, pour identifier des facteurs de susceptibilité à certaines pathologies. De même, lors des essais cliniques, des centaines de paramètres cliniques, biologiques et génétiques sont collectés pour chaque participant, générant des volumes colossaux de données.

La création du Health Data Hub pour favoriser le partage des données

Pour faire face à cette explosion de données, des plateformes se mettent en place afin de les regrouper, les standardiser et les rendre accessibles aux chercheurs dans des conditions sécurisées. C’est le cas en France du Health Data Hub, créé en 2019. Cette structure publique rassemble l’État, l’Assurance maladie, des organismes de recherche comme l’Inserm, des établissements de santé, des industriels…

Sa mission est de mettre à disposition un catalogue de bases de données de santé (données hospitalières, registres, cohortes…) et une puissance de calcul pour permettre leur analyse par des porteurs de projets de recherche. Il vise ainsi à faciliter le partage et l’exploitation de ces données massives au service de la santé publique et de l’innovation médicale.

Base de données	Description	Exemples d’utilisation
SNDS (incluant SNIIRAM)	Système National des Données de Santé, regroupant les données de remboursement de l’Assurance maladie, les données hospitalières, les causes médicales de décès…	Etudes sur le bon usage des médicaments, le parcours de soins, l’épidémiologie des maladies…
Cohortes (Constances, NutriNet-Santé…)	Suivi de larges populations sur le long terme avec recueil de données médico-sociales, biologiques, génétiques…	Identification de facteurs de risque, étude des déterminants des maladies chroniques…
Entrepôts de données hospitaliers	Données cliniques issues du soin (imagerie, biologie, génomique…) collectées par les hôpitaux	Aide au diagnostic, personnalisation des traitements, identification de bio-marqueurs…

De nouveaux défis à relever

Si le potentiel du Big Data en santé est immense, son exploitation soulève encore de nombreux défis :

Nécessité de disposer de capacités de stockage et de calcul suffisantes pour traiter ces volumes massifs
Hétérogénéité des données (format, nature…) imposant un travail préalable de standardisation
Développement d’algorithmes complexes, notamment d’intelligence artificielle, pour analyser et interpréter ces données
Questions éthiques et réglementaires sur la protection de la vie privée et la sécurisation des données personnelles de santé

Malgré ces défis, il ne fait aucun doute que les big data vont continuer à transformer en profondeur la recherche biomédicale et les pratiques de santé dans les années à venir. Elles ouvrent la voie vers une médecine plus prédictive, préventive et personnalisée, ainsi qu’à une meilleure gestion des risques sanitaires collectifs.

Les défis de la gestion des données de santé

Le traitement et l’analyse des données de santé massives, ou Big Data, posent de nombreux défis aux acteurs du secteur de la santé. La complexité provient notamment de l’hétérogénéité des données, issues de sources variées (bases de données médico-administratives, registres, enquêtes, cohortes, objets connectés…), et se présentant sous des formats différents (texte, valeurs numériques, images, séquences génomiques…).

Collecte et standardisation des données

Un premier enjeu majeur consiste à structurer et standardiser les données lors de leur collecte, afin de pouvoir les intégrer dans des bases de données interopérables. Des standards comme celui de l’i2b2 (Informatics for Integrating Biology and the Bedside) se développent pour permettre aux établissements de santé de compiler leurs données dans des entrepôts biomédicaux interrogeables.

De nombreuses équipes travaillent aussi sur des plateformes pour apparier des bases existantes et agréger leurs données avec celles issues de cohortes. C’est par exemple l’objectif du projet CONSTANCES, qui apparie les bases SNIIRAM et SNGC pour enrichir les données de la cohorte Constances.

Stockage et sécurité des données

L’augmentation exponentielle du volume de données soulève des défis en termes de capacités de stockage. Les organismes de recherche s’équipent de serveurs et de supercalculateurs, souvent mutualisés pour des raisons de coût. Le plan France Médecine Génomique 2025 prévoit par exemple la création d’un Collecteur Analyseur de Données (CAD) avec une capacité de stockage de plusieurs dizaines de pétaoctets.

La sécurisation et la protection de la confidentialité des données personnelles de santé constituent un enjeu clé. En Europe, le RGPD encadre strictement leur collecte, leur conservation et leur utilisation. Les porteurs de projets doivent obtenir le consentement des personnes, faire des déclarations auprès de la CNIL et nommer un délégué à la protection des données (DPO). Des questions éthiques se posent aussi régulièrement sur la conservation, le partage et l’usage des données.

Analyse et interprétation des données

Donner du sens à ces masses de données hétérogènes nécessite de développer des algorithmes informatiques et statistiques de plus en plus complexes. Les chercheurs s’appuient notamment sur des techniques d’intelligence artificielle comme le machine learning, capables d' »apprendre » à partir d’un premier jeu de données puis d’analyser de nouvelles informations de manière autonome.

Pour faciliter l’exploitation des données, des initiatives comme le Health Data Hub sont mises en place. Créé en 2019, il vise à rassembler des données de sources variées et à mettre à disposition des porteurs de projets les moyens informatiques nécessaires, en particulier pour faire tourner des algorithmes complexes.

Si les données massives de santé offrent des perspectives immenses en termes de recherche et d’innovation médicale, leur gestion soulève donc encore de nombreux défis technologiques, réglementaires et éthiques. Un équilibre doit être trouvé entre le potentiel de ces big data et la nécessaire protection des données personnelles des citoyens.

Perspectives futures et impact sur la prise de décision

Les big data, ou données massives, représentent un enjeu majeur pour le futur de la médecine et de la santé publique. L’exploitation et l’analyse de ces immenses volumes de données, rendues possibles grâce aux progrès technologiques et informatiques récents, ouvrent de nombreuses perspectives pour améliorer la prévention, le diagnostic et le traitement des maladies, ainsi que le pilotage des politiques de santé.

Vers une médecine prédictive grâce aux big data

L’analyse des big data permet d’identifier des facteurs de risque pour de nombreuses pathologies comme les cancers, le diabète ou les maladies neurodégénératives. En croisant une multitude de données cliniques, biologiques, génétiques, comportementales et environnementales sur de larges populations suivies dans le temps, il devient possible de construire des modèles prédictifs pour repérer de façon précoce les personnes à risque de développer certaines maladies.

Des programmes de prévention et de dépistage ciblés peuvent alors être mis en place pour ces populations spécifiques. Par exemple, grâce aux données de la cohorte Constances qui suit 200 000 Français, des chercheurs ont pu identifier des profils à haut risque de diabète de type 2 et proposer un dépistage personnalisé à ces volontaires. De même, le projet CARPEM exploite les données cliniques et génomiques de milliers de patients atteints de cancer colorectal pour prédire l’évolution de leur maladie et guider les décisions thérapeutiques.

Des outils d’aide au diagnostic et au choix du traitement

Le traitement des big data permet également de développer des algorithmes d’intelligence artificielle pour aider les médecins dans leur pratique quotidienne. Des systèmes capables d’analyser en quelques secondes des millions d’images médicales (IRM, scanners, radios, rétinographies…) sont en train d’émerger. Après avoir été entraînés sur d’immenses bases de données annotées par des praticiens, ces outils sont capables de repérer des anomalies avec une précision souvent égale voire supérieure à l’œil humain.

En cancérologie par exemple, la start-up Therapixel, en partenariat avec l’Institut Curie, a mis au point un logiciel de diagnostic du cancer du sein à partir de mammographies. Testé sur plus de 1700 images, il s’est avéré plus performant que les radiologues dans la détection des tumeurs malignes. De tels outils devraient permettre un dépistage plus précoce et fiable de nombreux cancers.

L’analyse des données massives guide aussi de plus en plus le choix des traitements, en identifiant ceux qui ont la plus grande probabilité d’efficacité chez chaque patient, selon son profil. En étudiant les données cliniques et génomiques de milliers de personnes atteintes d’un même cancer, on peut dresser une cartographie des différents sous-types de tumeurs et de leur sensibilité aux thérapies. Cette médecine de précision permet d’« administrer le bon médicament, à la bonne dose, au bon patient » selon la formule consacrée.

Mieux piloter les politiques de santé grâce aux données

Au-delà de son impact sur la prise en charge individuelle des malades, l’exploitation des big data révolutionne aussi le pilotage des politiques de santé à l’échelle des populations. Grâce au Système National des Données de Santé (SNDS) qui rassemble les données de remboursement de tous les Français, il est désormais possible de suivre en temps réel la consommation de soins sur l’ensemble du territoire.

Ces données, enrichies par celles issues des hôpitaux et des registres épidémiologiques, permettent d’observer finement l’état de santé de la population, l’évolution des maladies et l’impact des campagnes de prévention. Elles sont un outil précieux pour orienter les priorités de santé publique et évaluer l’efficacité des actions mises en œuvre.

A titre d’exemple, une étude réalisée à partir des données du SNDS a montré que :

Année	% de la population traitée par antidépresseurs
2010	5,7%
2014	6,1%
2017	6,4%

Cette augmentation régulière du recours aux antidépresseurs questionne la prise en charge de la santé mentale et appelle des actions ciblées de la part des autorités sanitaires.

Les défis des big data en santé

Si les big data représentent une formidable opportunité pour faire progresser la médecine et la santé publique, leur exploitation soulève néanmoins plusieurs défis :

Des défis techniques liés au stockage, au traitement et à l’analyse de ces volumes massifs et hétérogènes de données. Cela nécessite des infrastructures informatiques puissantes et des compétences pointues en data science.
Des défis éthiques et de protection des données personnelles des patients. Un équilibre doit être trouvé entre le partage des données nécessaire à la recherche et le respect de la vie privée.
Des défis de formation des professionnels de santé qui doivent s’approprier ces nouveaux outils numériques et travailler en collaboration étroite avec des data scientists.

Pour relever ces défis, la France s’est dotée en 2019 du Health Data Hub, plateforme nationale des données de santé visant à faciliter leur collecte, leur partage sécurisé et leur exploitation par les chercheurs, dans le respect du cadre éthique et réglementaire. D’autres initiatives se mettent en place comme l’entrepôt de données biomédicales I2B2 déployé dans plusieurs CHU ou le Collecteur Analyseur de Données du plan France Médecine Génomique 2025.

Grâce à ces atouts, la France a tous les moyens de devenir un leader de l’utilisation des big data pour transformer son système de santé et s’engager dans la médecine des 4P : prédictive, préventive, personnalisée et participative. L’enjeu est de taille pour relever les défis sanitaires de demain, dans un contexte de vieillissement de la population et d’augmentation des maladies chroniques.

Un avenir prometteur pour le Big Data en santé

L’utilisation du Big Data dans le domaine de la santé ouvre de nombreuses perspectives prometteuses. La prédiction et la prévention des maladies, l’amélioration des décisions médicales et l’optimisation des politiques de santé sont autant de domaines qui bénéficieront de l’analyse de vastes ensembles de données. Néanmoins, il sera crucial de relever les défis technologiques et éthiques pour garantir une utilisation responsable et sécurisée de ces données sensibles.

Les data swamps : prévention et solutions

Data Engineers : Expertise et perspectives du métier