fren

Horizon Maths 2015 : résumés des exposés

Lundi 14 décembre matinée : Big data et santé

Comment tirer parti de l'information contenue dans PubMed pour comprendre et modéliser les risques, par Léa Deleris (IBM Research Lab Dublin)
Résumé : Nous avons développé un système qui permet aux utilisateurs d'assembler rapidement des connaissances sur les risques associés à un groupe de maladies ou symptômes précis. Ce système s'appuie sur des techniques de programmation en langage naturel et d’intelligence artificielle pour extraire de PubMed (archive électronique de la littérature médicale) les fragments d’information pertinents. Ils sont ensuite agrégés en un modèle de risques, qualitatif ou quantitatif.

Méthodes bayésiennes approchées et passage à l’échelle des analyses évolutives, par Jean-Michel Marin (Université de Montpellier) 
Résumé : En génétique de population, on s’intéresse aux causes et effets des variations génétiques. L’un des objectifs est de reconstruire l’histoire évolutive de populations depuis une population ancestrale à partir de données génétiques observées au temps présent. Au cours des dernières années est apparue une nouvelle génération de séquenceurs dits à haut débit donnant accès à une quantité considérable d’informations génétiques.
Dans cet exposé, nous présenterons les défis statistiques véhiculés par les modèles utilisés pour l’inference de l’histoire des populations dans le contexte d’une grande masse de données. Nous montrerons comment certaines méthodes bayésiennes approchées permettent d’y répondre. Enfin, nous décrirons quelques applications pertinentes pour des populations bactériennes où la variation génétique fournit des indications importantes sur la biologie des agents pathogènes.

Cancer, le grand challenge: les données de tous les patients pour le traitement de chaque malade, par François Sigaux (INCA)
Résumé à venir.

L'épidémiologie face aux big data
, par Alain-Jacques Valleron (UPMC)
Résumé : Cet exposé tentera de montrer comment l’arrivée des big data a changé, et va changer les méthodes de travail et les résultats en épidémiologie, à partir d’expériences dans  deux domaines : l’épidémiologie prévisionnelle de maladies infectieuses, et la recherche étiologique (c'est-à-dire la recherche des causes) des maladies chroniques complexes.
Dans le domaine de l’épidémiologie des maladies infectieuses, l’accès aux données de mobilité humaine (notamment par avion) permet une prévision sans cesse meilleure de la diffusion des épidémies, ou d’une pandémie. L’accès aux grandes bases de données environnementales permet d’identifier des régions ou des écosystèmes à risque d’émergence de maladies possédant un réservoir animal. Les exemples de la grippe, et d’Ebola seront donnés.
Dans le domaine de l’épidémiologie des maladies chroniques complexes, bien évidemment la recherche de la causalité génétique est transformée par l’accès désormais à faible coût aux données génomiques, et le nombre d’études GWAS (Genome Wide association Studies) a explosé en quelques années. Cependant les parts de causalité démontrées par  ces approches sont faibles. L’évolution de la fréquence de nombreuses maladies  dans des populations génétiquement stables ne peut s’expliquer que par des expositions à des facteurs environnementaux (inconnus) à certains âges (inconnus) et peut-être dépendant du profil génétique, et peut-être différents selon le sous-type (inconnu) de maladies. Le fait de disposer de données environnementales (E) qui peuvent être couplées aux localisations des malades au cours de leurs trajectoires de vie, de bases de données cliniques qui permettent de détailler les caractéristiques de ces malades (leur phénotype P), et de leur génome (G) peut faire espérer progresser la connaissance de la causalité de la maladie par l’identification de triplets ExGxP. L’exemple d’une recherche en cours sur  le  Diabète de Type 1 sera donné.
Enfin, quelques commentaires seront donnés sur les conditions du passage à la démarche « data driven », qui est radicalement différente de la démarche « hypothesis driven » puissamment installée dans la culture actuelle des chercheurs épidémiologistes.



Lundi 14 décembre après-midi : Confidentialité et sécurité

Fully Homomorphic Encryption and Cloud Computing, par Jean-Sebastien Coron (Université du Luxembourg)
Résumé : In 2009 there has been a revolution in cryptography with the description of the first fully homomorphic encryption scheme by Craig Gentry. Fully homomorphic encryption allows computations to be performed on ciphertexts. This enables cloud computing: the user can encrypt his data before sending it to the cloud; the cloud can still search, sort and edit the data on his behalf; the data is kept in encrypted form in the cloud, so that the cloud learns nothing about the user's data; eventually the cloud returns encrypted answers, that only the user can decrypt. In this talk we will provide a high-level description of fully encryption schemes, and recent developments in this area.

La gestion de la sécurité et de la fiabilité dans les nuages de nuages centrée sur l’utilisateur, par Marko Vukotic (IBM Research - Zurich)
Résumé : Dans cet exposé, nous présenterons le projet « SUPERCLOUD » qui transforme la gestion de sécurité et de la fiabilité dans les nuages. En mettant l'accent sur les applications le plus délicates et sensibles, notamment les applications dans le domaine de santé, SUPERCLOUD prend l’avantage des plusieurs nuages informatiques (nuages de nuages) afin de provisionner ces utilisateurs avec des services renforces par la sécurité et la fiabilité. Nous présenterons une vue d’ensemble des principaux composants de l’architecture de SUPERCLOUD, en mettant l’accent sur l’architecture de la partie concernant la gestion des données.

La vie privée dans le monde des données, par Kostas Chatzikokolakis (CNRS)
Résumé : La progression technologique et la popularité de l'Internet ont conduit à une immense capacité de collecter, traiter, combiner et stocker des données. Le calcul des statistiques à partir de ces données a une valeur potentielle énorme pour la société, mais ces avantages viennent avec des risques importants pour la vie privée des propriétaires de ces données. En conséquence, les individus sont généralement rassurés que leurs informations ne seront publiées qu'après avoir été "anonymisées". Malheureusement, les techniques reposant sur la "de-identification" se sont révélées largement inefficaces contre les algorithmes puissants de ré-identification basés sur des connaissances de fond et la corrélation entre les données. Par exemple, nous rappelons le cas d'une base de données de l'hôpital du Massachusetts qui a été dé-anonymisée en utilisant une base publique des électeurs.
Dans cet exposé, je présenterai "differential privacy", un nouveau cadre pour la protection de la vie privée qui est devenu de plus en plus populaire ces dernières années. Contrairement aux techniques d'anonymisation, il ne cherche pas à "de-identifier" les données, mais plutôt il définit formellement ce que signifie pour un calcul de préserver la vie privée. L'idée c'est qu'il ne devrait pas être possible pour l'adversaire de distinguer, à partir de la réponse à la requête, si une certaine personne est présente ou non dans la base de données. Ceci est obtenu en ajoutant du bruit aléatoire à la réponse, résultant en un compromis entre la vie privée du mécanisme et l'utilité de la réponse: plus que la protection désirée est forte, plus la réponse doit être perturbé, donc moins il est utile.


La digitalisation et la sécurité dans le domaine de la santé
, Intervenant à préciser (Gemalto)
Résumé : Les possibilités de centralisation et d’hyper connectivité ouvrent d’immenses perspectives dans l’accompagnement quotidien des professionnels de santé dans l’exercice de leur fonction. En même temps cet accès démultiplié à l’information demande un encadrement strict afin d’offrir toutes les garanties de sécurité et confidentialité des professionnels et leurs patients.

Mardi 15 décembre matinée : Machine learning

 Digitalisation d'examens cliniques : l'industrialisation nécessaire de la recherche en machine learning, par Nicolas Vayatis (ENS Cachan)
Résumé : La recherche en machine learning se construit en se confrontant aux données réelles et aux questions d'aide à la décision. Parallèlement à cela, il y a une problématique de validation par la reproductibilité des résultats dans l'expérimentation numérique à laquelle chaque chercheur en mathématiques appliquées doit répondre. Il est loin d'être le seul, mais un terrain de jeu évident où le machine learning est encore relativement peu introduit et où la question de la reproductibilité est cruciale est celui de la médecine numérique, avec la question de la mise à niveau des protocoles de validation quantitative en recherche clinique. Or, dans ce domaine, il y a peu d'exemples de grandes bases de données suffisamment normées et contextualisées pour permettre de tirer le meilleur parti des techniques actuelles. Dans cet exposé, on décrira, à travers l'exemple d'un examen neurologique standard pour évaluer la posture du sujet, les principales étapes pour y parvenir et les obstacles scientifiques, techniques et sociologiques qui se posent.

Learning representation from  functional brain images
, par Bertrand Thirion (INRIA-CEA)
Résumé : Functional neuroimaging offers a unique view on brain functional  organization, which is broadly characterized by two features: the  segregation of brain territories into functionally specialized regions,  and the integration of these regions into networks of coherent activity.  Functional imaging yields a spatially resolved, yet noisy view of this  organization.?To extract information from these data, a first strategy is to rely on supervised classification settings, where signal patterns are used to predict the experimental task performed by the subject during a given experiment, which is a proxy for the cognitive or mental state of this subject. We show how to generalize this setting to a large set of experimental conditions, which allows a shift from low-dimensional output classification settings, that probe few cognitive dimensions, to much higher dimensional settings, up to the extent of 'zero-shot  learning', where some aspects of an unseen experimental condition can be  predicted from a reference database.?We will discuss the challenges posed by these analytic approaches, with an emphasis on computational aspects, and how the use of non-labelled  data can be further used to improve the model learned from brain  activity data. 

Inférence de réseaux biologiques par méthodes à noyaux à valeurs opérateurs
, par Florence d’Alché-Buc (Télécom Paris Tech) 
Résumé à venir. 

Détection d'altérations chromosomiques récurrentes : comment les statistiques s'adaptent à la dimension des données, par Stéphane Robain (INRA AgroParisTch)
Résumé : Les techniques modernes de la génomique permettent de détecter des altérations chromosomiques (telles que la perte ou l'amplification de régions entières) qui peuvent survenir dans le génome d'un patient. De telles altérations sont connues pour être associées à des maladies comme le cancer. Leur détection et leur localisation constituent donc un enjeu thérapeutique majeur, qui s'apparente à un problème de détection de ruptures et qui pose des problèmes mathématiques en termes de modélisation statistique, de complexité algorithmique ou de sélection de modèle.
Une fois cette détection menée à bien pour chaque patient, on s'intéresse naturellement à la recherche d'altérations particulièrement fréquentes (ou « récurrentes ») dans des cohortes de patients atteints d’une même maladie. Sous un modèle simple mais raisonnable, la détection d'une telle région peut se reformuler en termes d'excursion d'un certain processus stochastique. De nouveau, selon la dimension des données (aussi bien le nombre de locus considérés que le nombre de patients), des modèles statistiques différents doivent être considérés, menant chacun à des problèmes de probabilité différents.

Mardi 15 décembre après-midi  : Imagerie médicale

BioPLM: une solution collaborative de modélisation dans les industries du vivant, par Frédéric Dayan (BIOVIA Drug Safety)
Résumé : Le programme BioIntelligence a conduit à l'élaboration d'applications innovantes dédiées à la modélisation dans les sciences du vivant. Celles-ci ont été intégrées dans la plateforme collaborative 3DExperience de Dassault Systèmes. Elles s'inscrivent dans le contexte de l'élaboration de substances actives (médicament, agrochimie, etc.) et couvrent le pipeline R&D depuis les phases de recherche amont jusqu'aux essais sur l'homme.

Méthodes géodésiques pour la segmentation d'images médicales, par Laurent Cohen (CEREMADE)
Résumé : La recherche de structures tubulaires et arborescentes est très courante en analyse d'images biomédicales, par exemple pour extraire un arbre vasculaire. Les chemins minimaux ou géodésiques on été utilisés depuis longtemps pour segmenter ces structures de manière rapide et efficace. La distance géodésique est calculée par le Fast Marching pour résoudre l'équation Eikonale. Différents types de métriques et d'espaces peuvent être adaptés à divers problèmes. Par exemple la métrique peut prendre en compte à la fois l’échelle locale et l'orientation du chemin. Dans cet exposé, nous présenterons des méthodes géodésiques récentes menant à la segmentation automatique de l'ensemble des vaisseaux présents dans l'image.

Apprentissage de modèles virtuels de la structure cérébrale à partir de données de neuroimageriepar Stanley Durrleman (INRIA Rocquencourt) 
Résumé : Nous présenterons des outils numériques et statistiques permettant d'apprendre des configurations typiques de l'anatomie cérébrale à partir d'images IRM d'un ensemble de sujets. Ces modèles virtuels sont consitués de maillages linéiques ou surfaciques des principales structures cérébrales. Les variations typiques de ces configurations au sein d'un groupe permettent de comprendre le substrat anatomique de pathologies neurologiques. La personalisation de ces modèles à de nouvelles données fournit au clinicien un système de diagnostic assisté par ordinateur et un outil d'aide au suivi des patients.

Interfaces cerveau machine: état des lieux, par Maureen Clerc (INRIA Sophia)
Résumé : L'interprétation en temps réel de l'activité cérébrale ouvre de nouvelles voies de communication et d'interaction entre l'humain et les machines. Cet exposé fera le point sur les possibilités effectives d'enregistrement, d'interprétation, de communication et d'interaction. Nous évoquerons certaines limitations de ces techniques, en spécifiant lesquelles pourraient être levées par les progrès technologiques.