En offrant une image sans précédent du génome humain, les études d'association pangénomiques (GWAS) expliqueraient pleinement le contexte génétique des maladies complexes. A ce jour, les résultats ont été pour le moins mitigés. Cela peut être partiellement attribué à la méthodologie statistique adoptée, qui ne prend pas souvent en compte l'interaction entre les variants génétiques, ou l'épistasie. La détection d'épistasie à travers des modèles statistiques présente plusieurs défis pour lesquels nous développons dans cette thèse une paire d'outils adéquats. Le premier outil, epiGWAS, utilise l'inférence causale pour détecter les interactions épistatiques entre un SNP cible et le reste du génome. Le deuxième outil, kernelPSI, utilise à la place des méthodes à noyaux pour modéliser l'épistasie entre plusieurs polymorphismes mononucléotidiques (SNPs) voisins. Il tire également partie de l'inférence post-sélection pour effectuer conjointement une sélection au niveau des SNPs et des tests de signification au niveau des gènes. Les outils développés sont - au meilleur de nos connaissances - les premiers à étendre au domains des GWAS des outils puissants d'apprentissage statistique tels que l'inférence causale et l'inférence post-sélection nonlinéaire. En plus des contributions méthodologiques, un accent particulier a été mis sur l'interprétation biologique pour valider nos résultats dans la sclérose en plaques et les variations d'indice de masse corporelle.
By offering an unprecedented picture of the human genome, genome-wide association studies (GWAS) have been expected to fully explain the genetic background of complex diseases. So far, the results have been mitigated to say the least. This, among other things, can be partially attributed to the adopted statistical methodology, which does not often take into account interaction between genetic variants, or epistasis. The detection of epistasis through statistical models presents several challenges for which we develop in this thesis a pair of adequate tools. The first tool, epiGWAS, uses causal inference to detect epistatic interactions between a target SNP and the rest of the genome. The second tool, kernelPSI, instead uses kernel methods to model epistasis between nearby single-nucleotide polymorphisms (SNPs). It also leverages post-selection inference to jointly perform SNP-level selection and gene-level significance testing. The developed tools are -- to the best of our knowledge -- the first to extend powerful statistical learning frameworks such as causal inference and nonlinear post-selection inference to GWAS. In addition to the methodological contributions, a special emphasis was placed on biological interpretation to validate our findings in multiple sclerosis and body-mass index variations.
Titre anglais : Detection of Epistasis in Genome Wide Association Studies with Machine Learning Methods for Therapeutic Target Identification.
Date de soutenance : jeudi 11 juin 2020 à 14h00
Adresse de soutenance : Mines ParisTech 60 Boulevard Saint-Michel 75272 Paris - Visio-Conférence, salle Vendôme
Directeurs de thèse : Chloé-Agathe AZENCOTT, Véronique STOVEN
Ecole
240 ans de recherche et de formation
Vidéo : 240ans de recherche
> En savoir +
Formation
Samuel Forest, élu membre de l’Académie des
Samuel Forest lors de sa réception à
> En savoir +
Formation
Mines Paris plébiscitée par ses étudiantes
Mines Paris - PSL, une école qui répond
> En savoir +
Formation
Corentin Gombert, prix de thèse de l’ARIMHE
Corentin Gombert, doctorant au CGS Mines Paris - PSL, lors de
> En savoir +
Formation
L'analyse d'images pour une médecine personnalisée du
L'interprétation des prédictions des
> En savoir +
Formation
Femmes de science
Chercheuses confirmées, doctorantes, élèves ou alumni,
> En savoir +
Voir l'agenda des formations et autres actualités
Consultez régulièrement les offres de formation