Diversité et évolution d'Escherichia coli : perspectives ouvertes par l'étude de 80 000 génomes

Lucile Vigue

13 septembre 2023

Thèse

Infos pratiques

14h - 23h
Salle Rosalind Franklin
Professionnel de recherche
Accès mobilité réduite

Thèse effectuée sous la direction d'Olivier Tenaillon au sein de IAME (faculté de médecine de l'hôpital Bichat) et de l'équipe Robustesse et évolvabilité de la vie dirigée par Ivan Matic

Résumé :

Bactérie commensale de l’intestin de l’homme et de nombreux vertébrés, Escherichia coli est aussi un pathogène mortel responsable de 950,000 morts par an dans le monde. Organisme généraliste capable de s’adapter à différentes niches écologiques, il s’agit d’une espèce de choix pour étudier l’évolution sur différentes échelles de temps. Son statut d’organisme modèle en biologie et son importance pour la santé humaine ont favorisé le séquençage de très nombreuses souches dans le monde entier. L’objectif de cette thèse est d’analyser la diversité présente dans 81 440 de ces génomes et de comprendre comment celle-ci peut nous informer sur les processus évolutifs à l’œuvre dans cette espèce.

Les 81 440 génomes rassemblés couvrent la diversité naturelle d’Escherichia coli. Les souches isolées chez l’humain et plus précisément dans un contexte clinique sont largement représentées. En particulier, 11 000 de ces génomes sont des Shigella, des souches pathogènes obligatoires des primates ayant adopté un mode de vie intra-cellulaire. Pour étudier ces 81 440 génomes, j’en ai extrait les séquences codantes que j’ai organisées dans une base de données. Une comparaison du core génome de ces souches m’a permis de les répartir en 240 clusters à partir desquels j’ai pu inférer une phylogénie globale de l’espèce corrigée pour la recombinaison.
 
Afin d’analyser plus en profondeur les profils mutationnels, j’ai employé le Direct-Coupling Analysis (DCA). Cette approche issue de la physique statistique permet de prédire l’effet d’une mutation survenant dans un gène et induisant un changement d’acide aminé dans la protéine correspondante. En modélisant les interactions entre paires d’acides aminés au sein de la protéine, le DCA permet de prendre en compte le contexte génétique dans lequel la mutation survient.

En appliquant le DCA à des milliers de core gènes d’E. coli, j’ai montré qu’il pouvait prédire les acides aminés natifs de cette espèce mais aussi les polymorphismes qui y sont observés. Le DCA prédit également la probabilité d’observer une mutation à une certaine fréquence. Ce faisant, il permet de mettre en évidence des différences d’efficacité de la sélection naturelle entre différentes sous-populations d’E. coli. En particulier, la sélection naturelle semble nettement moins efficace dans les souches de Shigella, en accord avec la taille efficace réduite de cette population.

Le contexte génétique s’est avéré clé dans la qualité des prédictions faites par le DCA. Ce contexte se construit sur des échelles de temps longues par l’addition de nombreuses interactions faibles entre acides aminés. Celles-ci n’affectent pas tous les résidus d’une protéine de la même manière. Le DCA permet de prédire la variabilité de ces résidus. En particulier, entre 30% et 50% des sites d’une protéine sont extrêmement contraints par le contexte génétique d’E. coli. Une mutation sur l’un de ces sites sera généralement délétère si elle survient seule. Ces sites ne tolèrent donc pratiquement pas de polymorphismes. Cependant ils peuvent coévoluer sur de longues échelles de temps de sorte que les acides aminés qui y sont observés varient largement d’une espèce à l’autre.
 
Si les différents résidus d’une protéine peuvent évoluer à différentes vitesses, il en est de même des protéines. J’ai développé un test de sélection, basé sur le DCA, permettant de comparer les gènes entre eux. À court terme les gènes essentiels sont ceux sous la plus forte pression de sélection purifiante tandis que le niveau d’expression détermine le taux d’évolution à long terme. Ce test détecte aussi des inactivations de régulateurs de la transcription, inactivations qui semblent sélectionnées à court-terme mais contre-sélectionnées sur le plus long terme.

Le présent travail démontre l’intérêt de coupler l’étude de larges banques de génomes à des approches de modélisation pour comprendre l’évolution d’une espèce sur différentes échelles de temps.