• Réduire le texte
  • Rétablir taille du texte
  • Augmenter le texte
  • Imprimer

Les bonnes pratiques statistiques pour l'analyse différentielle du séquençage de l’ARN 

Les techniques de séquençage haut-débit permettent désormais une analyse quantitative du transcriptome où plusieurs facteurs biologiques peuvent varier. Des chercheurs Inra et leurs collègues ont développé un cadre réaliste d'évaluation des méthodes d'analyse différentielle, établi les points clés pour obtenir une analyse statistique puissante et robuste et identifié un indicateur de qualité de l'analyse. 

Structure tridimentionnelle des ARN non-codants. © inra
Publié le 02/08/2017

Les techniques de séquençage haut-débit permettent d’accéder à un niveau de détails jamais atteint dans l’analyse du transcriptome, c’est-à-dire de l'ensemble des ARN issus de la transcription du génome. Dans le cadre de la biologie végétale, cela s’accompagne également par une complexification des plans d’expérience qui incorporent plusieurs facteurs (génotype, traitement, cinétique…). Pour interpréter correctement la masse de données ainsi générée, des procédures d’analyse puissantes et robustes sont nécessaires et de nombreuses méthodes ont été publiées ces dernières années. Ces méthodes d’analyse d’expression différentielle se différencient principalement leurs choix techniques concernant la modélisation des comptages, le calcul de la dispersion et le filtrage des données. Les performances de ces méthodes sont très difficilement évaluables sur des données réelles. C’est pourquoi leur évaluation se fait généralement dans un cadre de simulation qui n’est pas forcément représentatif de la réalité. En pratique, le biologiste qui doit analyser ses données de séquençage de l’ARN (RNA-seq) se trouve devant un large éventail de méthodes - chacune ayant de nombreux paramètres - et sans critère qui lui permette d’évaluer la qualité de son analyse.

Dans le cadre de l’activité de développement de la plateforme de transcriptomique POPS, des chercheurs de l'Inra et leurs collègues ont développé un cadre d’évaluation issu de données réelles et permettant d’estimer les principaux critères de performance des méthodes d’analyse différentielle (puissance et spécificité notamment) au cours de différents scénarios. Cela a permis d’estimer l’influence relative des choix de modélisation des comptages, de calcul de la dispersion et de filtrage des données sur les performances et d’identifier un critère de qualité d’analyse applicable à n’importe quel jeu de données.

En comparant les méthodes actuelles d’analyse différentielle, les scientifiques ont montré qu’une modélisation appropriée des données par l’utilisation d’un modèle linéaire généralisé intégrant les facteurs pertinents du plan d’expérience est le paramètre le plus important pour une analyse différentielle performante et pertinente. Par exemple, dans le cadre de l’expérimentation végétale, la prise en compte d’un effet « réplicat » améliore sensiblement les performances.

La visualisation de l’histogramme des probabilités critiques non ajustées fournit également une évaluation robuste de la performance de l’analyse différentielle. Par cette observation, le biologiste peut ajuster les paramètres de son analyse différentielle aux spécificités de son jeu de données pour obtenir la meilleure analyse possible.

 

Aujourd'hui, les résultats de ce travail sont mis en œuvre dans les pipelines d’analyse de la plateforme POPS et des formations sur les méthodes d’analyse du RNA-seq à destination des étudiants et des chercheurs sont mises en place.

En savoir plus

Guillem Rigaill, Sandrine Balzergue, Véronique Brunaud, Eddy Blondet, Andrea Rau, Odile Rogier, José Caius, Cathy Maugis-Rabusseau, Ludivine Soubigou-Taconnat, Sébastien Aubourg, Claire Lurin, Marie-Laure Martin-Magniette, and Etienne Delannoy. Synthetic data sets for the identification of key ingredients for RNA-seq differential analysis. Brief Bioinform 2016 bbw092. doi: 10.1093/bib/bbw092