• Document: Analyse de données RNAseq sous Galaxy : l'exemple du poulet
  • Size: 3.28 MB
  • Uploaded: 2018-10-11 14:26:40
  • Status: Successfully converted


Some snippets from your converted document:

Analyse de données RNAseq sous Galaxy : l'exemple du poulet Pierre François Roux & Sandrine Lagarrigue, Laboratoire de Génétique, UMR INRA Agrocampus Ouest  PEGASE Rennes/St‐Gilles  Yvan Le Bras, Projet e‐Biogenouest, CNRS UMR 6074 IRISA‐INRIA, Rennes  I. Analyse RNA‐seq sous Galaxy : Overview Standardisation et exploration des données Alignement des lectures sur un génome de référence   Nettoyage des données et statistiques d'alignement   Assemblage de transcrits, trouver les gènes et transcripts différentiellement exprimés et comptage du nombre de lectures par composant (exon)   Analyse de l'expression différentielle de gènes à partir de comptages     II. Analyse RNA‐seq sous Galaxy : Le cas du poulet Récupération des données ‐ #0C# Récupération des données brutes pairées dans Shared data/data libraries/1 Galaxy teaching  folder/2015_RNAseqAO    ‐ #0D# Récupération du génome de référence, ici le chromosome 19 de Gallus gallus également dans  Shared data/data libraries/1 Galaxy teaching folder/2015_RNAseqAO    NB : Si vos données sont hébergées quelquepart sur le cluster de GenOuest, vous pouvez également  directement les importer en utilisant l'outil Genolink comme présenté ici:    Nettoyage et vérification de la qualité ‐ #0E# Vérifier le format des fastQ avec FastQ Groomer pour mettre en format fastqsanger puis  regarder la qualité des données en utilisant FastQC    Le fichier de sortie est un rapport html constitué de plusieurs parties :    Quelques statistiques simples sur le fichier analysé. On y trouve notamment le type d'encodage ASCII  utilisé pour les valeurs de qualité, le nombre de séquences filtrées si utilisé en mode Casava ainsi que  le taux de GC (régions génomiques enrichies en GC sont en moyenne enrichies en gènes, avec plus  d'exons que d'introns)    La ligne rouge représente la valeur moyenne de score. La boîte jaune représente la répartition des  valeurs  inter‐quartiles  (25‐75%).  Le  haut  et  le  bas  des  moustaches  représentent  les  points  à  respectivement  90%  et  10%.  La  ligne  bleue  représente  la  qualité  moyenne  par  position.  Les  différentes parties du graphique (vert, orange, rouge) représentent respectivement des qualités très  bonnes,  raisonnablement  bonnes  et  faible.  Comme  la  qualité  se  dégrade  en  général  au  fur  et  à  mesure que le run de séquençage progresse, les valeurs ont tendance à diminuer vers la droite du  graphe.   Un  warning  est  mis  si  une  des  valeurs  de  quartile  inférieur  est  en  dessous  de  10  ou  si  la  valeur  médiane d'une base est inférieure à 25. Erreur quand premier quartile<5 ou médiane<20.    La  répartition  du  nombre  de  séquences  par  scores  permet  de  voir  si  un  sous‐jeu  de  séquences  présente  une  faible  qualité,  ce  qui  peut  être  le  cas  notamment  si  elles  ont  mal  été  capturées  sur  image  (sur  le  bord  du  champ  de  vision  de  l'appareil  par  exemple).  Cela  peut  révéler  un  problème  systématique pendant le run correspondant à une partie de la flowcell par exemple.  Un warning est indiqué quand le pic est en dessous de 27 (taux d'erreur de 0.2%). Un échec quand en  dessous de 20 (taux d'erreur de 1%).    Dans  une  librairie  "randomisée",  nous  nous  attendrions  à  peu  voire  aucune  différence.  Quand  une  forte différence est observée, cela vient souvent du fait de séquences sur représentées contaminant  la librairie.

Recently converted files (publicly available):