Janvier 2003 - n°74

Comment déduire une analyse fonctionnelle à partir de données d’expression brutes ? Réponse: Onto-express, l’outil logiciel adapté à ce besoin.

Par Manuel DUVAL, DNA ARRAY INC , email : manuel.duval@cdnaarray.com
http://www.DNAarray.com

Les technologies de mesure d’expression des gènes à haut débit (e.g. SAGE, puces à ADN) ont été initialement mises au point dans l’objectif d’attribuer une annotation aux gènes à la même cadence que ceux-ci étaient séquencés. Au cours des années 90, quand les grands projets de séquençage furent lancés, la communauté scientifique réalisa qu’il n’était plus possible d’élucider la fonction des gènes un par un, avec une approche expérimentale classique. Deux concepts principaux menèrent à la conception des microarrays destinées à la mesure des profils d’expression. Premièrement, c’est un fait que le phénomène le plus étroitement régulé de la biologie de la cellule est l’initiation de la transcription. Par voie de conséquence, tout gène dont le niveau de transcription est altéré au cours d’un processus biologique donné a toutes les chances d’être impliqué dans ce processus. Deuxièmement, tout réponse biologique, déclenchée par un stimulus donné, est la résultante d’une série d’événements, habituellement regroupés sous le terme de cascade. Ces séries d’événements de cause à effet sont supportés par des protéines, agissant l’une envers l’autre de manière successive, suivant des voies d’interaction bien définies. Ces enchaînements d’interaction sont communément dénommés voies d’activation. Typiquement, lors d’une expérience de cinétique conduite avec des puces à ADN, plusieurs sondes nucléiques peuvent être regroupées a condition que leur expression en fonction du temps puisse être corrélée. Celles pour qui la séquence représentait l’unique donnée expérimentale peuvent dès lors être assignées à une fonction relative au processus biologique à l’étude, par le fait d’être co-régulée avec d’autres séquences nucléiques représentatives de gènes déjà caractérisés. Ce concept a été formulé pour la première fois par Shena et al., 1995: «The temporal, developmental, topographical, histological, and physiological patterns in which a gene is expressed provide clues to its biological role».
Cela étant, les données acquises par les systèmes de mesure d’expression de gènes à haut débit contiennent des informations relatives à l’objet biologique à l’étude. Etant donné que les systèmes de capture de données à l’échelle du génome se sont développés depuis déjà plusieurs années, un plus grand nombre de gènes a déjà été annoté. Par conséquent, de la réponse à un événement biologique, évaluée par la mesure du transcriptome avec une approche à haut débit (e.g. SAGE et/ou puce à ADN), des éléments d’information sur la physiologie de l’objet biologique à l’étude peuvent être déduits. Un exemple remarquable de cette conduite déductive est la révélation de la façon dont les fibroblastes Humains répondent au sérum. Iyer et al., 1999 ont analysé les ARNm de fibroblastes avec une puce à ADN contenant 3700 sondes nucléiques et ont montré que ces cellules sont impliquées dans la physiologie de la résorption de la plaie.
En d’autres termes, toutes expériences de profil d’expression délivrent des données qui peuvent potentiellement servir d’une part à annoter des séquences nucléiques, d’autre part à produire des évidences sur l’implication de tel ou tel gène dans l’initiation d’un phénomène biologique (e.g. dans la survenue d’une pathologie) et également dans la description au niveau moléculaire de systèmes biologiques. Cette dernière analyse nécessite de traduire le résultat d’une expérience de profil d’expression, représenté typiquement par des fichiers contenant une liste d’identificateurs de gènes, en une représentation révélant des informations au niveau biologique. L’accomplissement d’une telle analyse dépend à la fois d’une nomenclature standard appliquée aux gènes et également d’un système de récupération de cette structure de données de façon automatique à partir d’un fichier d’entrée ne contenant que des listes d’identificateurs de gènes. La première tâche qui consiste à spécifier les standards de dénomination est entreprise par un groupe d’administrateurs des principales bases de données génomiques, rassemblé sous la bannière du GENE ONTOLOGYTM CONSORTIUM (GO). Le GO consortium spécifie un «dynamic controlled vocabulary that can be applied to all organisms even as knowledge of gene and protein roles in cells is accumulating and changing» (http://www.geneontology.org/). A chaque produit de gènes est assigné, autant que faire se peut, i.e. eu égard à l’état des connaissances les plus récentes, trois attributs:
(I) sa ou ses fonction(s) moléculaire(s);
(II) dans quel(s) processus biologique(s) il est impliqué;
(III) de quel(s) composant(s) cellulaire(s) il rentre dans la composition.

Toute chose étant égale par ailleurs, la structuration de données génétiques spécifiée par le GO consortium s’apparente à la classification des atomes dans la table périodique des éléments. La tâche qui consiste tout d’abord en la récupération automatique des attributs biologiques en fonction des identificateurs de gènes et par la suite en la représentation graphique du résultat de la requête, requiert un outil logiciel sophistiqué. Onto-express a été mis au point précisément pour combler cette demande (http://vortex.cs.wayne.edu/Projects.html). Onto-express repose sur une base de données relationnelles exhaustives, comprenant les séquences génétiques annotées à partir de plusieurs sources de données, incluant LocusLink et RefSeq, UniGene, dbEST (partitions de GeneBank adminitrées par le NCBI), Gene Ontology, KEGG Genes, KEGG Ligand et KEGG Pathways. A l’heure actuelle, la base de données contient des informations sur plus de six millions de données de séquences et est hébergée au Département de Computer Science, Wayne State University, USA. Le logiciel Onto-Express examine les annotations et retourne un profil fonctionnel du système biologique à l’étude. Pour chaque ensemble de gènes dont il a été montré que ceux-ci étaient exprimés différentiellement suivant une condition expérimentale donnée, Onto-express construit un certain nombre de profiles fonctionnels. Ces profils fonctionnels incluent : les fonctions biochimiques, les processus biologiques, les composants cellulaires, les fonctions cellulaires et enfin la localisation des gènes sur la carte physique du génome. Onto-express délivre ces informations sous forme de représentations graphiques dénommées ontogénies. L’ontogénie d’un système biologique peut être par exemple représentée sous la forme de cercles pleins avec les différentes fractions exprimant le niveau relatif des processus biologiques affectés par l’expérience à l’étude. Une fonction absolument décisive de Onto-express Version V2 est qu’à chaque résultat est associée une valeur de signification statistique. Cette fonctionnalité permet aux chercheurs de distinguer les processus biologiques significativement altérés au cours de l’expérience par opposition à ceux dont la variation est survenue par chance ou par une cause extérieure à celle à l’étude.
Représentation graphique d’une ontogénie délivrée par Onto-express

Onto-express, comment en bénéficier ?

1. avec un simple navigateur web, l’utilisateur ouvre l’URL suivante: http://www.openchannelfoundation.org/asp/asp_subscribe2.php?group_id=231
2. dans la fenêtre de chargement des données, l’utilisateur attache un fichier contenant une liste de gènes organisé par numéro d’accession (GenBank), ou numéro de cluster UniGene ou par numéro d’identification Affymetrix.
3. pour chaque gène du fichier d’entré, Onto-express crée une liste des catégories fonctionelles associée à ce gène.
4. Onto-express examine ses bases de données, incluant notamment LocusLink, Ensembl et des données internes.
5. les profils fonctionnels sont retournés à l’utilisateur, sous forme de représentations graphiques (e.g. histogrammes dont la longueur des barres dépend de la fréquence à laquelle une fonction donnée, déduite du profil d’expression, prévaut dans le système biologique à l’étude).
6. en cliquant sur une des barres de l’histogramme, une fenêtre renvoie la liste des gènes présents dans le fichier d’entrée et associés à cette fonction
7. depuis cette liste de gènes, des liens directs sur les principales bases de donnés (e.g, GeneBank au NCBI) sont prévus.