Méthodes comparatives de prédiction de gènes :
jeux de données utilisés pour l'évalutation

Philippe Blayo

juin 2003

Comme il est dit dans [Parra-2003], il n'existe aucun standard bien établi pour évaluer les prédictions de gènes.

Les travaux les plus récents [Meyer-2002, Rinner-2002, Pedersen-2003, Parra-2003] font référence au jeu de 117 paires d'orthologues homme/souris de [Batzoglou-2000]. Ce jeu a en effet servi à évaluer GLASS/ROSETTA, la première méthode comparative publiée [Batzoglou-2000].

Des travaux moins récents font davantage référence au jeu de 77 gènes de N. Jareborg [Jareborg-1999].

1  Le jeu de 117 orthologues homme/souris

Ce jeu de 117 orthologues homme/souris a été constitué à partir d'un jeu de 1196 paires d'ARNm de [Makalowski-1996] (une petite partie étant des protéines plutot que des ARNm). Une recherche des séquences génomiques d'homme et de souris pouvant être à l'origine de ces ARNm a été effectuée dans GenBank release 109 (octobre 1998). Ont été retenues les paires dont chacun des deux éléments correspondait à une séquence qui comprenait tous les exons codants.

L'un des buts de l'obtention de ce jeu était d'étudier la conservation des structures intron/exon entre gènes orthologues homme/souris. Le jeu de 1196 paires d'ARNm ne permettait en effet d'étudier que la conservation au niveau du transcrit.

Ce sont à chaque fois des sous-ensembles, toujours différents qui sont employés :

La séquence de souris U44024 comporte 3 annotations d'ARNm différents, correspondant à trois isoformes. Seule l'une de ces annotation est reprise dans l'annotation du CDS. Il semblerait que seule cette annotation de CDS soit utilisée pour l'évaluation. On peut pourtant se demander pourquoi une méthode qui prédirait un autre isoforme ne serait pas considérée comme exacte ?

Le jeu des 1196 paires d'ARNm était accessible à l'adresse (la page a disparu) :
http://www.ncbi.nlm.nih.gov/Makalow/mus-art/article.html
Le jeu des 117 paires de séquences génomiques est disponible à l'adresse :
http://crossspecies.lcs.mit.edu/

2  Le jeu de N. Jareborg [Jareborg-1999]

Ce jeu comportait au départ 42 paires de séquences contenant un total de 77 paires de gènes. Dans [Jareborg-1999], il est dit que cet ensemble provenait d'ensembles plus anciens de ADNc, mais je n'ai pas trouvé plus de précisions. Ce jeu n'est pas complètement disjoint de celui des 117 orthologues précédents (certains gènes sont dans les deux jeux).

Ce jeu de 77 paires de gènes a rarement été utilisé tel quel. La plupart du temps, un nouveau sous-ensemble (toujours plus petit) est employé :

Les raisons pour exclure des séquences sont :

Voir http://www.sanger.ac.uk/Software/Alfresco/mmhs.shtml pour le jeu d'origine.

3  Jeux utilisés dans un seul article

3.1  Les jeux de TWINSCAN

Dans le cas de [Korf-2001], le premier jeu est construit de la manière suivante :

Ce premier jeu de TWINSCAN n'est pas exploitable dans le cas d'Utopia (ou de toute autre méthode qui utilise deux séquences) car il est constitué non pas de paires de séquences apparentées, mais de gènes indépendants les uns des autres.

Le second jeu est constitué de 8 séquences de souris parmi les 86 précédentes. À ces 8 séquences de souris sont adjoints leurs orthologues supposés chez l'homme. Pour chaque paire , c'est le résultat d'un BLAST qui établit le lien entre séquence de souris et d'homme. Une annotation manuelle est ensuite réalisée en parallèle. Les similarités avec des protéines et des transcrits sont mentionnées, mais il est clairement dit que ce sont les similarités au niveau ADN qui ont guidé l'annotation (l'annotateur avoue être biaisé de ce coté). On ne peut donc absolument pas dire que ces séquences d'homme soient supportées par des transcrits ou des protéines.

3.2  Des jeux de SGP-2

Deux autres jeux sont utilisé en plus de ceux déjà cités :

3.3  Les jeux de Pro-Gen

Dans l'article qui présente Pro-Gen [Novichkov-2001], le programme est évalué uniquement sur des jeux construits pour l'occasion : 70 paires homme/souris, 14 paires homme/Xenopus et 24 paires homme/drosophyle. Les paires de vertébrés sont issues de HOVERGEN. Les paires homme/souris viennent de Berkeley. Seules des paires de protéines dont l'identité dépasse 50% ont été retenues. Les raisons données pour le choix de ce seuil de 50% sont :

Références

[Bafna-2000]
Bafna, V. and Huson, D. (2000). The conserved exon method for gene finding. In ISMB 2000.

[Batzoglou-2000]
Batzoglou, S., Pachter, L., Mesirov, J., Berger, B., and Lander, E. S. (2000). Human and mouse gene structure: Comparative analysis and application to exon prediction. In Proceedings of RECOM, pages 38--47. ACM, New York.

[Jareborg-1999]
Jareborg, N., Birney, E., and Dubin, R. (1999). Comparative analysis of noncoding regions of 77 orthologous mouse and human gene pairs. Genome Res., 9:815--824.

[Korf-2001]
Korf, I., Flicek, P., Duan, D., and Brent, M. (2001). Integrating genomic homology into gene structure prediction. Bioinformatics, 1:S1--S9.

[Makalowski-1996]
Makalowski, W., Zhang, J., and Boguski., M. S. (1996). Comparative analysis of 1196 orthologous mouse and human full-length mrna and protein sequences. Genome Research, 6(9):846--857.

[Meyer-2002]
Meyer, I. and Durbin, R. (2002). Comparative ab initio prediction of gene structures using pair hmms. Bioinformatics, 18:1309--1318.

[Morgenstern-2002]
Morgenstern, B., Rinner, O., Abdeddaïm, S., Haase, D., Mayer, K. F. X., Dress, A., and Mewes, H. (2002). Exon discovery by genomic sequence alignment. Bioinformatics, 18:777--787.

[Novichkov-2001]
Novichkov, P., Gelfand, M., and Mironov, A. (2001). Gene recognition in eukaryotic dna by comparison of genomic sequences. Bioinformatics, 17:1011--1018.

[Parra-2003]
Parra, G., Agarwal, P., Abril, J., Wiehe, T., Fickett, J., and Guigó, R. (2003). Comparative gene prediction in human and mouse. Genome Research, 13:108--117.

[Pedersen-2003]
Pedersen, J. and Hein, J. (2003). Gene finding with a hidden markov model of genome structure and evolution. Bioinformatics, 19:219--227.

[Rinner-2002]
Rinner, O. and Morgenstern, B. (2002). AGenDA: Gene prediction by comparative sequence analysis. In Silico Biology 2, 0018.

[Wiehe-2001]
Wiehe, T., Gebauer-Jung, S., Mitchell-Olds, T., and Guigó, R. (2001). SGP-1: Prediction and validation of homologous genes based on sequence alignments. Genome Research, 11:1574--1583.

Philippe Blayo

Valid XHTML 1.0 Strict Valid CSS!