Méthodes comparatives de prédiction de gènes :
jeux de données utilisés pour l'évalutation
Philippe Blayo
juin 2003
Comme il est dit dans [Parra-2003], il n'existe aucun standard bien
établi pour évaluer les prédictions de gènes.
Les travaux les plus récents [Meyer-2002, Rinner-2002, Pedersen-2003, Parra-2003]
font référence au jeu
de 117 paires d'orthologues homme/souris de [Batzoglou-2000].
Ce jeu a en effet servi à évaluer GLASS/ROSETTA, la première méthode
comparative publiée [Batzoglou-2000].
Des travaux moins récents font davantage référence au jeu de 77 gènes de
N. Jareborg [Jareborg-1999].
1 Le jeu de 117 orthologues homme/souris
Ce jeu de 117 orthologues homme/souris a été constitué à partir d'un jeu
de 1196 paires d'ARNm de [Makalowski-1996] (une petite partie étant des
protéines plutot que des ARNm). Une recherche des
séquences génomiques d'homme et de souris pouvant être à l'origine de
ces ARNm a été effectuée dans GenBank release 109 (octobre 1998).
Ont été retenues les paires dont chacun des deux éléments correspondait
à une séquence qui comprenait tous les exons codants.
L'un des buts de l'obtention de ce jeu était d'étudier la conservation
des structures
intron/exon entre gènes orthologues homme/souris. Le jeu de 1196 paires
d'ARNm ne permettait en effet d'étudier que la conservation au niveau
du transcrit.
Ce sont à chaque fois des sous-ensembles, toujours différents qui sont
employés :
- 117 pour AGenDA [Rinner-2002].
- 116 pour SGP-1 [Wiehe-2001] sans précision sur la séquence retirée.
- 110 pour SGP-2 [Parra-2003],
sans les séquences contenant plusieurs gènes et
celles où la région codante commence à la position 1 dans l'une des
séquences.
- 80 pour DoubleScan [Meyer-2002], sans les sites d'épissage
qui ne correspondent pas à ceux acceptés par DoubleScan.
- 116 pour EvoGene [Pedersen-2003], sans la paire du gène
Fabpi de la souris (annotation incomplète).
La séquence de souris U44024 comporte 3 annotations d'ARNm différents,
correspondant à trois isoformes. Seule l'une de ces annotation est
reprise dans l'annotation du CDS.
Il semblerait que seule cette annotation de CDS soit utilisée pour
l'évaluation.
On peut pourtant se demander pourquoi une méthode qui prédirait
un autre isoforme ne serait pas considérée comme exacte ?
Le jeu des 1196 paires d'ARNm était accessible à l'adresse (la page
a disparu) :
http://www.ncbi.nlm.nih.gov/Makalow/mus-art/article.html
Le jeu des 117 paires de séquences génomiques est disponible à l'adresse :
http://crossspecies.lcs.mit.edu/
Ce jeu comportait au départ 42 paires de séquences contenant un total
de 77 paires de gènes. Dans [Jareborg-1999], il est dit que cet
ensemble provenait d'ensembles plus anciens de ADNc, mais je n'ai pas
trouvé plus de précisions.
Ce jeu n'est pas complètement disjoint de celui des 117 orthologues
précédents (certains gènes sont dans les deux jeux).
Ce jeu de 77 paires de gènes a rarement été utilisé tel quel.
La plupart du temps, un nouveau sous-ensemble (toujours plus petit) est
employé :
- 77 gènes dans 42 séquences [Morgenstern-2002]
- 60 gènes pour CEM [Bafna-2000]
- 39 gènes SGP-1 (sur 57 au départ)
- 36 gènes dans 36 séquences pour DoubleScan
- 27 pour SGP-2
Les raisons pour exclure des séquences sont :
-
CEM : prédictions hypothétiques, séquences répétées dans les exons,
erreur d'annotation.
- SGP-1 : (ensemble d'entrainement) séquences redondantes avec les 117
de [Batzoglou-2000].
- DoubleScan : (ensemble d'entrainement) site d'épissage en dehors du
concensus, annotations incorrectes.
- SGP-2 :
Voir http://www.sanger.ac.uk/Software/Alfresco/mmhs.shtml pour le
jeu d'origine.
3 Jeux utilisés dans un seul article
3.1 Les jeux de TWINSCAN
Dans le cas de [Korf-2001],
le premier jeu est construit de la manière suivante :
-
On part des 86 sequences génomiques de souris de plus de 30 Kb présentes dans
GenBank release 121 (fin 2000 / début 2001).
- On retire les séquences qui contiennent un gène :
-
qui n'est pas confirmé par un
transcrit ou une protéine. Cette confirmation nécessite soit une similarité avec un
transcrit, soit des similarités avec deux protéines (l'une des protéines pouvant
provenir de l'annotation elle-même).
- dont la présence n'est pas signalée (annotation manquante). Un gène est
considéré manquant lorsqu'une similarité forte avec une protéine
(P-value supérieure à 1e-5 et identité supérieure à 50%) est découverte sans
qu'elle soit signalée par un CDS annoté. Un problème se pose pour les pseudogènes
qui ressemble à des CDS non-annotés à cause de bon alignements par BLASTX.
Sont considérés comme pseudogènes les résultats de BLASTX qui comportent des
codons stop en phase ou des décalages de phase.
18 séquences comportant un gène non-confirmé ou manquant sont ainsi éliminées
des 86 initiales.
Ce premier jeu de TWINSCAN n'est pas exploitable dans le cas d'Utopia
(ou de toute autre méthode qui utilise deux séquences) car
il est constitué non pas de paires de séquences apparentées, mais
de gènes indépendants les uns des autres.
Le second jeu est constitué de 8 séquences de souris parmi les 86
précédentes. À ces 8 séquences de souris sont adjoints leurs orthologues
supposés chez l'homme.
Pour chaque paire , c'est le résultat d'un BLAST qui établit le lien
entre séquence de souris et d'homme.
Une annotation manuelle est ensuite réalisée en parallèle.
Les similarités avec des protéines et des transcrits sont mentionnées,
mais il est clairement dit que ce sont les similarités au niveau ADN
qui ont guidé l'annotation (l'annotateur avoue être biaisé de
ce coté).
On ne peut donc absolument pas dire que ces séquences d'homme soient
supportées par des transcrits ou des protéines.
3.2 Des jeux de SGP-2
Deux autres jeux sont utilisé en plus de ceux déjà cités :
-
Les 554 gènes annotés dans le chromosome 22 humain.
- 12 paires de gènes obtenus par une méthode originale :
elles sont issues de protéines homme/souris qui partageant un même début
de nom de locus dans SWISSPROT et pour pour lesquelles il a été possible
de remonter jusqu'aux séquences génomiques (3 sur les 15 satisfaisant ces
critères ont été retirées pour cause d'annotation suspecte).
3.3 Les jeux de Pro-Gen
Dans l'article qui présente Pro-Gen [Novichkov-2001], le programme
est évalué uniquement sur des jeux construits pour l'occasion :
70 paires homme/souris, 14 paires homme/Xenopus et
24 paires homme/drosophyle.
Les paires de vertébrés sont issues de HOVERGEN.
Les paires homme/souris viennent de Berkeley.
Seules des paires de protéines dont l'identité dépasse 50% ont été
retenues. Les raisons données pour le choix de ce seuil de 50% sont :
- l'orthologie est moins probable à des degrés d'identités inférieurs;
- une expérience pilote sur des séquences simulées a montré un effondrement
des performance en dessous de ce seuil.
Références
- [Bafna-2000]
-
Bafna, V. and Huson, D. (2000).
The conserved exon method for gene finding.
In ISMB 2000.
- [Batzoglou-2000]
-
Batzoglou, S., Pachter, L., Mesirov, J., Berger, B., and Lander, E. S. (2000).
Human and mouse gene structure: Comparative analysis and application
to exon prediction.
In Proceedings of RECOM, pages 38--47. ACM, New York.
- [Jareborg-1999]
-
Jareborg, N., Birney, E., and Dubin, R. (1999).
Comparative analysis of noncoding regions of 77 orthologous mouse and
human gene pairs.
Genome Res., 9:815--824.
- [Korf-2001]
-
Korf, I., Flicek, P., Duan, D., and Brent, M. (2001).
Integrating genomic homology into gene structure prediction.
Bioinformatics, 1:S1--S9.
- [Makalowski-1996]
-
Makalowski, W., Zhang, J., and Boguski., M. S. (1996).
Comparative analysis of 1196 orthologous mouse and human full-length
mrna and protein sequences.
Genome Research, 6(9):846--857.
- [Meyer-2002]
-
Meyer, I. and Durbin, R. (2002).
Comparative ab initio prediction of gene structures using pair hmms.
Bioinformatics, 18:1309--1318.
- [Morgenstern-2002]
-
Morgenstern, B., Rinner, O., Abdeddaïm, S., Haase, D., Mayer, K. F. X., Dress,
A., and Mewes, H. (2002).
Exon discovery by genomic sequence alignment.
Bioinformatics, 18:777--787.
- [Novichkov-2001]
-
Novichkov, P., Gelfand, M., and Mironov, A. (2001).
Gene recognition in eukaryotic dna by comparison of genomic
sequences.
Bioinformatics, 17:1011--1018.
- [Parra-2003]
-
Parra, G., Agarwal, P., Abril, J., Wiehe, T., Fickett, J., and Guigó, R.
(2003).
Comparative gene prediction in human and mouse.
Genome Research, 13:108--117.
- [Pedersen-2003]
-
Pedersen, J. and Hein, J. (2003).
Gene finding with a hidden markov model of genome structure and
evolution.
Bioinformatics, 19:219--227.
- [Rinner-2002]
-
Rinner, O. and Morgenstern, B. (2002).
AGenDA: Gene prediction by comparative sequence analysis.
In Silico Biology 2, 0018.
- [Wiehe-2001]
-
Wiehe, T., Gebauer-Jung, S., Mitchell-Olds, T., and Guigó, R. (2001).
SGP-1: Prediction and validation of homologous genes based on
sequence alignments.
Genome Research, 11:1574--1583.
Philippe Blayo