On recherche ensuite les modèles obtenus lors de l'extraction dans ces séquences shufflées, et on conserve les couvertures en séquences obtenues pour chaque modèle. On répète ces opérations de shuffling/recherche un certain nombre de fois afin de stabiliser la moyenne des résultats obtenus. Au terme du processus, cette moyenne est considérée comme la couverture du modèle due à la composition de la séquence. Si le modèle a une fonction biologique, on estime qu'il devrait apparaître plus fréquemment que ce qu'on observe dans les séquences shufflées.
Afin de mesurer ce caractère exceptionnel, on applique un test du z-score,
et le test du à un degré de liberté.
Au terme de la simulation, on dispose donc de deux mesures de la signification
statistique des modèles obtenus lors de l'extraction. Le ne permettant
pas de distinguer le jeu sur-représenté (la valeur produite indique juste
l'écart de cohérence entre les deux résultats) et n'étant pas normalisé, on se
base sur le z-score pour trier les résultats : du plus grand (le modèle est
sur-représenté par rapport à ce qu'on a obtenu par simulation) au plus
petit (le modèle est sous-représenté). Les valeurs de
viennent
confirmer ou altérer le classement obtenu grâce au z-score.
La méthode de simulation apporte de grands avantages et de grands inconvénients.
Côté avantages, elle permet d'obtenir une probabilité pour des modèles
complexes, qui est délicate à évaluer par des formules explicites de
probabilités. De plus, les probabilités obtenues semblent être assez fiables
quand un nombre suffisant de shufflings/recherches est réalisé.
Côté inconvénients, elle est assez coûteuse en calculs. La stabilisation des
résultats nécessite un nombre important de shufflings (nous validons nos
résultats avec mille shufflings en général).
L'évaluation est intégrée dans SMILE par le biais du fichier de paramètres décrit précédemment. Il suffit d'y ajouter les lignes suivantes :
EVALUATION (Step 2) ============================ Shufflings 100 Size k-mer 2 |
Ajoutée de la sorte dans le fichier de paramètres, la simulation est automatiquement enchaînée après l'extraction, avec les modèles obtenus. Un fichier est produit, qui contient les résultats de cette évaluation.