next up previous
suivant: Contre un autre jeu monter: Méthode d'évaluation statistique précédent: Méthode d'évaluation statistique

Simulation par shuffling

Cette méthode consiste à générer un jeu de $ N$ séquences aléatoires dont la $ i^{\text{ème}}$ possède la même composition en $ k$-mers que la $ i^{\text{ème}}$ des $ N$ séquences originales. On appelle ces séquences des séquences shufflées et le processus de mélange shuffling.

On recherche ensuite les modèles obtenus lors de l'extraction dans ces séquences shufflées, et on conserve les couvertures en séquences obtenues pour chaque modèle. On répète ces opérations de shuffling/recherche un certain nombre de fois afin de stabiliser la moyenne des résultats obtenus. Au terme du processus, cette moyenne est considérée comme la couverture du modèle due à la composition de la séquence. Si le modèle a une fonction biologique, on estime qu'il devrait apparaître plus fréquemment que ce qu'on observe dans les séquences shufflées.

Afin de mesurer ce caractère exceptionnel, on applique un test du z-score, et le test du $ \chi^2$ à un degré de liberté.

Au terme de la simulation, on dispose donc de deux mesures de la signification statistique des modèles obtenus lors de l'extraction. Le $ \chi^2$ ne permettant pas de distinguer le jeu sur-représenté (la valeur produite indique juste l'écart de cohérence entre les deux résultats) et n'étant pas normalisé, on se base sur le z-score pour trier les résultats : du plus grand (le modèle est sur-représenté par rapport à ce qu'on a obtenu par simulation) au plus petit (le modèle est sous-représenté). Les valeurs de $ \chi^2$ viennent confirmer ou altérer le classement obtenu grâce au z-score.

La méthode de simulation apporte de grands avantages et de grands inconvénients. Côté avantages, elle permet d'obtenir une probabilité pour des modèles complexes, qui est délicate à évaluer par des formules explicites de probabilités. De plus, les probabilités obtenues semblent être assez fiables quand un nombre suffisant de shufflings/recherches est réalisé. Côté inconvénients, elle est assez coûteuse en calculs. La stabilisation des résultats nécessite un nombre important de shufflings (nous validons nos résultats avec mille shufflings en général).

L'évaluation est intégrée dans SMILE par le biais du fichier de paramètres décrit précédemment. Il suffit d'y ajouter les lignes suivantes :

EVALUATION (Step 2) ============================
Shufflings                      100
Size k-mer                      2
La première ligne de paramètres indique le nombre de shufflings à réaliser lors de la simulation, la seconde la longueur des mots à conserver lors de ces shufflings. On conserve en général les di- ou tri-nucléotides. Des tests présentés en annexe font état de la variation des résultats observés en fonction de la longueur des $ k$-mers conservés lors des shufflings.

Ajoutée de la sorte dans le fichier de paramètres, la simulation est automatiquement enchaînée après l'extraction, avec les modèles obtenus. Un fichier est produit, qui contient les résultats de cette évaluation.


next up previous
suivant: Contre un autre jeu monter: Méthode d'évaluation statistique précédent: Méthode d'évaluation statistique
Marsan Laurent 2002-04-16