next up previous
suivant: Bibliographie monter: Sorties précédent: Après extraction

Après évaluation

Le fichier produit au terme d'une évaluation se présente sous la forme suivante :
STATISTICS ON THE NUMBER OF SEQUENCES HAVING AT LEAST ONE OCCURRENCE
Model             %right #right  %shfl.  #shfl.   Var.    Chi2  Z-score
=======================================================================
TTGCGC_TATAATGC   2.27%      10   0.01%    0.03   0.18    10.02   56.61
TTGCGC_ATAATGC    2.04%       9   0.03%    0.12   0.35    8.73    25.50
TCTTGA_GCTATA     2.04%       9   0.04%    0.18   0.41    8.55    21.28
TGCTTG_GTATAA     2.49%      11   0.06%    0.27   0.53    10.35   20.30
CTTGAA_GCTATA     2.04%       9   0.05%    0.20   0.45    8.50    19.41
GCTTGA_GTATAA     2.04%       9   0.05%    0.22   0.47    8.46    18.69
CTTGAC_TATAAT     2.27%      10   0.07%    0.29   0.52    9.28    18.53
TTGACT_ATAATG     2.49%      11   0.09%    0.38   0.61    10.05   17.48
TTCACA_CGATAA     2.04%       9   0.06%    0.27   0.52    8.32    16.82
GCTTGA_TATAAT     2.27%      10   0.08%    0.34   0.58    9.14    16.64
TTGACT_TAAAAT     2.95%      13   0.14%    0.60   0.80    11.48   15.57
TTTGTT_CTTGTG     2.49%      11   0.11%    0.48   0.68    9.76    15.47
...
Ce sont les résultats obtenus en utilisant les couvertures en séquences des modèles. À gauche figure le modèle concerné, puis le pourcentage de séquences originales où il apparaît, leur nombre, le pourcentage de séquences shufflées où il apparaît, leur nombre moyen sur l'ensemble des shufflings, la variance obtenue, et enfin les résultats des tests de $ \chi^2$ et z-score.

Dans cet exemple, le premier modèle se détache nettement par son z-score, tandis que le $ \chi^2$ met en avant un autre modèle. Cette différence peut résulter d'un nombre insuffisant de simulations. Cependant, si comme ici des différences locales apparaissent souvent dans les classements obtenus grâce aux deux tests, le classement global est en général le même : les dix modèles ayant les meilleurs z-scores ont souvent les dix meilleurs $ \chi^2$. Les deux tests montrent en général une bonne corrélation entre eux.

Toujours dans le fichier produit par la simulation suivent les résultats obtenus en utilisant les couvertures en nombre d'occurrences des modèles :

STATISTICS ON THE TOTAL NUMBER OF OCCURRENCES
Model              #right    #shfl. Var.    Chi2    Z-score 
============================================================
TTGCGC_TATAATGC       10     0.03   0.18    9.91    56.61
TTGCGC_ATAATGC         9     0.12   0.35    8.64    25.50
TCTTGA_GCTATA          9     0.18   0.42    8.46    21.12
TGCTTG_GTATAA         11     0.27   0.53    10.22   20.30
CTTGAA_GCTATA          9     0.20   0.46    8.41    19.29
GCTTGA_GTATAA          9     0.22   0.47    8.38    18.69
CTTGAC_TATAAT         10     0.29   0.52    9.17    18.53
TTGACT_ATAATG         11     0.38   0.61    9.92    17.48
TTCACA_CGATAA          9     0.27   0.52    8.23    16.82
GCTTGA_TATAAT         10     0.34   0.58    9.04    16.64
GTTGTC_TATAAT          9     0.33   0.57    8.06    15.12
TTGACT_TAAAAT         13     0.61   0.82    11.28   15.11
...
Les colonnes contiennent les mêmes indications que précédemment, excepté que les pourcentages (qui n'ont pas grand sens ici) ont disparu.

Dans cet exemple, le classement des z-scores met en avant le même modèle que précédemment. Le modèle TTGCGC_TATAATGC semble donc être exceptionnellement présent dans le jeu de séquences utilisées. Les résultats obtenus selon les deux modes de couverture considérés sont en général très proches.

Dans le cas d'une évaluation par comparaison avec d'autres séquences, les sorties sont similaires. Un signe indique si le modèle concerné est sur- ou sous-représenté (puisque la valeur du $ \chi^2$ seule ne suffit pas pour statuer). Les plus forts $ \chi^2$ indiquent les modèles mieux ou moins bien (en fonction du signe associé) représentés dans le jeu original qu'ils ne le devraient en se basant sur le second jeu de séquences. Un $ \chi^2$ nul indique que le modèle est représenté de la même manière dans les deux jeux.

La composition des séquences du jeu original et du second jeu n'entrent pas en compte dans la mesure utilisée. Cela peut d'ailleurs poser un problème lorsque les biais de composition diffèrent fortement entre les deux jeux.


next up previous
suivant: Bibliographie monter: Sorties précédent: Après extraction
Marsan Laurent 2002-04-16