next up previous
suivant: Méthode d'évaluation statistique monter: Étape 3 : le fichier précédent: Exemples de critères d'extraction

Exemples de critères d'extraction complexes

L'extraction de modèles structurés composés de deux boîtes de longueurs respectivement comprises dans les intervalles $ [4;5]$ et $ [6;8]$, avec deux substitutions au total dont une au plus dans la première boîte, un intervalle de saut $ [10;20]$ et un $ \delta=1$, apparaissant dans au moins 10% des séquences du fichier fasta, et ayant au plus un joker dans une des deux boîtes, est réalisée en écrivant le fichier de paramètres suivant :
EXTRACTION (Step 1) =============================
FASTA file                      seq.fasta
Output file                     test.smile

GLOBAL PARAMETERS =============
Alphabet file                   dnabase.alphabet
Quorum                          10
Total min length                10
Total max length                13
Total substitutions             2
Boxes                           2
Composition in *                1

BOX 1 ================
Min length                      4
Max length                      5
Substitutions                   1
Composition in *                1
Min spacer length               10
Max spacer length               20
Delta                           1

BOX 2 ================
Min length                      6
Max length                      8
Substitutions                   2
Composition in *                1
Le critère de composition permet de limiter l'usage de certains symboles.

Dans le cas, comme ici, d'une extraction de modèles structurés, on distingue les critères globaux des critères locaux (propres à chaque boîte). Si on décide par exemple d'une substition globale et d'une substitution pour chaque boîte, une seule substitution sera jouée dans l'une ou l'autre des deux boîtes.

Les deltas permettent de produire des modèles en les séparant en fonction de l'intervalle de distance utilisé. Les sous-intervalles considérés sont de largeur $ 2 delta$. Dans l'exemple précdent, l'extraction produira 9 fichiers, pour chaque sous-intervalle de l'intervalle $ [10;20]$ de largeur $ 2$ : $ [10;12], [11;13], [12;14], \ldots$


next up previous
suivant: Méthode d'évaluation statistique monter: Étape 3 : le fichier précédent: Exemples de critères d'extraction
Marsan Laurent 2002-04-16