Étape 2 : alphabet des modèles

suivant: Étape 3 : le fichier monter: Comment utiliser SMILE? précédent: Étape 1 : format et

Étape 2 : alphabet des modèles

L'alphabet sur lequel SMILE construit les modèles extraits est également modifiable, mais doit être précisé. On peut choisir d'exprimer des relations d'équivalence entre certains symboles ou d'en ignorer, ou bien encore d'utiliser des jokers. Par exemple, sur un jeu de séquences d'ADN contenant les symboles de base

et le symbole

, on peut décider que l'extraction ne produise que des modèles sur l'alphabet

et n'utilise pas d'occurrence contenant un

pour construire ces modèles.

Pour réaliser une extraction avec SMILE, la première chose à faire consiste à définir l'alphabet sur lequel les modèles seront produits. On écrit donc un fichier d'alphabet, dont voici un exemple type pour des séquences d'ADN :

Type:Nucleotides
A
C
G
T

En utilisant ce type d'alphabet, on génère des modèles simple, sur

Si l'on souhaite effectuer une extraction sur un alphabet plus large, en ajoutant les symboles et des purines et pyrymidines, ainsi que le joker , à l'alphabet des modèles générés, on écrira le fichier alphabet suivant :

Type:Nucleotides
A
C
G
T
AG
CT
*

Le symbole indique que l'on utilise des jokers pour générer les modèles. L'introduction de symboles très dégénérés va de pair avec une limitation de leur utilisation dans les modèles (par le biais du critère de composition qu'on verra plus loin) si on veut éviter de générer des modèles trop laxistes. En autorisant le joker sans limitation, on produira à coup sûr des modèles de la forme $NNNNN\ldots$

Le type précisé dans les fichiers d'alphabet (Nucleotides, Proteins ou Unknown) permet à SMILE de reconnaître l'alphabet choisi et de remplacer automatiquement un ensemble de symboles reconnu par le symbole IUPAC correspondant. Sur l'alphabet précédent, un modèle CA[AG][*]G sera ainsi traduit en CARNG.

Notons que plus l'alphabet est vaste et dégénéré, plus l'extraction sera longue.

Les symboles décrits dans le fichier d'alphabet sont ceux qui sont reconnus dans les séquences fournies : si un symbole des séquences n'apparaît pas dans le fichier alphabet, aucun modèle n'aura d'occurrences utilisant ce symbole.

suivant: Étape 3 : le fichier monter: Comment utiliser SMILE? précédent: Étape 1 : format et

Marsan Laurent 2002-04-16