Pour réaliser une extraction avec SMILE, la première chose à faire consiste à définir l'alphabet sur lequel les modèles seront produits. On écrit donc un fichier d'alphabet, dont voici un exemple type pour des séquences d'ADN :
Type:Nucleotides A C G T |
Si l'on souhaite effectuer une extraction sur un alphabet plus large, en ajoutant
les symboles et
des purines et pyrymidines, ainsi que le joker
, à
l'alphabet des modèles générés, on écrira le fichier alphabet suivant :
Type:Nucleotides A C G T AG CT * |
Le symbole indique que l'on utilise des jokers pour générer les modèles.
L'introduction de symboles très dégénérés va de pair avec une limitation de
leur utilisation dans les modèles (par le biais du critère de composition qu'on
verra plus loin) si on veut éviter de générer des modèles trop laxistes. En
autorisant le joker sans limitation, on produira à coup sûr des modèles de la
forme
Le type précisé dans les fichiers d'alphabet (Nucleotides,
Proteins ou Unknown) permet à SMILE de reconnaître l'alphabet
choisi et de remplacer automatiquement un ensemble de symboles reconnu par le
symbole IUPAC correspondant. Sur l'alphabet précédent, un modèle
CA[AG][*]G sera ainsi traduit en CARNG.
Notons que plus l'alphabet est vaste et dégénéré, plus l'extraction sera longue.
Les symboles décrits dans le fichier d'alphabet sont ceux qui sont reconnus dans les séquences fournies : si un symbole des séquences n'apparaît pas dans le fichier alphabet, aucun modèle n'aura d'occurrences utilisant ce symbole.