# La bibliothèque (Python 3)

Elle se compose de *modules*, que l'on doit importer (mot clé <tt>import</tt>).

À explorer : [https://docs.python.org/3/py-modindex.html](https://docs.python.org/3/py-modindex.html)

- sys : sys.argv, sys.stdin... principalement
- os : fonctions "bas niveau" (appels système)
- re : expressions régulières
- math :   flottants,  complexes
- pickle, cPickle : (dé)sérialisation
- shelve : dictionnaires persistants
- urllib, urllib2 : http
- html.parser : comme son nom l'indique ...
- xmlrpclib : "Remote Procedure Call" (web services) 
- cgi : Common Gateway Interface
- sqlite3 : Bases de données SQLite
- socket : réseau bas niveau


Il y a de nombreux paquetages 
[http://pypi.python.org/pypi](http://pypi.python.org/pypi) (environ 120000)
pour à peu près n'importe quoi ...

## Entrées/sorties : le module [sys](https://docs.python.org/3/library/sys.html#module-sys)

Exporte en particulier <tt>sys.stdin, sys.stdout, sys.stderr, sys.argv, sys.exit</tt>.

In [1]:
import sys
sys.stdout.write('Hello!\n') # équivalent de 'print (Hello!)'

Hello!


In [2]:
sys.stderr.write('Raté !')

Raté !

In [3]:
sys.getfilesystemencoding()

'utf-8'

In [4]:
sys.getrecursionlimit()

2000

In [5]:
sys.platform

'linux'

## Appels système : [os](https://docs.python.org/3/library/os.html#module-os) et [os.path](https://docs.python.org/3/library/os.path.html#module-os.path)

Permet d'utiliser le système de manière indépendante de la plateforme.

In [6]:
import os
os.listdir('toto') # appelle 'ls' sous linux, et 'dir' sous windows

['link', '2', '3', 'ga', 'meu', '1', 'bu', 'zo']

In [7]:
!ls -l toto

total 16
-rw-rw-r-- 1 jyt jyt    0 oct.  12  2021 1
-rw-rw-r-- 1 jyt jyt    0 oct.  12  2021 2
-rw-rw-r-- 1 jyt jyt    0 oct.  12  2021 3
drwxrwxr-x 2 jyt jyt 4096 oct.  12  2021 bu
drwxrwxr-x 2 jyt jyt 4096 oct.  12  2021 ga
lrwxrwxrwx 1 jyt jyt    4 oct.  12  2021 link -> bu/5
drwxrwxr-x 2 jyt jyt 4096 oct.  12  2021 meu
drwxrwxr-x 2 jyt jyt 4096 oct.  12  2021 zo


In [8]:
os.environ['HOME'] # variables d'environnement (dictionnaire)

'/home/jyt'

In [9]:
print (os.environ.keys())

KeysView(environ({'CLUTTER_IM_MODULE': 'xim', 'LS_COLORS': 'rs=0:di=01;34:ln=01;36:mh=00:pi=40;33:so=01;35:do=01;35:bd=40;33;01:cd=40;33;01:or=40;31;01:mi=00:su=37;41:sg=30;43:ca=30;41:tw=30;42:ow=34;42:st=37;44:ex=01;32:*.tar=01;31:*.tgz=01;31:*.arc=01;31:*.arj=01;31:*.taz=01;31:*.lha=01;31:*.lz4=01;31:*.lzh=01;31:*.lzma=01;31:*.tlz=01;31:*.txz=01;31:*.tzo=01;31:*.t7z=01;31:*.zip=01;31:*.z=01;31:*.Z=01;31:*.dz=01;31:*.gz=01;31:*.lrz=01;31:*.lz=01;31:*.lzo=01;31:*.xz=01;31:*.zst=01;31:*.tzst=01;31:*.bz2=01;31:*.bz=01;31:*.tbz=01;31:*.tbz2=01;31:*.tz=01;31:*.deb=01;31:*.rpm=01;31:*.jar=01;31:*.war=01;31:*.ear=01;31:*.sar=01;31:*.rar=01;31:*.alz=01;31:*.ace=01;31:*.zoo=01;31:*.cpio=01;31:*.7z=01;31:*.rz=01;31:*.cab=01;31:*.wim=01;31:*.swm=01;31:*.dwm=01;31:*.esd=01;31:*.jpg=01;35:*.jpeg=01;35:*.mjpg=01;35:*.mjpeg=01;35:*.gif=01;35:*.bmp=01;35:*.pbm=01;35:*.pgm=01;35:*.ppm=01;35:*.tga=01;35:*.xbm=01;35:*.xpm=01;35:*.tif=01;35:*.tiff=01;35:*.png=01;35:*.svg=01;35:*.svgz=01;35:*.mng=01;35:*

Une des fonctions les plus utiles est <tt>os.walk</tt> (parcours récursif d'une arborescence):

In [10]:
tree = os.walk('toto')
print (tree)

<generator object walk at 0x7fa70bf6d888>


In [11]:
list(tree)

[('toto', ['ga', 'meu', 'bu', 'zo'], ['link', '2', '3', '1']),
 ('toto/ga', [], ['4']),
 ('toto/meu', [], ['8']),
 ('toto/bu', [], ['6', '5']),
 ('toto/zo', [], ['7'])]

In [12]:
ls -R toto

toto:
1  2  3  [0m[01;34mbu[0m/  [01;34mga[0m/  [01;36mlink[0m@  [01;34mmeu[0m/  [01;34mzo[0m/

toto/bu:
5  6

toto/ga:
4

toto/meu:
8

toto/zo:
7


On voit que <tt>os.walk</tt> retourne une liste de triplets de la forme

(repertoire, [liste de repertoires], [liste de fichiers])

Pour savoir si un chemin représente un répertoire, un fichier ou un lien symbolique, on utilise <tt>os.path</tt>:

In [13]:
os.path.islink('/home/jyt/ens/M1_python/toto')

False

In [14]:
os.path.islink('/home/jyt/ens/M1_python/toto/link')

True

In [15]:
os.stat('/home/jyt/ens/M1_python/toto')

os.stat_result(st_mode=16893, st_ino=8667102, st_dev=2054, st_nlink=6, st_uid=1000, st_gid=1000, st_size=4096, st_atime=1664953908, st_mtime=1634051854, st_ctime=1634051854)

In [16]:
oct(_.st_mode) # les 3 derniers chiffres en octal correpondent aux permissions

'0o40775'

In [18]:
os.rename('toto','baz')

In [19]:
!ls baz

1  2  3  bu  ga  link  meu  zo


In [20]:
os.system('echo "blablabla">baz/blu') # execute une commande ou un programme

0

In [21]:
cat baz/blu

blablabla


## [Pickle](https://docs.python.org/3/library/pickle.html#module-pickle) : mise en bocal
Pour sauvegarder des données au format Python.


Surtout utile pour sauvegarder des sessions.

On ne peut pas tout sauver (sockets, modules...).


In [22]:
import pickle
f = open('/tmp/toto','wb') # sauvegarde 
pickle.dump(47,f)
pickle.dump(sys.argv,f)
pickle.dump({'canard':'coin', 'chat':'miaou'},f)
f.close()

In [23]:
f = open('/tmp/toto','rb')     # rechargement 
try:
    while 1: print (pickle.load(f))
except EOFError: pass

47
['/home/jyt/anaconda3/lib/python3.6/site-packages/ipykernel_launcher.py', '-f', '/run/user/1000/jupyter/kernel-14711f89-3ba2-49f4-b22e-cfc7ae67acad.json']
{'canard': 'coin', 'chat': 'miaou'}


## [Shelve](https://docs.python.org/3/library/shelve.html#module-shelve)
Table de hachage stockée sur disque.

Restrictions : les mêmes que pour pickle.
De plus, les clés doivent être des chaînes.

In [24]:
import shelve
d = shelve.open('titi')
d['ga'] = (1,2)
d['bu']= 'abracadabra'
d['zo'] = 3.1415926535
d['meu'] = {'a':'b'}
d.close()

In [25]:
d = shelve.open('titi')
print (d.keys())
print(list(d.keys()))
['ga', 'bu', 'zo', 'meu']
d['bu'] = list(range(3))
d['bu'].append(8)
print (d['bu']) # Un piège : l'attribut "writeback" est False par defaut

KeysView(<shelve.DbfilenameShelf object at 0x7fa70ae51b00>)
['ga', 'bu', 'zo', 'meu']
[0, 1, 2]


## Expressions régulières

Module [re](https://docs.python.org/3/library/re.html#module-re)
            
<tt>re.match(regex, chaîne)</tt> et <tt> re.search(regex, chaîne)</tt>
retournent (en cas de match) un objet de type <tt>Match</tt>.

<tt>re.match</tt> ne cherche qu'au début de la chaîne.

<tt>re.search</tt>  cherche à n'importe quelle position.

<tt>re.findall</tt> retourne une liste de toutes les occurences trouvées.


Recherches multiples : <tt>re.compile</tt> construit un automate.

Pratique : les raw strings


In [26]:
"abc\n\1def" 

'abc\n\x01def'

In [27]:
print(_)


abc
def


In [28]:
r"abc\n\1def"

'abc\\n\\1def'

In [29]:
print ("abc\n\1def")

abc
def


In [30]:
print (r"abc\n\1def")

abc\n\1def


Dans une chaîne ordinaire, <tt>\n</tt> est interprété comme un retour ligne. 
Pour avoir le caractère '\' suivi du caracère 'n', il faut faire précéder le '\' d'un autre '\', 
qui est le caractère d'échappement.

Les *rawstrings* interprètent '\' comme un caractère ordinaire.

In [31]:
import re
m = re.search(r't(.)t\1', 'le tutu') # le \ a une signification spéciale dans les regexp

In [32]:
m

<_sre.SRE_Match object; span=(3, 7), match='tutu'>

On verra plus loin la signification de cet exemple.


Le parseur python interprète le caractère '\' dans une chaîne comme un caractère d'échappement indiquant le début du
nom d'un caractère spécial, comme <tt>\n,\t,\x2a,\54,...</tt>.

Le module <tt>re</tt> utilise aussi '\' comme caractère d'échappement
pour modifier la signification des caractères spéciaux comme <tt>*, ., $, ^</tt>.

La calamité est qu'on doit parfois échapper le caractère d'échappement  (quand
le caractère spécial est reconnu par les deux parseurs) et parfois non
(quand le caractère spécial n'est pas reconnu par le parseur python).

Dans une raw string, le parseur python ne substituera pas les caractères spéciaux
à leur encodage.


### Un test commode

Les expressions régulières sont puissantes, mais d'un maniement délicat. Le petit test suivant 
(emprunté au livre de Pilgrim) permet de visualiser leur effet :

In [34]:
def re_show(pat, s):
    print (re.compile(pat, re.M).sub("{\g<0>}", s.rstrip()),'\n')

La compilation avec l'option <tt>re.M</tt> permet de traiter une chaîne
contenant des sauts de lignes.

L'expression $\tt\backslash g<0>$ représente la chaîne matchée, qui sera donc
substituée à elle même, entourée d'accolades.

In [35]:
s = "le cheval de mon cousin ne mange du foin que le dimanche"
p = r'(\b\w*in\b)' # un "bord" (\b) suivi de 0 ou plusieurs caractères alphabétiques (\w*), 
#des lettres i et n, et d'un bord
re_show(p,s)

le cheval de mon {cousin} ne mange du {foin} que le dimanche 



In [36]:
t = """ceci \\ est un \\backslash
mais cela \\n n'est pas un \n saut de ligne"""
t

"ceci \\ est un \\backslash\nmais cela \\n n'est pas un \n saut de ligne"

In [37]:
print (t)

ceci \ est un \backslash
mais cela \n n'est pas un 
 saut de ligne


In [38]:
re_show('\n|\\\\',t)

ceci {\} est un {\}backslash{
}mais cela {\}n n'est pas un {
} saut de ligne 



In [39]:
re_show(r'\n|\\',t) # autre version

ceci {\} est un {\}backslash{
}mais cela {\}n n'est pas un {
} saut de ligne 



### Métacaractères

Ce sont les suivants
<pre>
. ^ $ * + ? { } [ ] \ | ( ) \A \Z \b \B
</pre>

<tt>"["</tt> et <tt>"]"</tt> spécifient une classe de caractères :
    
<tt>[abcd]</tt> ou <tt>[a-d]</tt>. 

Les métacaractères ne sont pas actifs dans une classe : 
    <tt>[a-c(?\$]</tt> contient les caractères <tt>a,b,c,(,?,$</tt>.

Un <tt>^</tt> au début définit le complémentaire : les caractères non alphanumériques sont
<tt>[^a-zA-Z0-9]</tt>.

Le <tt>\</tt> est le caractère d'échappement.

In [40]:
re_show(r'[au\n\\]',t)

ceci {\} est {u}n {\}b{a}cksl{a}sh{
}m{a}is cel{a} {\}n n'est p{a}s {u}n {
} s{a}{u}t de ligne 



### Classes prédéfinies

<pre>
\d  équivalent à [0-9].
\D  équivalent à [^0-9].
\s  équivalent à [ \t\n\r\f\v].
\S  équivalent à [^ \t\n\r\f\v].
\w  équivalent à alphanumérique (ou seulement [a-zA-Z0-9\_] si ascii).
\W  est les complémntaire
</pre>
Ces séquences peuvent être incluses dans une classe. Par exemple,
<tt>[\s\\\\]</tt> contient tous les blancs et le backslash

In [41]:
re_show(r'[\s\\]',t)

ceci{ }{\}{ }est{ }un{ }{\}backslash{
}mais{ }cela{ }{\}n{ }n'est{ }pas{ }un{ }{
}{ }saut{ }de{ }ligne 



Le métacaractère "." matche tout sauf le saut de ligne. 

Il existe un mode <tt>re.DOTALL</tt> où il matche tout caractère.

Le "?" matche 0 ou 1 fois.

L'étoile `<regexp>*` signifie 0 ou plusieurs fois `<regexp>`.

Le plus `<regexp>+` signifie 1 ou plusieurs fois `<regexp>`.

Les accolades `<regexp>{m,n}` signifient au moins $m$ fois
et au plus $n$ fois (`<regexp>{n}`  pour exactement $n$ fois).


In [42]:
re_show(r'o*', 'boogie-woogie')

{}b{oo}g{}i{}e{}-{}w{oo}g{}i{}e{} 



In [43]:
re_show(r'o+', 'boogie-woogie')

b{oo}gie-w{oo}gie 



In [44]:
re_show(r'o{2,4}', 'oh boogie-woogie wooof woooof wooooof')

oh b{oo}gie-w{oo}gie w{ooo}f w{oooo}f w{oooo}of 



La barre verticale `<R1>|<R2>` matche `<R1>` ou `<R2>`. On peut
mettre une expression entre parenthèses pour lui appliquer un
opérateur comme $*$ ou $+$

In [45]:
s = 'baaababaaababbaababbbabaabaabbbaaaababa'
re_show(r'(a|ba)+',s)

{baaababaaaba}b{baaba}bb{babaabaa}bb{baaaababa} 



Les parenthèses servent aussi à indiquer des *groupes*
(voir plus loin).

<tt>^</tt> et <tt>\$</tt> marquent respectivement le début et la fin d'une ligne.

In [46]:
re_show('^m|sh$|^\s',t)

ceci \ est un \backsla{sh}
{m}ais cela \n n'est pas un 
{ }saut de ligne 



### Le type <tt>RegexObject</tt>

Les expressions régulières, jusqu'ici données sous forme de chaînes,
peuvent être *compilées*. Le résultat est une instance de la
classe <tt>RegexObject</tt>.

Le module <tt>re</tt> exporte des fonctions ayant les mêmes noms
que les méthodes des RegexObjects :

In [47]:
s='baaababaaababbaababbbabaabaabbbaaaababa'
r = re.compile('((a|ba)+)')
r.findall(s)

[('baaababaaaba', 'ba'),
 ('baaba', 'ba'),
 ('babaabaa', 'a'),
 ('baaaababa', 'ba')]

A cause des deux paires de parenthèses, <tt>findall</tt> voit
deux groupes, et retourne une liste de couples. 

Pour n'avoir que ce qu'on veut, on peut utiliser un groupe *non-capturant*

In [48]:
r = re.compile('(?:a|ba)+') # noter le ?: au début de la parenthèse interne
r.findall(s)

['baaababaaaba', 'baaba', 'babaabaa', 'baaaababa']

Les méthodes <tt>r.match</tt> (matche au début de la chaîne)
et <tt>r.search</tt>
(matche n'importe où dans la chaîne)
retournent un <tt>MatchObject</tt> ou <tt>None</tt>.

La méthode <tt>r.findall</tt> trouve toutes les occurences (non recouvrantes)
de l'expression et retourne une liste.  <tt>r.finditer</tt> retourne un
itérateur.

<tt>r.split</tt> casse la chaîne selon les occurences de <tt>r</tt>.



<tt>r.sub</tt>  et <tt>r.subn</tt> remplacent les occurences de <tt>r</tt> par une chaîne
fixée, ou leur appliquent une fonction.


In [49]:
print (re.split(r'\s|\\',t))

['ceci', '', '', 'est', 'un', '', 'backslash', 'mais', 'cela', '', 'n', "n'est", 'pas', 'un', '', '', 'saut', 'de', 'ligne']


In [50]:
re.sub(r'\s+|\\', ' ',t)

"ceci   est un  backslash mais cela  n n'est pas un saut de ligne"

### Le type <tt>MatchObject</tt>

Les méthodes les plus importantes d'un <tt>MatchObject m</tt> sont :


- <tt> m.group()</tt> ou  <tt>m.group(0)</tt> retourne la chaîne matchée
- <tt> m.start()</tt> retourne la position de départ du match
- <tt> m.end()</tt> retourne la position de la fin du match
- <tt> m.span()</tt> retourne un couple <tt>(start, end)</tt>
- <tt> m.groups()</tt> : une expression peut comporter des *groupes*,
délimités par des parenthèses ...

In [51]:
s='baaababaaababbaababbbabaabaabbbaaaababa'
p = re.compile('((a|ba)+)')
m = p.match(s)
print (m.group())
print (m.span())

baaababaaaba
(0, 12)


In [52]:
m

<_sre.SRE_Match object; span=(0, 12), match='baaababaaaba'>

In [53]:
p.sub(lambda x:'.'*len(x.group(0)),s)

'............b.....bb........bb.........'

In [54]:
p = re.compile('(a(b)c)d(e)') # groupes emboîtés
m = p.match('abcde')
m.groups()
('abc', 'b', 'e')

('abc', 'b', 'e')

In [55]:
print (m.group(0))
print (m.group(1))
print (m.group(2))
print (m.group(3))

abcde
abc
b
e


### Groupes non capturants

Évitent que les parenthèses (obligatoires pour encadrer le +)
ne soient interprétées comme un groupe devant capturer la première
occurence d'une des lettres <tt>i,j,a,b,c</tt> :

In [56]:
m = re.match('([ij]|[abc])+','aabbjjiijcxabb')
print (m.groups())
print (m.group(0))
print (m.group(1))

('c',)
aabbjjiijc
c


In [57]:
m = re.match('(?:[ij]|[abc])+','aabbcxabb')

print (m.group(0))
m.groups()

aabbc


()

Les groupes peuvent être nommés en utilisant
la syntaxe 
$\tt(?P<name>...)$


In [58]:
s="le cheval de mon cousin ne mange du foin que le dimanche"
p = re.compile(r'(\b\w*in\b).*(\bd\w*e\b)')
m = p.search(s)

m.groups()

('cousin', 'dimanche')

In [59]:
p = re.compile(r'(?P<qui>\b\w*in\b).*(?P<quand>\bd\w*e\b)')
m = p.search(s)
m.group('quand')

'dimanche'

### Application d'une fonction aux groupes

Syntaxe : <tt>r.sub(f, s, count=0)</tt>

où <tt>f</tt> accepte comme argument un MatchObject et retourne
la chaîne à utiliser en remplacement du match. 

In [60]:
s='''<html>
      <body>
      <H1>Mon beau cours de python</H1>
      <H2>Blabla</H2> et ri et
ra  patati et patata
</body>
</html>'''

def capitalize(m):
    return '<h1>'+ ' '.join([w.capitalize() for w in m.group(1).split()])+'</h1>'

p=re.compile(r'<h1>(.*?)</h1>', re.I|re.M)

print (re.findall(p,s))
print (p.sub(capitalize,s))

['Mon beau cours de python']
<html>
      <body>
      <h1>Mon Beau Cours De Python</h1>
      <H2>Blabla</H2> et ri et
ra  patati et patata
</body>
</html>


On peut utiliser cette technique pour l'exercice 3 du TD 2 : 

In [61]:
import random, re

p = re.compile('(\w)(\w\w+)(\w)', re.M) # reconnaît les mots d'au moins 4 lettres

def touille(m):                         # m est un match object, m.group(2) est le contenu de (\w\w+)
    milieu = list(m.group(2))           # donc le milieu de la chaîne matchée, qu'il faut convertir en
    random.shuffle(milieu)              # liste et nommer pour la mélanger en place
    return m.group(1) + ''.join(milieu) + m.group(3) # on remet la première et la dernière lettre en place


def blurr(s):
    return p.sub(touille,s)


In [62]:
blurr('Il est plus facile de se laver les dents dans un verre à pied que de se laver les pieds dans un verre à dents')

'Il est plus faicle de se lvear les dtens dnas un verre à pied que de se leavr les pides dnas un verre à dtnes'

### Glouton, ou pas ?

Les opérateurs *non-gloutons*  <tt>*?, +?, ??</tt>, ou <tt>{m,n}?</tt>, matchent aussi peu
de texte que possible 


In [63]:
s = '<html><head><title>Title</title>'
print (re.match('<.*>', s).group())

<html><head><title>Title</title>


In [64]:
print (re.match('<.*?>', s).group())

<html>


### Options de compilation

-  <tt> I</tt> ou <tt> IGNORECASE</tt> : insensible à la casse
-  <tt> L</tt> ou <tt> LOCALE</tt> : rend <tt>\w, \W, \b, \B</tt> dépendants de ce que
la <tt> locale</tt> courante considère comme alphanumérique
-  <tt> M</tt> ou <tt> MULTILINE</tt> : <tt>^, $</tt> matchent le début et la fin de chaque ligne,
en plus du début et de la fin de la chaîne
-  <tt> S</tt> ou <tt> DOTALL</tt> : le point . matche un saut de ligne
-  <tt> U</tt> ou <tt> UNICODE</tt> : rend <tt>\w, \W, \b, \B</tt> dépendants de ce qu'Unicode 
considère comme alphanumérique
-  <tt> X</tt> ou <tt> VERBOSE</tt> : les espaces blancs sont ignorés et <tt>#</tt> est interprété
comme le début d'un commentaire



### Mode verbeux

Les options de compilation sont aussi utilisables avec les
chaînes (syntaxe <tt>(?iLmsux)</tt>). En mode verbeux, les espaces
sont ignorés et # signale un commentaire :


In [65]:
pat_url = re.compile(  r'''(?x) # flag à mettre au début depuis 3.6
                   ( # verbose identify URLs within text
   (http|ftp|gopher) # make sure we find a resource type
                 :// # needs to be followed by ://
      (\w+[:.]?){2,} # at least two domain groups: (gouv.)(fr)
                (/?| # just the domain name (maybe no /)
          [^ \n\r"]+ # or stuff then space, newline, tab, quote
              [\w/]) # resource name ends in alphanumeric or /
   (?=[\s\.,>)'"\]]) # assert: followed by white or clause ending
                   ) # end of match group''')