THIEF off line
THIEF
(Tools for Helping Interrogation and Exploitation of Frantext)
Version 2
(Mac et Windows)
Retour au sommaire
Première partie
L'exploitation statistique off line
Comme on ne manipule ici que des nombres, en dehors de tout contexte, l'embarras
du copyright n'est plus à craindre. Et le traité signé
à Genève le 20 décembre 1996 exclut les banques de
données des mesures de protection qui entourent la propriété
intellectuelle et artistique. Il a donc été possible de livrer
au public un dictionnaire de fréquences, qui est issu de Frantext
par les voies autorisées et qu'on pourrait remettre à jour
par les mêmes moyens. L'avantage recherché n'est pas seulement
de faire l'économie des liaisons télématiques car,
une fois réglé l'abonnement annuel et forfaitaire, le coût
pour l'usager est le même, quels que soient le nombre et la longueur
des séances de consultation. Ce qu'on recherche surtout, c'est le
gain de temps et le confort de l'utilisation que permet tout traitement
local. La base locale (figure 7 ) est accessible aux boutons rangés
au haut de l'écran, qu'il s'agisse de la présentation Apple
ou du standard Windows. Elle rend compte de l'usage littéraire, les
textes dits "techniques" ayant été volontairement
écartés. Si elle ne livre pas l'exhaustivité du corpus
actuellement disponible, qui s'accroît chaque année, elle n'en
représente pas moins l'essentiel des données de Frantext,
soit 2376 textes et 117 millions d'occurrences, c'est-à-dire le contenu
littéraire de Frantext en 1995.
Figure 7. L'exploitation de la base locale
(version Apple)
(version Windows)
Cette base locale comprend le relevé de toutes les formes du corpus
littéraire et des sous-fréquences de chacune dans 12 tranches
chronologiques distinguées du XVI siècle à nos jours.
Les limites des tranches n'ont pu être établies sur un pied
d'égalité, car les textes dépouillés sont très
inégalement répartis selon les siècles. Afin d'équilibrer
la taille des sous-ensembles, l'empan chronologique a été
élargi là où les textes étaient rares, c'est-à-dire
au XVI siècle, et resserré là où ils abondaient,
aux XIX et XX siècles. La première tranche s'étend
ainsi sur un siècle (on l'a représentée par son année
médiane: 1550) tandis que les plus proches ne recouvrent guère
que deux décennies. Voir tableau 8.
Tableau 8. Limites des 12 tranches
Nb. mots Nb.Formes prob.p prob.q époque
1 1719178 67014 0.014625 0.985375 1550
2 8346862 101892 0.071006 0.928994 1630
3 6087533 69612 0.051786 0.948214 1692
4 9380093 77841 0.079796 0.920204 1735
5 11946384 99028 0.101627 0.898373 1780
6 11124272 98905 0.094633 0.905367 1820
7 16184517 124845 0.137680 0.862320 1855
8 13780168 116085 0.117227 0.882773 1885
9 8695375 98488 0.073971 0.926029 1910
10 11361661 109218 0.096653 0.903347 1928
11 10083262 106498 0.085777 0.914223 1942
12 8842284 112367 0.075220 0.924780 1960
117551589 393848
Même ainsi, l'égalité dans l'étendue des tranches
n'est pas respectée et les calculs de pondération sont inévitables.
Ils s'appuient tous sur les probabilités indiquées dans le
tableau précédent. On renvoie le lecteur aux ouvrages de Charles
Muller pour tout ce qui concerne les opérations techniques de la
statistique linguistique[1]. On s'en fera
toutefois une idée suffisante si l'on sait que toute observation
réelle (pour un mot donné dans une tranche donnée)
est comparée à une fréquence théorique, obtenue
par une règle de trois, sur la base de l'étendue respective
des tranches. Le résultat de cette comparaison est un nombre négatif
ou positif dont le signe indique s'il s'agit d'excédent ou de déficit
et dont la valeur absolue mesure l'importance de l'écart (quand l'écart
est faible , entre -2 et + 2, le hasard peut être invoqué et
l'on doit surseoir à toute conclusion).
Avant de rendre compte des observations chiffrées une précaution
est à prendre. On évitera un écart ou un abus de langage
en s'abstenant de parler de la langue ou même du lexique, pour s'en
tenir au seul vocabulaire. Car langue et lexique sont des réalités
non finies dont les réalisations écrites n'épuisent
pas les possibilités. Relevés et calculs ne peuvent se faire
que dans le discours, c'est-à-dire dans un corpus, nécessairement
limité, qui est pris pour témoin et dont la composition importe
grandement, puisque de la qualité de l'échantillon dépend
la portée des conclusions qu'on projette sur la population. À
l'inverse des sondages électoraux qui peuvent espérer du vote
réel la confirmation de leurs prévisions, nul espoir jamais
d'atteindre dans son intégralité la population des mots et
de l'amener devant les urnes. Quelle que soit l'étendue de l'enquête,
il y aura toujours des recoins inexplorés, des lacunes imprévisibles
et, ce qui est pire, des régions inaccessibles par définition:
ces limbes indécis où naissent et flottent les mots qui attendent
le baptême. On se bornera donc à tenir le registre des éléments
lexicaux rencontrés dans les textes, sans exclusion ni extrapolation.
Il est facile de voir que le vocabulaire ainsi défini ne recouvre
pas la nomenclature d'un dictionnaire, quoique l'un et l'autre tendent à
rejoindre, de façon asymptotique, la perspective fuyante du lexique
et, de façon plus molle encore, la trajectoire incertaine de la langue.
En outre une plus grande prudence s'impose en l'absence de lemmatisation.
Cette opération consiste à regrouper les formes fléchies
derrière leur chef de file, qui est traditionnellement l'infinitif
des verbes et le masculin singulier de la classe nominale. Elle exige de
coûteux et longs efforts qu'on ne peut guère entreprendre,
avec des raccourcis approximatifs, que pour les textes les plus récents.
S'engager dans cette voie - comme nous l'avons fait dans notre Vocabulaire
français de 1789 à nos jours - eût été
héroïque, vu l'énormité du corpus, d'autant que
la lemmatisation est plus complexe quand l'orthographe n'est pas fixée
- comme c'est le cas des textes les plus anciens. Faute de pouvoir isoler
sûrement les vocables, on s'est donc contenté, à regret,
des formes dans leur plus simple appareil.
Retour au sommaire