THIEF off line

THIEF (Tools for Helping Interrogation and Exploitation of Frantext)
Version 2
(Mac et Windows)

Première partie
L'exploitation statistique off line

Comme on ne manipule ici que des nombres, en dehors de tout contexte, l'embarras du copyright n'est plus à craindre. Et le traité signé à Genève le 20 décembre 1996 exclut les banques de données des mesures de protection qui entourent la propriété intellectuelle et artistique. Il a donc été possible de livrer au public un dictionnaire de fréquences, qui est issu de Frantext par les voies autorisées et qu'on pourrait remettre à jour par les mêmes moyens. L'avantage recherché n'est pas seulement de faire l'économie des liaisons télématiques car, une fois réglé l'abonnement annuel et forfaitaire, le coût pour l'usager est le même, quels que soient le nombre et la longueur des séances de consultation. Ce qu'on recherche surtout, c'est le gain de temps et le confort de l'utilisation que permet tout traitement local. La base locale (figure 7 ) est accessible aux boutons rangés au haut de l'écran, qu'il s'agisse de la présentation Apple ou du standard Windows. Elle rend compte de l'usage littéraire, les textes dits "techniques" ayant été volontairement écartés. Si elle ne livre pas l'exhaustivité du corpus actuellement disponible, qui s'accroît chaque année, elle n'en représente pas moins l'essentiel des données de Frantext, soit 2376 textes et 117 millions d'occurrences, c'est-à-dire le contenu littéraire de Frantext en 1995.

Figure 7. L'exploitation de la base locale

(version Apple)

(version Windows)

Cette base locale comprend le relevé de toutes les formes du corpus littéraire et des sous-fréquences de chacune dans 12 tranches chronologiques distinguées du XVI siècle à nos jours.

Les limites des tranches n'ont pu être établies sur un pied d'égalité, car les textes dépouillés sont très inégalement répartis selon les siècles. Afin d'équilibrer la taille des sous-ensembles, l'empan chronologique a été élargi là où les textes étaient rares, c'est-à-dire au XVI siècle, et resserré là où ils abondaient, aux XIX et XX siècles. La première tranche s'étend ainsi sur un siècle (on l'a représentée par son année médiane: 1550) tandis que les plus proches ne recouvrent guère que deux décennies. Voir tableau 8.

Tableau 8. Limites des 12 tranches

    Nb. mots Nb.Formes     prob.p     prob.q   époque



 1   1719178     67014   0.014625   0.985375    1550
 2   8346862    101892   0.071006   0.928994    1630
 3   6087533     69612   0.051786   0.948214    1692
 4   9380093     77841   0.079796   0.920204    1735
 5  11946384     99028   0.101627   0.898373    1780
 6  11124272     98905   0.094633   0.905367    1820 
 7  16184517    124845   0.137680   0.862320    1855 
 8  13780168    116085   0.117227   0.882773    1885 
 9   8695375     98488   0.073971   0.926029    1910 
10  11361661    109218   0.096653   0.903347    1928 
11  10083262    106498   0.085777   0.914223    1942 
12   8842284    112367   0.075220   0.924780    1960 
   117551589    393848

Même ainsi, l'égalité dans l'étendue des tranches n'est pas respectée et les calculs de pondération sont inévitables. Ils s'appuient tous sur les probabilités indiquées dans le tableau précédent. On renvoie le lecteur aux ouvrages de Charles Muller pour tout ce qui concerne les opérations techniques de la statistique linguistique[1]. On s'en fera toutefois une idée suffisante si l'on sait que toute observation réelle (pour un mot donné dans une tranche donnée) est comparée à une fréquence théorique, obtenue par une règle de trois, sur la base de l'étendue respective des tranches. Le résultat de cette comparaison est un nombre négatif ou positif dont le signe indique s'il s'agit d'excédent ou de déficit et dont la valeur absolue mesure l'importance de l'écart (quand l'écart est faible , entre -2 et + 2, le hasard peut être invoqué et l'on doit surseoir à toute conclusion).

Avant de rendre compte des observations chiffrées une précaution est à prendre. On évitera un écart ou un abus de langage en s'abstenant de parler de la langue ou même du lexique, pour s'en tenir au seul vocabulaire. Car langue et lexique sont des réalités non finies dont les réalisations écrites n'épuisent pas les possibilités. Relevés et calculs ne peuvent se faire que dans le discours, c'est-à-dire dans un corpus, nécessairement limité, qui est pris pour témoin et dont la composition importe grandement, puisque de la qualité de l'échantillon dépend la portée des conclusions qu'on projette sur la population. À l'inverse des sondages électoraux qui peuvent espérer du vote réel la confirmation de leurs prévisions, nul espoir jamais d'atteindre dans son intégralité la population des mots et de l'amener devant les urnes. Quelle que soit l'étendue de l'enquête, il y aura toujours des recoins inexplorés, des lacunes imprévisibles et, ce qui est pire, des régions inaccessibles par définition: ces limbes indécis où naissent et flottent les mots qui attendent le baptême. On se bornera donc à tenir le registre des éléments lexicaux rencontrés dans les textes, sans exclusion ni extrapolation. Il est facile de voir que le vocabulaire ainsi défini ne recouvre pas la nomenclature d'un dictionnaire, quoique l'un et l'autre tendent à rejoindre, de façon asymptotique, la perspective fuyante du lexique et, de façon plus molle encore, la trajectoire incertaine de la langue.

En outre une plus grande prudence s'impose en l'absence de lemmatisation. Cette opération consiste à regrouper les formes fléchies derrière leur chef de file, qui est traditionnellement l'infinitif des verbes et le masculin singulier de la classe nominale. Elle exige de coûteux et longs efforts qu'on ne peut guère entreprendre, avec des raccourcis approximatifs, que pour les textes les plus récents. S'engager dans cette voie - comme nous l'avons fait dans notre Vocabulaire français de 1789 à nos jours - eût été héroïque, vu l'énormité du corpus, d'autant que la lemmatisation est plus complexe quand l'orthographe n'est pas fixée - comme c'est le cas des textes les plus anciens. Faute de pouvoir isoler sûrement les vocables, on s'est donc contenté, à regret, des formes dans leur plus simple appareil.

Retour au sommaire

Première partie L'exploitation statistique off line

Figure 7. L'exploitation de la base locale (version Apple)

(version Windows)

Tableau 8. Limites des 12 tranches

Première partie
L'exploitation statistique off line

Figure 7. L'exploitation de la base locale

(version Apple)