THIEF off line THIEF (Tools for Helping Interrogation and Exploitation of Frantext)
Version 2
(Mac et Windows)

Retour au sommaire


Première partie
L'exploitation statistique off line


Comme on ne manipule ici que des nombres, en dehors de tout contexte, l'embarras du copyright n'est plus à craindre. Et le traité signé à Genève le 20 décembre 1996 exclut les banques de données des mesures de protection qui entourent la propriété intellectuelle et artistique. Il a donc été possible de livrer au public un dictionnaire de fréquences, qui est issu de Frantext par les voies autorisées et qu'on pourrait remettre à jour par les mêmes moyens. L'avantage recherché n'est pas seulement de faire l'économie des liaisons télématiques car, une fois réglé l'abonnement annuel et forfaitaire, le coût pour l'usager est le même, quels que soient le nombre et la longueur des séances de consultation. Ce qu'on recherche surtout, c'est le gain de temps et le confort de l'utilisation que permet tout traitement local. La base locale (figure 7 ) est accessible aux boutons rangés au haut de l'écran, qu'il s'agisse de la présentation Apple ou du standard Windows. Elle rend compte de l'usage littéraire, les textes dits "techniques" ayant été volontairement écartés. Si elle ne livre pas l'exhaustivité du corpus actuellement disponible, qui s'accroît chaque année, elle n'en représente pas moins l'essentiel des données de Frantext, soit 2376 textes et 117 millions d'occurrences, c'est-à-dire le contenu littéraire de Frantext en 1995.


Figure 7. L'exploitation de la base locale

(version Apple)

(version Windows)




Cette base locale comprend le relevé de toutes les formes du corpus littéraire et des sous-fréquences de chacune dans 12 tranches chronologiques distinguées du XVI siècle à nos jours.

Les limites des tranches n'ont pu être établies sur un pied d'égalité, car les textes dépouillés sont très inégalement répartis selon les siècles. Afin d'équilibrer la taille des sous-ensembles, l'empan chronologique a été élargi là où les textes étaient rares, c'est-à-dire au XVI siècle, et resserré là où ils abondaient, aux XIX et XX siècles. La première tranche s'étend ainsi sur un siècle (on l'a représentée par son année médiane: 1550) tandis que les plus proches ne recouvrent guère que deux décennies. Voir tableau 8.


Tableau 8. Limites des 12 tranches


    Nb. mots Nb.Formes     prob.p     prob.q   époque

1 1719178 67014 0.014625 0.985375 1550 2 8346862 101892 0.071006 0.928994 1630 3 6087533 69612 0.051786 0.948214 1692 4 9380093 77841 0.079796 0.920204 1735 5 11946384 99028 0.101627 0.898373 1780 6 11124272 98905 0.094633 0.905367 1820 7 16184517 124845 0.137680 0.862320 1855 8 13780168 116085 0.117227 0.882773 1885 9 8695375 98488 0.073971 0.926029 1910 10 11361661 109218 0.096653 0.903347 1928 11 10083262 106498 0.085777 0.914223 1942 12 8842284 112367 0.075220 0.924780 1960 117551589 393848

Même ainsi, l'égalité dans l'étendue des tranches n'est pas respectée et les calculs de pondération sont inévitables. Ils s'appuient tous sur les probabilités indiquées dans le tableau précédent. On renvoie le lecteur aux ouvrages de Charles Muller pour tout ce qui concerne les opérations techniques de la statistique linguistique[1]. On s'en fera toutefois une idée suffisante si l'on sait que toute observation réelle (pour un mot donné dans une tranche donnée) est comparée à une fréquence théorique, obtenue par une règle de trois, sur la base de l'étendue respective des tranches. Le résultat de cette comparaison est un nombre négatif ou positif dont le signe indique s'il s'agit d'excédent ou de déficit et dont la valeur absolue mesure l'importance de l'écart (quand l'écart est faible , entre -2 et + 2, le hasard peut être invoqué et l'on doit surseoir à toute conclusion).

Avant de rendre compte des observations chiffrées une précaution est à prendre. On évitera un écart ou un abus de langage en s'abstenant de parler de la langue ou même du lexique, pour s'en tenir au seul vocabulaire. Car langue et lexique sont des réalités non finies dont les réalisations écrites n'épuisent pas les possibilités. Relevés et calculs ne peuvent se faire que dans le discours, c'est-à-dire dans un corpus, nécessairement limité, qui est pris pour témoin et dont la composition importe grandement, puisque de la qualité de l'échantillon dépend la portée des conclusions qu'on projette sur la population. À l'inverse des sondages électoraux qui peuvent espérer du vote réel la confirmation de leurs prévisions, nul espoir jamais d'atteindre dans son intégralité la population des mots et de l'amener devant les urnes. Quelle que soit l'étendue de l'enquête, il y aura toujours des recoins inexplorés, des lacunes imprévisibles et, ce qui est pire, des régions inaccessibles par définition: ces limbes indécis où naissent et flottent les mots qui attendent le baptême. On se bornera donc à tenir le registre des éléments lexicaux rencontrés dans les textes, sans exclusion ni extrapolation. Il est facile de voir que le vocabulaire ainsi défini ne recouvre pas la nomenclature d'un dictionnaire, quoique l'un et l'autre tendent à rejoindre, de façon asymptotique, la perspective fuyante du lexique et, de façon plus molle encore, la trajectoire incertaine de la langue.

En outre une plus grande prudence s'impose en l'absence de lemmatisation. Cette opération consiste à regrouper les formes fléchies derrière leur chef de file, qui est traditionnellement l'infinitif des verbes et le masculin singulier de la classe nominale. Elle exige de coûteux et longs efforts qu'on ne peut guère entreprendre, avec des raccourcis approximatifs, que pour les textes les plus récents. S'engager dans cette voie - comme nous l'avons fait dans notre Vocabulaire français de 1789 à nos jours - eût été héroïque, vu l'énormité du corpus, d'autant que la lemmatisation est plus complexe quand l'orthographe n'est pas fixée - comme c'est le cas des textes les plus anciens. Faute de pouvoir isoler sûrement les vocables, on s'est donc contenté, à regret, des formes dans leur plus simple appareil.
Retour au sommaire