THIEF off line
THIEF
(Tools for Helping Interrogation and Exploitation of Frantext)
Version 2
(Mac et Windows)
Retour au sommaire
La structure lexicale
L'étude du corpus lemmatisé des XIX et XX siècles,
entreprise dans notre Vocabulaire français de 1789 à nos
jours, avait confirmé le phénomène attendu de la
créativité lexicale. La planche à fabriquer les mots
a bien fonctionné depuis la Révolution, à l'image des
planches à billets, et l'inflation du vocabulaire se vérifie
dans le français moderne, tant au niveau général, quand
toutes les unités lexicales sont prises en compte, qu'au niveau particulier
mais révélateur des hapax (ou mots employés une seule
fois).
Figure 24. L'inflation lexicale depuis 1789
La courbe 24 correspond bien au sentiment qu'on peut avoir naïvement
des mouvements du vocabulaire. La masse lexicale, comme la masse monétaire,
s'accroît sans cesse, pour répondre aux besoins de la technologie
qui invente des objets nouveaux, qu'il faut bien nommer, pour répondre
aussi à l'usure des mots et à la surenchère naturelle
qui s'exerce dans le commerce des mots comme dans le commerce des biens
et des marchandises. La loi des échanges donne toujours une plus-value
à ce qui est neuf. Mais dans le domaine linguistique ce qui est vieux
n'est pas pour autant perdu et oublié. Les mots vieillis vivotent
longtemps et quand on les rencontre dans un texte ancien, on les reconnaît
encore, avec surprise et plaisir, comme les objets abandonnés au
grenier. Il n'y a pas équilibre entre les morts et les naissances
verbales et cela conduit sinon à la surpopulation, du moins à
un certain encombrement des communications.
Pourtant la courbe prolongée jusqu'au XVI siècle, à
partir du présent corpus de Frantext, semble en désaccord
avec les observations faites jusqu'ici. Ce sont les premières tranches
qui l'emportent, tant pour l'étendue du vocabulaire (figure 25) que
pour le nombre des hapax, ce que tend à montrer aussi l'accroissement
dynamique du vocabulaire. Dans cette dernière perspective, on se
déplace dans le temps, d'une tranche à l'autre, en notant
l'apport lexical de chacune. Là encore le XVIsiècle garde
une part de ses prérogatives, sans masquer tout à fait la
tendance invincible au renouvellement (figure 26).
Figure 25. Courbe de la richesse lexicale depuis 1500
(par la méthode de la loi binomiale, version Mac)
L'explication de cette anomalie est assez triviale. Point n'est besoin d'invoquer
Malherbe pour opposer l'esthétique sobre et sévère
des classiques à la luxuriance lexicale de la Renaissance, à
qui ni les archaïsmes, ni les néologismes ne faisaient peur.
Il s'agit tout bonnement de variations orthographiques. Si le corpus avait
été lemmatisé, cet artefact aurait disparu, les doublons
et les variantes rejoignant la vedette de regroupement. Mais les formes
brutes ne peuvent échapper aux perturbations d'une orthographe non
normalisée et le gonflement des effectifs tient à ce qu'un
même mot est comptabilisé plusieurs fois dès que l'ajout
ou le retrait d'un accent lui donne une identité nouvelle. Ainsi
on a compté jusqu'à neuf variantes orthographiques de l'évêque
dans les premières tranches. L'époque moderne a naturellement
supprimé les sièges surnuméraires et les titres in
partibus.
Figure 26. Courbe de l'accroissement du vocabulaire
(visée dynamique), version PC
D'autres éléments de la structure du vocabulaire sont disponibles
quand on active le bouton Distr de la version Mac ou le bouton Structure
du menu principal dans la version Windows. On est alors conduit à
un sous-menu qui propose des relevés de fréquences et des
graphiques variés, comme indiqué dans la marge droite de la
figure 27 (Windows) ou au haut de la figure 28 (Mac).
Figure 27. La structure lexicale. Menu de la version PC
Figure 28. La structure lexicale. Menu de la version Mac.
Retour au sommaire