THIEF off line THIEF (Tools for Helping Interrogation and Exploitation of Frantext)
Version 2
(Mac et Windows)

Retour au sommaire




La structure lexicale


L'étude du corpus lemmatisé des XIX et XX siècles, entreprise dans notre Vocabulaire français de 1789 à nos jours, avait confirmé le phénomène attendu de la créativité lexicale. La planche à fabriquer les mots a bien fonctionné depuis la Révolution, à l'image des planches à billets, et l'inflation du vocabulaire se vérifie dans le français moderne, tant au niveau général, quand toutes les unités lexicales sont prises en compte, qu'au niveau particulier mais révélateur des hapax (ou mots employés une seule fois).


Figure 24. L'inflation lexicale depuis 1789




La courbe 24 correspond bien au sentiment qu'on peut avoir naïvement des mouvements du vocabulaire. La masse lexicale, comme la masse monétaire, s'accroît sans cesse, pour répondre aux besoins de la technologie qui invente des objets nouveaux, qu'il faut bien nommer, pour répondre aussi à l'usure des mots et à la surenchère naturelle qui s'exerce dans le commerce des mots comme dans le commerce des biens et des marchandises. La loi des échanges donne toujours une plus-value à ce qui est neuf. Mais dans le domaine linguistique ce qui est vieux n'est pas pour autant perdu et oublié. Les mots vieillis vivotent longtemps et quand on les rencontre dans un texte ancien, on les reconnaît encore, avec surprise et plaisir, comme les objets abandonnés au grenier. Il n'y a pas équilibre entre les morts et les naissances verbales et cela conduit sinon à la surpopulation, du moins à un certain encombrement des communications.

Pourtant la courbe prolongée jusqu'au XVI siècle, à partir du présent corpus de Frantext, semble en désaccord avec les observations faites jusqu'ici. Ce sont les premières tranches qui l'emportent, tant pour l'étendue du vocabulaire (figure 25) que pour le nombre des hapax, ce que tend à montrer aussi l'accroissement dynamique du vocabulaire. Dans cette dernière perspective, on se déplace dans le temps, d'une tranche à l'autre, en notant l'apport lexical de chacune. Là encore le XVIsiècle garde une part de ses prérogatives, sans masquer tout à fait la tendance invincible au renouvellement (figure 26).



Figure 25. Courbe de la richesse lexicale depuis 1500


(par la méthode de la loi binomiale, version Mac)



L'explication de cette anomalie est assez triviale. Point n'est besoin d'invoquer Malherbe pour opposer l'esthétique sobre et sévère des classiques à la luxuriance lexicale de la Renaissance, à qui ni les archaïsmes, ni les néologismes ne faisaient peur. Il s'agit tout bonnement de variations orthographiques. Si le corpus avait été lemmatisé, cet artefact aurait disparu, les doublons et les variantes rejoignant la vedette de regroupement. Mais les formes brutes ne peuvent échapper aux perturbations d'une orthographe non normalisée et le gonflement des effectifs tient à ce qu'un même mot est comptabilisé plusieurs fois dès que l'ajout ou le retrait d'un accent lui donne une identité nouvelle. Ainsi on a compté jusqu'à neuf variantes orthographiques de l'évêque dans les premières tranches. L'époque moderne a naturellement supprimé les sièges surnuméraires et les titres in partibus.


Figure 26. Courbe de l'accroissement du vocabulaire


(visée dynamique), version PC



D'autres éléments de la structure du vocabulaire sont disponibles quand on active le bouton Distr de la version Mac ou le bouton Structure du menu principal dans la version Windows. On est alors conduit à un sous-menu qui propose des relevés de fréquences et des graphiques variés, comme indiqué dans la marge droite de la figure 27 (Windows) ou au haut de la figure 28 (Mac).



Figure 27. La structure lexicale. Menu de la version PC




Figure 28. La structure lexicale. Menu de la version Mac.



Retour au sommaire