RICHESSE LEXICALE, HAPAX, ACCROISSEMENT
Le programme de préparation, entre autres tâches, constitue le tableau de distribution des classes de fréquences, le relevé des hapax (ou mots employés une seule fois) et bien d'autres résultats qui intéressent la structure du vocabulaire. Pour voir et imprimer ces tableaux, solliciter le bouton STRUCTURE qui conduit à une page spécifique où sont consignés les résultats statistiques acquis dans cette perspective. Le bouton RICHESSE fait le dénombrement des formes différentes relevées dans chaque texte. Et en s'appuyant sur le tableau de distribution des fréquences (voir ci-dessous) et sur l'étendue relative des textes, un calcul est exécuté par le programme, qui suit la loi binomiale (méthode de Charles Muller) et mesure la richesse lexicale des sous-ensembles.
Vocabulaire et hapax. Les données (corpus Rabelais).
Histogramme de la richesse lexicale (corpus Rabelais)
Tableau de distribution des fréquences
Un calcul plus classique est appliqué aux hapax, c'est-à-dire aux formes qui ont été rencontrées une seule fois dans le corpus, et conséquemment dans un seul texte. La méthode est ici plus simple et se rattache à la loi normale. On aboutit pareillement à des écarts réduits qui servent d'ordonnées au programme de courbe.
C'est par contre une approximation qui rend compte au mieux de l'accroissement du vocabulaire (par un ajustement de courbe de fonction puissance, selon la formule : y = ax b ). Cette fois la visée est dynamique, puisqu'on évalue le cumul progressif des formes et le renouvellement de plus en plus ralenti du vocabulaire. La direction naturelle est celle qui suit la chronologie mais le chemin inverse qui prend le temps à rebours peut révéler des ruptures également intéressantes. Les deux trajets sont empruntés successivement et donnent lieu à deux boutons (CHRONO et INVERSE), à deux tableaux et à deux graphiques.