Retour au sommaire

CHAPITRE 4

L'exploitation statistique

PARTITION et STATISTIQUE

Si les données étaient d'un seul tenant, la seule comparaison - et donc la seule opération statistique - qu'on pourrait faire serait extérieure (et c'est précisément celle qui prend appui sur le Dictionnaire du TLF et qui produit la liste des spécificités externes).

En réalité, même si le corpus n'a pas de subdivisions naturelles, dûment jalonnées dans le fichier des données (comme expliqué précédemment), le traitement opère une segmentation artificielle en découpant neuf tronçons de longueur voisine dans le flux des données. Quand le texte représente un discours suivi ou que les données sont de type sériel ou chronologique, un découpage de cette sorte, même brutal et sommaire, peut délivrer des résultats suggestifs, qui inviteront à pratiquer une segmentation plus adéquate et à renouveler le traitement, sur des fondements mieux assurés. Que les divisions soient naturelles ou arbitraires, les calculs obéissent aux mêmes principes et s'appuient pareillement sur les lois classiques de la statistique linguistique, principalement la loi normale et la loi binomiale. Et les probabilités p et q qu'on lit dans la distribution ci-dessous servent à tous les calculs de pondération.

Si l'on souhaite vérifier ces calculs de pondération et contrôler les tests statistiques, l'étendue et les caractéristiques de chacun sont montrées quand on sollicite le bouton STRUCTURE, puis le bouton PROBAB. Voici ce qu'on obtient pour le corpus Rabelais.

Étendue relative des textes du corpus

Retour au sommaire