CHAPITRE 1
La préparation
PRÉSENTATION DES DONNÉES
Les données textuelles doivent se trouver dans un fichier ASCII (ou "texte seulement"). On a pris en compte la plupart des alphabets européens. Aucun formatage particulier n'est obligatoire, le logiciel se chargeant de la pagination et de la partition, si elles sont absentes du fichier. En ce cas les cartes (ou pages) ont environ 200 mots et l'ensemble du texte est découpé en 9 parties de longueur voisine. L'utilisateur est averti des dispositions requises et du résultat de l'expertise effectuée sur les données de son choix. Si les conventions adoptées lui conviennent, il peut poursuivre le traitement ou l'interrompre,dans le cas contraire, s'il veut d'abord corriger le fichier. Noter que l'expertise n'envisage que le début du fichier et ne garantit pas l'homogénéité et la fiabilité des données. L'erreur la plus commune est de laisser croire que les pages sont partout numérotées et partout précédées du symbole $, alors que ce code a été oublié à certains endroits du fichier. En une telle situation, le programme risque d'empiler les paragraphes les uns sur les autres, en attendant vainement la page suivante, et la saturation de la mémoire pourrait produire une erreur. Tout aussi grave est l'incohérence à l'endroit de la partition. S'il trouve une première partie, le logiciel s'attend à en trouver d'autres. En réalité le programme a prévu ces défauts graves et s'en accommode au mieux. Mais c'est au prix d'approximations qui ne seront pas toujours satisfaisantes. Les pages ou les parties dont le signalement aura été oublié dans les données seront bien intégrées à la base, mais elles seront annexées aux pages ou parties précédentes et porteront le même numéro.
Mais il vaut mieux suivre le découpage naturel des données, s'il existe. Deux conventions doivent alors être respectées:
- les parties doivent être précédées d'une ligne où l'on indiquera le titre (en 20 caractères maximum, sans virgules ni apostrophes) en utilisant, devant et derrière, le symbole composite &&& (sans blanc). Veiller à bien choisir le dernier mot du titre qui doit être unique et distinctif et qui sert d'abréviation lorsque la place manque, par exemple dans les graphiques.
- les pages sont indiquées en ajoutant une ligne (au début de la page) et en y portant le numéro, immédiatement précédé d'un code spécial: le symbole $. Veiller à faire disparaître le symbole $, si ce code apparaît dans le texte même.
Exemple:
&&&La vie en rose&&&
$1
texte de la page 1
$2
texte de la page 2, etc.
&&&Le travail au noir&&&
$62
texte de la page 62
$63
texte de la page 63, etc.
Quand une base est constituée, on peut la verrouiller et interdire toute modification. Le verrouillage ne gêne nullement l'exploitation (mais il est évidemment incompatible avec la création d'une nouvelle pile).
L'écran au moment de la phase de préparation
LE PROGRAMME CREER
Le lancement du programme CREER fait apparaître un premier dialogue qui demande des précisions sur le nom du fichier à traiter (qu'on aura préalablement déposé dans le répertoire HYPERBAS). On s'attend à ce que ce fichier soit de type ASCII, forme sous laquelle tous les traitements de texte peuvent présenter les données textuelles.
Mais le format ASCII ne préjuge pas de la segmentation du corpus: en mots, en lignes, en paragraphes, en pages, en textes distincts. D'où quelques explications qui précisent les options retenues:
1 - Les pages
S'il existe un code de début de page le programme s'attend à trouver à cet endroit un numéro de page (si ce numéro n'existe pas ou si sa valeur n'est pas numérique, la numérotation de la carte sera faite à partir de la page précédente, ou à partir de 1 si l'absence de numéro est systématique).
Si les pages (ou toute autre segmentation de même type) n'ont pas été distinguées, le programme procède de lui-même au découpage des pages à raison de 200 mots au moins par page (en s'abstenant de couper les paragraphes).
2 - Les paragraphes
Les paragraphes sont délimités par le retour de chariot (en réalité un code double: CR (ascii ndeg. 13) suivi de LF (ascii ndeg. 10). Si les paragraphes ainsi définis sont trop longs, le programme permet de les découper en unités plus petites (en s'abstenant de couper les phrases). Cette unité de segmentation doit nécessairement exister, sans quoi le programme d'importation, qui s'appuie sur ces délimiteurs, aura un fonctionnement perturbé.
3 - Les phrases
La segmentation en phrases ne trouve à s'appliquer que lorsqu'un paragraphe est jugé trop long, comme expliqué plus haut. Pour distinguer les phrases, le programme prend appui sur une ponctuation forte, principalement le point.
4 - Les lignes
La segmentation en lignes est rarement pertinente, sauf en poésie versifiée. Le programme n'en tient pas compte. Prendre garde à certaines options proposées par les scanners, qui maintiennent la mise en page originale des documents - ce qui est louable - mais confondent dans le même signe fins de ligne et fin de paragraphes - ce qui est moins heureux. Si les données sont de ce type, on aura intérêt à supprimer les retours de chariot intempestifs, en veillant en outre à recoller les mots coupés en fin de ligne.
5 - Les mots
Le découpage des mots et leur classement obéissent aux exigences du français et plus généralement des langues pourvues de diacritiques. Les mots accentués prennent place au rang qu'ils ont dans le dictionnaire. La distinction entre majuscule et minuscule est abolie dans les classements et dans les recherches ultérieures, mais non pas dans le texte qui restitue fidèlement la différence, ni même dans le dictionnaire, où la distinction est maintenue pour faire apparaître les noms propres. Comme cette décantation est entièrement automatique, elle est sujette à quelques bévues, notamment lorsqu'un mot du vocabulaire commun apparaît en tête de phrase, avec la majuscule, et qu'on ne le trouve nulle part ailleurs doté d'une minuscule. La définition des mots est dépendante de la liste établie pour les séparateurs, laquelle, outre le blanc, le symbole de tabulation et le retour de chariot, comprend 17 symboles:
, . ; : ? ! " ' ( ) < > - -- + / =
Aucun de ces symboles n'est admis à l'intérieur d'un mot (à l'exception de l'apostrophe en position finale). Un blanc n'est pas significatif s'il accompagne un séparateur ou s'il est redoublé. Commer les guillemets appartiennent au métalangage, on leur a substitué un code non ambigu qui apparaît en position haute (") et qui correspond au caractère ascii 148.
Quand le programme de préparation est lancé, il poursuit son cours jusqu'à la fin sans aucune intervention. Mais l'utilisateur peut suivre sur l'écran le déroulement des opérations et attendre patiemment que la dernière étape arrive à son terme. Si la première phase est rapide (importation et reformatage des données), la seconde requiert un certain temps. Les opérations de tri et d'interclassement sont en effet plus lentes lorsqu'elles mettent en oeuvre des fichiers que lorsque le traitement s'accomplit en mémoire centrale. Comme HYPERBASE est destiné aux grands corpus, on a craint que certaines machines peu puissantes ne puissent venir à bout des tris en recourant seulement à la mémoire. Ce qu'on a perdu en rapidité est donc gagné en sécurité, même si l'on songe à accélérer cette phase dans l'avenir en recourant à la technique de l'overlay. Les dernières étapes sont plus expéditives. En cas d'interruption, il est possible de reprendre le traitement aux points de reprise, à condition que les fichiers intermédiaires n'aient pas été détruits entre temps. Ces fichiers commencent par les mots INDEX ou GENERAL. Les premiers correspondent à l'index des textes individuels, dont le nombre ne doit pas dépasser 81. Les seconds sont le fruit de l'interclassement des premiers, à raison de 9 par lot. L'interclassement final de ces fichiers (nombre maximum: 9), fait à un second niveau, génère le fichier GENERAL, qui contient le dictionnaire indexé du corpus et qui est transféré à l'intérieur de la base. Dans une version ultérieure, on aura la possibilité d'ajouter un texte à ceux qui auront été traités, sans être obligé de reprendre tout le traitement.
Limites à respecter
Dans sa version actuelle, le programme accepte 81 textes différents. La longueur de chacun des textes n'importe guère. Mais il est évidemment préférable que leur étendue, d'un texte à l'autre, ne soit pas trop déséquilibrée, quoique les calculs de pondération corrigent les différences de taille. Si les "textes" correspondent à des segments trop courts ou si leur nombre dépasse la limite 81, on procèdera à des regroupements, en satisfaisant non seulement aux contraintes du programme mais aussi aux impératifs méthodologiques de la statistique. Pour que les tests probabilistes puissent s'exercer, il faut en effet que la loi des grands nombres ait suffisamment d'espace pour se déployer - ce qui n'est pas le cas lorsqu'un texte n'a que quelques pages.
Dernière phase
La dernière étape du traitement s'emploie à comparer le corpus traité au corpus littéraire de FRANTEXT, qui comprend 117 millions de mots et s'étend sur cinq siècles. On a la liberté de choisir une époque particulière de ce corpus, afin de rapprocher les deux termes de la comparaison et de justifier, autant que faire se peut, ce recours à une référence externe. Mais on a aussi la possibilité de renoncer à ce traitement, s'il ne s'impose pas (et notamment lorsque le corpus étudié appartient à une autre langue que le français).
Quand le programme de préparation est terminé, on revient au menu principal et l'exploitation de la base peut commencer. Le programme prévoit cependant un rechargement préalable, afin de vérifier que tout est en place et de verrouiller la base, ce qui prévient les accidents sans gêner l'exploitation. Le verrouillage sous Windows consiste à afficher les propriétés d'un fichier (dans le menu FICHIER de l'EXPLORATEUR) et à cocher l'option LECTURE SEULE.
Au terme du parcours, divers traitements ont été exécutés sur lesquels on ne reviendra plus:
- la reconnaissance et le tri des formes
- l'indexation proprement dite
- le dictionnaire des fréquences, alphabétique et hiérarchique
- le calcul des spécificités, externes et internes
- les coefficients de corrélation
- le tableau de distribution des fréquences
- la mesure de la richesse lexicale, de l'accroissement du vocabulaire et de la proportion des hapax
- et divers tests statistiques qu'on détaillera par la suite.
Tous les résultats ont été communiqués à la base, dont l'exploration et l'exploitation peuvent désormais se faire de façon autonome sans recours aux fichiers externes.