Retour au sommaire

MATERIEL REQUIS

Il est évidemment préférable de disposer d'une machine plus puissante, lorsqu'on procède à l'incorporation d'un texte. Les temps de préparation et surtout de tri s'en trouvent considérablement réduits. Il est aussi avantageux de disposer d'une large mémoire, lors de cette phase de préparation. Si ce texte est long et la mémoire étroite, le temps de traitement s'allongera, le programme étant paramétré de façon à se contenter de ce qui reste disponible.

Lors de l'exploitation, un ordinateur peu puissant peut suffire. Mais là encore si la pile est trop importante, certaines fonctions de recherche seront ralenties et la mémoire encombrée, et il vaut mieux utiliser une machine récente, et, si possible, un écran capable de restituer les couleurs dont le programme HYPERBAS est agrémenté (au moins 256 couleurs). On a résisté à la tentation d'entreposer dans la mémoire vive des tableaux trop importants , et par exemple le texte même. Le recours à la lecture des champs est systématique, les champs et les pages ayant été judicieusement segmentés pour raccourcir les temps d'attente.

De même cette version du logiciel HYPERBAS est assez peu gourmande en espace disque. Lorsqu'il s'agit de grands corpus la base occupe moins du double du fichier original. Ce rapport est moins favorable dans les petits corpus, parce qu'on a maintenu une part de la place vacante. L'économie sera mieux ménagée dans les versions ultérieures. Si la taille de la pile reste modérée, les fonctions de recherche disponibles ont une rapidité acceptable, d'autant que le traitement est facilité par les ressources de l'indexation. Dans les grands corpus, ces ressources jouent un plus grand rôle encore, car la taille des fichiers déconseille les techniques de recherche séquentielle d'autant que le CD-ROM où de tels corpus élisent domicile est un support de grande contenance mais de faible rapidité. La recherche indexée s'appuie sur des accès directs et des processus de Hashcoding qui limitent toute recherche à deux mouvements de la tête de lecture. Noter cependant que les accès directs sont moins nécessaires lorsqu'il s'agit de signes ou mots fréquents. Quoique l'indexation ait été exhaustive dans la phase de création, on n'a pas cru bon de conserver ces index encombrants pour la virgule et les outils grammaticaux, qui sont dépourvus de références, mais leur fréquence même rend la recherche assez rapide, puisqu'on les trouve dans chaque page.

A titre d'exemple, un corpus d'un million de mots exigera plus d'une heure de traitement initial. Avec une mémoire plus étendue et une machine plus récente, le temps de préparation peut être réduit. Si le corpus est très volumineux, il sera préférable d'utiliser une machine disposant d'une mémoire plus étendue. Cette restriction ne vaut que pour la préparation de la base de données (qui n'a lieu qu'une fois et qui peut faire l'objet d'un emprunt extérieur et occasionnel), et non pour l'exploitation de cette base, qui n'a guère d'exigence.

Quant aux limites de puissance d'HYPERBASE, elles ont été repoussées aussi loin qu'on l'a pu. D'une part les limites à la partition sont moins étroites. On avait prévu initialement 40 textes maximum, ce qui était suffisant, à notre sens, pour les recherches littéraires, linguistiques ou historiques. C'était là négliger certaines applications de la documentation automatique, de l'économie ou de la sociologie, à quoi notre logiciel a été appliqué et que nous n'avions pas envisagées au départ. Or de telles enquêtes sont faites d'unités plus courtes mais plus nombreuses, dont le nombre peut atteindre la centaine. La limite actuelle d'HYPERBAS est du double, soit 81 textes (mais ce nombre est provisoirement réduit à 50 pour le calcul des spécificités). Les corpus de grande taille peuvent y trouver place (un fichier de données de 20 millions de caractères ou davantage peut être traité, comme cela a été tenté avec l'intégralité de la Comédie humaine, soit 12 tomes de la Pléiade).

STRUCTURE DE LA BASE

Il est un peu tard en conclusion pour décrire l'organisation interne de la pile constituée par HYPERBASE. Il est vrai que certains lecteurs commencent un livre par la fin. Cette structure est concentrée en un seul fichier et comprend trois types de pages:

- les pages-texte. Elles occupent les derniers rangs de la base, à partir de la page ndeg. 365. Leur nombre n'est pas limité.

- les pages-dictionnaire , qui occupent les premières places, de la page 11 à la page 292. Leur nombre est fixe, même si les données ne remplissent pas la totalité de l'espace alloué (les pages-dictionnaire restées vides sont alors inaccessibles aux boutons de navigation).

- les pages-résultats, qui font tampon entre les deux zones, de la page 293 à 364 (la page 365 sert de modèle aux pages-textes et n'est jamais remplie) et qui assurent chacune un rôle spécifique:

- graphiques

- analyse factorielle

- index (ou dictionnaires ou concordances alphabétiques)

- listes de mots (voir page 61)

- vocabulaire spécifique du corpus et des textes qui le constituent

- structure du vocabulaire.

A ce lot se rattachent les dix premières cartes, dont le rôle est essentiel pour le pilotage général, et particulièrement pour les fonctions qui intéressent la création d'une base nouvelle et l'exploitation systématique d'une base créée. C'est là qu'on trouve les deux principales fonctions de recherche documentaire CONCORDANCE et CONTEXTE.

CIRCULATION DANS LA BASE

La circulation n'a guère de sens interdit.

1 - D'une part à partir de chaque carte d'un type donné, on peut aller à la suivante ou à la précédente du même groupe en utilisant les boutons flèche à droite ou flèche à gauche. C'est la circulation linéaire. L'adressage sélectif est aussi possible à l'intérieur du même groupe.

2 - D'autre part les relations sont aussi intergroupes. Car selon les méthodes de l'hypertexte, chaque mot (et donc la page-dictionnaire qui le contient) est relié aux pages où on le rencontre, de même que les formes d'une page donnée renvoient à l'emplacement qui est le leur dans les pages-dictionnaire, en sorte que le va-et-vient est incessant tout en restant ordonné: on revient toujours au point de départ. Le passage d'une zone à l'autre peut aussi se faire sans qu'aucune forme ne soit en cause, par la pression sur les boutons d'adressage direct.

3 - Enfin à partir des pages-résultats, on peut aller aux autres pages-résultats, et l'on peut aussi s'adresser au dictionnaire et au texte. Il arrive pourtant que par manque de place, tous les boutons de renvoi ne soient pas disponibles. En ce cas pour être conduit à la carte 1 où tous les aiguillages sont ouverts, il suffit de solliciter le bouton SOMMAIRE, qui est présent partout sous la même forme. Afin de prévenir la circulation désordonnée, on s'est appliqué à le rendre souvent seul visible et quasiment obligatoire, afin que l'utilisateur reconnaisse son chemin parmi les sentiers battus.

Les différents circuits possibles sont indiqués sur le graphique ci-dessous qui perd en lisibilité tout ce qu'il gagne en liberté. Il n'est pas très utile de s'interroger ici sur les chemins permis. Il vaut mieux porter son attention sur les circuits impossibles, dont on ne trouve quasiment aucun exemple. En sorte que la règle de circulation est d'une simplicité rabelaisienne: fais ce que voudras.

Circulation dans HYPERBASE

Retour au sommaire