http://www.unice.fr/bcl/images/logo_BCL.gifhttp://www.unice.fr/bcl/images/logo_unice.gifhttp://www.unice.fr/bcl/images/logo_ILF.gifhttp://www.unice.fr/bcl/plugins/kitcnrs/images/logo-cnrs.gif

HYPERBASE
logiciel documentaire et statistique pour l’exploration des textes

Ce site, créé en 1995, a cédé la place au site officiel du laboratoire http://bcl.unice.fr et plus particulièrement au site propre à l’équipe http://logometrie.unice.fr. Néanmoins les bases créées sur le site d’origine restent actives. D’autres corpus s’y sont ajoutés au fil des ans, au point de constituer un catalogue de 70 monographies. Les textes y ont été soumis au traitement hypertextuel et statistique d’Hyperbase mais certaines bases de très grande ampleur n’offrent qu’une exploitation statistique des données (empruntées à Frantext : base THIEF, 250 millions de mots,  ou à Google Books : base GOOFRE2 : 70 milliards de mots).

 

Produits disponibles en téléchargement

  • Télécharger HYPERBASE version 10,  pour Windows , 368 Mo (choisir le fichier HYPERBAS.exe)
  • Télécharger l’une des 70 bases littéraires ou politiques du catalogue, 

Produits disponibles en ligne

  • BALZAC : Accès hypertextuel à la quasi totalité de la Comédie Humaine.

Pour toute information relative au logiciel HYPERBASE, s’adresser à l'auteur Etienne Brunet.

·        Historique

Hyperbase est né en 1989, à l’occasion du Bicentenaire de la Révolution française, pour répondre à une proposition du Centre Pompidou, et mettre à la disposition du public les textes relatifs à la Révolution. En réalité les fonctions documentaires et statistiques qui sont mises en œuvre dans ce logiciel reprenaient, dans un langage objet, des programmes antérieurs écrits par Etienne Brunet dans des langages procéduraux, initialement en PL1 dès 1970, puis en Cobol, Pascal ou Basic, selon la disponibilité des machines de l’époque. Hyperbase est ainsi l’un des plus anciens parmi les logiciels hypertextuels et/ou statistiques disponibles sur le marché français : LEXICO d’A. Salem, SPHINX d’Y. Baulac, ALCESTE de Max Reinert, CORDIAL de la société Synapse, WEBLEX de S. Heiden, SPAD-T de Lebart, INTEX de Maurice Gross, TROPES de la société Acetic.

·        Objectif

Comme les logiciels précités, Hyperbase permet de réaliser des bases hypertextuelles avec les textes qu’on lui fournit (en mode ASCII, mais il peut aussi convertir les textes présentés en XML ou HTML). Le programme d’exploitation répond aux besoins classiques du traitement automatique des textes : index sélectifs ou systématiques, dictionnaires des fréquences, concordances, sélection de contextes élargis, cooccurrences, recherche des parties ou groupes de mots. Hyperbase se distingue toutefois des produits traditionnels par une orientation statistique. Une comparaison est faite avec le corpus du Trésor de la langue française ou avec le corpus français de Google Books. Une autre, interne, met en relation les textes de la base, ce qui engendre des courbes, des listes de spécificités, des analyses factorielles et des mesures diverses appréciant la richesse lexicale, l’évolution du vocabulaire, la distance ou connexion des textes, la coloration thématique, etc. En particulier parmi les techniques multidimensionnelles, Hyperbase offre une approche originale qu’on ne trouve pas ailleurs : l’analyse arborée, développée au laboratoire par Xuan Luong.

·        Réalisations

Certaines des bases réalisées sont purement statistiques, notamment la base ECRIVAINS, qui compare tout le vocabulaire de 70 écrivains de la littérature française (55 millions de mots), la base CHRONO qui permet de suivre l’évolution du vocabulaire littéraire de 1600 à nos jours (117 millions de mots), et la base FRANCIL (enquête sur le français parlé et écrit dans les pays francophones, 4,5 millions de mots). Les autres donnent accès, non seulement aux données quantitatives, mais aussi au texte même, quand le problème du copyright ne se pose pas. Il s’agit alors de monographies, intégrales la plupart du temps, par exemple Rabelais, La Fontaine, Molière, Corneille, Racine, Pascal, Marivaux, Rousseau, Chateaubriand, Balzac, Hugo, Flaubert, Maupassant, Zola, Baudelaire, Rimbaud, Verlaine, Proust, etc., soit une trentaine d’écrivains majeurs. Avec certaines restrictions dues au respect du copyright, d’autres bases peuvent être transmises qui mettent en jeu des auteurs contemporains : Aragon, Breton, Dib, Eluard, Giraudoux, Gracq, Le Clézio, Mammeri, Malraux, Mauriac, Saint-John Perse, etc.). Enfin, depuis l’élargissement du champ d’investigation au domaine politique, plusieurs bases politiques (pour la plupart disponibles sur le site Politext du laboratoire) ont été créées : Blum, Thorez, Flandin, Tardieu, de Gaulle, Pompidou, Giscard, Mitterrand, etc.

Hyperbase utilise la technique classique de l’indexation et s’affranchit des limites de la mémoire centrale (où d’autres logiciels doivent trouver la place pour contenir le texte entier). Voué ainsi au traitement des gros corpus, il a été appliqué à des textes de très grande ampleur : le journal Le Monde, Le Monde Diplomatique, le journal portugais Publico, l’Encyclopédie Encarta, l’intégrale de la revue Europe, grosse de 60 millions de mots. Au total les textes qu’Hyperbase a traités au laboratoire représentent le tiers de Frantext.

·        Variantes

Hyperbase s’efforce d’allier la souplesse à la puissance : des bases particulières, dont le code et les fonctions ont été adaptés à des données spécifiques, ont été réalisées. Ainsi est né le CD de littérature latine, réalisé par Sylvie Mellet à partir des données du LASLA de Liège, ou le CD de littérature algérienne réalisé par Marie Virolle. De même, il existe une version portugaise d’Hyperbase, avec des textes juridiques et littéraires réunis par Carlos Maciel pour son projet PORTEXT. Si la version restreinte peut traiter n’importe quelle langue utilisant l’alphabet occidental, elle ne propose un dictionnaire de référence que pour le français, l’anglais, l’italien et le portugais. D’autres versions spéciales ont été réalisées, par exemple pour des données structurées et dictionnairiques, pour des textes alignés et bilingues, pour des données multimédia, mêlant le texte et l’image, enfin pour une diffusion sur Internet ; deux bases, l’une sur Rabelais et son temps (site dynamique), l’autre sur l’ensemble de la Comédie humaine de Balzac (site statique), sont disponibles en ligne. Parfois les nécessités du commerce ont imposé une limitation des fonctions, et c’est le cas des cédéroms Rimbaud, Pascal et Proust que Champion Electronique a intégrés dans son catalogue.

Mais surtout, à côté de la version restreinte, Hyperbase propose désormais une version pour données étiquetées et lemmatisées (préalablement soumises au lemmatiseur du commerce Cordial ANALYSEUR pour le français). On peut aussi choisir le lemmatiseur TreeTagger et cette solution s’impose s’il s’agit de textes anglais, allemands, espagnols ou italiens. Appliqués à de telles données, les traitements documentaires et statistiques s’étendent non plus seulement au seul lexique, mais à la composition grammaticale, aux structures syntaxiques, au style et à la sémantique. Il s’agit là de l’atout principal d’Hyperbase par rapport aux logiciels classiques de lexicométrie.

Dans ce cadre de l’optimisation du logiciel, précisons pour finir qu’on s’emploie régulièrement à implémenter des fonctions nouvelles, parfois originales, parfois empruntées aux publications ou découvertes extérieures (par exemple l’étude récente en octobre 2005 des séquences et de la topologie, inspirée des travaux de Pierre Lafon et de Max Reinert, ou celles plus récentes encore au printemps 2008 sur les co-occurrences inspirées des travaux de Serge Heiden ou de Jean-Marie Viprey).Parfois même des programmes tiers, hérités de Ludovic Lebart, André Salem ou Pierre Ratinaud, sont directement mis en œuvre.

·        Communauté d'utilisateurs

Hyperbase est à l’origine destiné aux analyses de contenu, domaine commun aux littéraires, aux linguistes, aux historiens, aux philosophes dont la matière première est le texte. Des sociologues, des psychologues, voire des instituts de sondages utilisent également Hyperbase pour l’analyse des enquêtes en texte libre ou des études de marché. Précisons enfin que le logiciel fonctionne sous environnement Windows (la version Mac n’est malheureusement plus disponible jusqu’à nouvel ordre). Le prix de vente étant modulable selon le nombre de licences commandées, il est répandu assez largement dans le monde de la recherche et est enseigné dans plusieurs universités de France et du Canada. La version 10 étant désormais gratuite et téléchargeable (depuis 2015), la diffusion du logiciel devrait s’en trouver élargie.

·        Perspectives

Conçu il y a longtemps pour le standard Apple, puis développé pour Windows, la version historique d’Hyperbase était difficile à maintenir : son code n’était pas le même sur les deux plateformes. En outre son intégration à Internet n’était pas suffisante. Enfin, l’âge de son créateur, ainsi que le langage propriétaire dans lequel il a été écrit offraient peu de garantie de maintenance et de développement. C’est pourquoi une refonte du logiciel Hyperbase a été confiée au Service Informatique du laboratoire BCL, afin d’améliorer la modularité du logiciel et sa transportabilité sur Internet ; les priorités principales étant la réécriture de l’application dans des langages supportant les technologies du web (php, java, javascript), et ce dans le respect des standards informatiques actuels (imports / exports aux formats XML et TEI ; encodage Unicode des caractères, afin de pouvoir traiter des langues non-indoeuropéennes et/ou rédigées dans d’autres alphabets que l’alphabet latin). Laurent Vanni, ingénieur récemment recruté au laboratoire, s’est consacré à cette tâche.