Logométrie et corpus politiques, médiatiques et littéraires

Logiciel

Bases

Télécharger le logiciel Télécharger une base (parmi 100 disponibles)
Voir aussi : Atelier | Manuel | Hyperbase Web

Hyperbase 10
Concepteur: Etienne Brunet

Le logiciel Hyperbase, dans sa version 10, est gratuit et téléchargeable, ainsi que les bases associées.

Hyperbase permet de réaliser des bases hypertextuelles et des traitements statistiques à partir des textes qui lui sont fournis - bruts, lemmatisés ou étiquetés : navigation plein texte, index sélectifs ou systématiques, dictionnaires fréquentiels, concordances, sélection de contextes élargis, calcul de spécificités, richesse lexicale, cooccurrences, distances intertextuelles, graphes d'associations, listes et partitions, recherche des parties ou groupes de mots, segments répétés, analyses factorielles et classifications arborées, topologie textuelle ; comparaison avec le Trésor de la langue française et Google-books.

Langues traitées : Français, Latin, Anglais, Espagnol, Allemand, Italien, Portugais. Domaines d’application : Littérature, Discours politique, Etude de presse, Grands corpus numériques.

Plateforme : Windows 10, Seven, XP, 32/64 bits
Plus d'informations Moins d'informations

Historique

Hyperbase est né en 1989, à l’occasion du Bicentenaire de la Révolution française, pour répondre à une proposition du Centre Pompidou, et mettre à la disposition du public les textes relatifs à la Révolution. En réalité les fonctions documentaires et statistiques qui sont mises en œuvre dans ce logiciel reprenaient, dans un langage objet, des programmes antérieurs écrits par Etienne Brunet dans des langages procéduraux, initialement en PL1 dès 1970, puis en Cobol, Pascal ou Basic, selon la disponibilité des machines de l’époque. Hyperbase est ainsi l’un des plus anciens parmi les logiciels hypertextuels et/ou statistiques disponibles sur le marché français : LEXICO d’A. Salem, SPHINX d’Y. Baulac, ALCESTE de Max Reinert, CORDIAL de la société Synapse, WEBLEX de S. Heiden, SPAD-T de Lebart, INTEX de Maurice Gross, TROPES de la société Acetic.

Objectif

Comme les logiciels précités, Hyperbase permet de réaliser des bases hypertextuelles avec les textes qu’on lui fournit (en mode ASCII, mais il peut aussi convertir les textes présentés en XML ou HTML). Le programme d’exploitation répond aux besoins classiques du traitement automatique des textes : index sélectifs ou systématiques, dictionnaires des fréquences, concordances, sélection de contextes élargis, cooccurrences, recherche des parties ou groupes de mots. Hyperbase se distingue toutefois des produits traditionnels par une orientation statistique. Une comparaison est faite avec le corpus du Trésor de la langue française ou avec le corpus français de Google Books. Une autre, interne, met en relation les textes de la base, ce qui engendre des courbes, des listes de spécificités, des analyses factorielles et des mesures diverses appréciant la richesse lexicale, l’évolution du vocabulaire, la distance ou connexion des textes, la coloration thématique, etc. En particulier parmi les techniques multidimensionnelles, Hyperbase offre une approche originale qu’on ne trouve pas ailleurs : l’analyse arborée, développée au laboratoire par Xuan Luong.

Réalisations

Certaines des bases réalisées sont purement statistiques, notamment la base ECRIVAINS, qui compare tout le vocabulaire de 70 écrivains de la littérature française (55 millions de mots), la base CHRONO qui permet de suivre l’évolution du vocabulaire littéraire de 1600 à nos jours (117 millions de mots), et la base FRANCIL (enquête sur le français parlé et écrit dans les pays francophones, 4,5 millions de mots). Les autres donnent accès, non seulement aux données quantitatives, mais aussi au texte même, quand le problème du copyright ne se pose pas. Il s’agit alors de monographies, intégrales la plupart du temps, par exemple Rabelais, La Fontaine, Molière, Corneille, Racine, Pascal, Marivaux, Rousseau, Chateaubriand, Balzac, Hugo, Flaubert, Maupassant, Zola, Baudelaire, Rimbaud, Verlaine, Proust, etc., soit une trentaine d’écrivains majeurs. Avec certaines restrictions dues au respect du copyright, d’autres bases peuvent être transmises qui mettent en jeu des auteurs contemporains : Aragon, Breton, Dib, Eluard, Giraudoux, Gracq, Le Clézio, Mammeri, Malraux, Mauriac, Saint-John Perse, etc.). Enfin, depuis l’élargissement du champ d’investigation au domaine politique, plusieurs bases politiques (pour la plupart disponibles sur le site Politext du laboratoire) ont été créées : Blum, Thorez, Flandin, Tardieu, de Gaulle, Pompidou, Giscard, Mitterrand, etc.

Variantes

Hyperbase s’efforce d’allier la souplesse à la puissance : des bases particulières, dont le code et les fonctions ont été adaptés à des données spécifiques, ont été réalisées. Ainsi est né le CD de littérature latine, réalisé par Sylvie Mellet à partir des données du LASLA de Liège, ou le CD de littérature algérienne réalisé par Marie Virolle. De même, il existe une version portugaise d’Hyperbase, avec des textes juridiques et littéraires réunis par Carlos Maciel pour son projet PORTEXT. Si la version restreinte peut traiter n’importe quelle langue utilisant l’alphabet occidental, elle ne propose un dictionnaire de référence que pour le français, l’anglais, l’italien et le portugais. D’autres versions spéciales ont été réalisées, par exemple pour des données structurées et dictionnairiques, pour des textes alignés et bilingues, pour des données multimédia, mêlant le texte et l’image, enfin pour une diffusion sur Internet ; deux bases, l’une sur Rabelais et son temps (site dynamique), l’autre sur l’ensemble de la Comédie humaine de Balzac (site statique), sont disponibles en ligne. Parfois les nécessités du commerce ont imposé une limitation des fonctions, et c’est le cas des cédéroms Rimbaud, Pascal et Proust que Champion Electronique a intégrés dans son catalogue

Communauté d'utilisateurs

Hyperbase est à l’origine destiné aux analyses de contenu, domaine commun aux littéraires, aux linguistes, aux historiens, aux philosophes dont la matière première est le texte. Des sociologues, des psychologues, voire des instituts de sondages utilisent également Hyperbase pour l’analyse des enquêtes en texte libre ou des études de marché. Précisons enfin que le logiciel fonctionne sous environnement Windows (la version Mac n’est malheureusement plus disponible jusqu’à nouvel ordre). Le prix de vente étant modulable selon le nombre de licences commandées, il est répandu assez largement dans le monde de la recherche et est enseigné dans plusieurs universités de France et du Canada. La version 10 étant désormais gratuite et téléchargeable (depuis 2015), la diffusion du logiciel devrait s’en trouver élargie.

Perspectives

Conçu il y a longtemps pour le standard Apple, puis développé pour Windows, la version historique d’Hyperbase était difficile à maintenir : son code n’était pas le même sur les deux plateformes. En outre son intégration à Internet n’était pas suffisante. Enfin, l’âge de son créateur, ainsi que le langage propriétaire dans lequel il a été écrit offraient peu de garantie de maintenance et de développement. C’est pourquoi une refonte du logiciel Hyperbase a été confiée au Service Informatique du laboratoire BCL, afin d’améliorer la modularité du logiciel et sa transportabilité sur Internet ; les priorités principales étant la réécriture de l’application dans des langages supportant les technologies du web (php, java, javascript), et ce dans le respect des standards informatiques actuels (imports / exports aux formats XML et TEI ; encodage Unicode des caractères, afin de pouvoir traiter des langues non-indoeuropéennes et/ou rédigées dans d’autres alphabets que l’alphabet latin). Laurent Vanni, ingénieur récemment recruté au laboratoire, s’est consacré à cette tâche.

Hyperbase 10

Historique

Objectif

Réalisations

Variantes

Communauté d'utilisateurs

Perspectives