envoyer l'article par mail title=  Version imprimable de cet article

Ressources > Points de vue de chercheurs

Télécharger

La recherche d’information

L´auteur

Georges Vignaux

VIGNAUX Georges, Docteur d’Etat en Sciences du Langage, diplômé de philosophie et de psychologie, est Directeur de recherche au C.N.R.S. Il est actuellement Directeur du Programme CoLiSciences à la Maison des Sciences de l’Homme Paris Nord.

Auparavant, il avait notamment été membre du Comité national du CNRS de 1986 à 1991, Conseiller scientifique et technique “ Sciences cognitives ” auprès de la Mission Scientifique et Technique du Ministère de l’Enseignement Supérieur et de la Recherche de 1993 à 1998 et Directeur du Laboratoire Communication et Politique (CNRS-UPR 36 devenue FRE 2813) de 2000 à 2004.

CoLiSciences, grand site hypertextuel de culture scientifique, est un outil pour une « histoire des idées ». Le programme répond à trois objectifs généraux :
- l’édition en ligne de collections d’auteurs biologistes et naturalistes du XIXe siècle
- la constitution de ce corpus comme base de réflexion sur la nature de l’hypertextualité : processus, liens, lectures, navigations ;
- la contribution aux travaux sur l’histoire des idées sur le vivant. Il a aussi pour ambition d’ajuster la construction hypertextuelle à différents modèles de lectorats et de navigations selon les publics et les objectifs.

Georges VIGNAUX est l’auteur de dix ouvrages dont :
- Les Sciences cognitives : une introduction, Paris, La Découverte, 1992, 360 p. Le Livre de Poche, 1994.
- Penser & Organiser. Le démon du classement, Seuil, Le temps de penser, Paris, 1999, 107p.
- Du signe au virtuel : les nouveaux chemins de nos intelligences, Paris, Seuil, 2003, 220p.
- Construire le sens : catégories, frontières, ajustements. Presses de l’Université Laval, Québec, 2005.



Tags

estimation mouvement
Web sémantique
information
traitement
enjeux économique
politiques
culturels
cc by-nc-sa

La recherche d’information

lundi 14 novembre 2005

Catégorisation, réseaux sémantiques, analyse de contenu

Trois innovations importantes sont apparues depuis deux ou trois ans et concernent la manière dont certains outils de recherche traitent et présentent les résultats d’une requête : la catégorisation des résultats, les réseaux sémantiques et l’analyse de contenu. Mise en œuvre sur le moteur de recherche Exalead, et sur le métamoteur Vivisimo [10] , la catégorisation dynamique du résultat des recherches permet de « classer » les documents trouvés dans des catégories, des rubriques porteuses de sens (notamment sur Exalead). L’intérêt de cette technologie provient du caractère « dynamique » de cette catégorisation, opérée à partir des caractéristiques réelles du lot de documents trouvés, et non selon des rubriques établies a priori. Concrètement, à partir de la requête « cheval de course », Exalead a généré, à partir des 68 111 résultats, quatre grandes rubriques (Sport, Commerce et Economie, Régional, Sciences), avec des sous-rubriques (Elevage dans la rubrique Commerce et Economie). (Serres, 2004) Les technologies de catégorisation des résultats réintroduisent ainsi du sens, de la structuration dans le Web et elles sont appelées, d’une certaine manière, à jouer le même rôle que les thésaurus classiques, avec la différence de taille entre une indexation humaine a priori et une indexation automatisée a posteriori ... Deux autres métamoteurs, Kartoo [11] et MapStan [12], ont développé une autre manière de présenter les résultats, non sous forme de rubriques calculées à partir des thèmes propres aux documents, mais sous forme de cartes, de réseaux sémantiques, calculés à partir des liens sémantiques entre les pages Web. Au lieu de référer les documents à des catégories thématiques, les pages Web sont reliées les unes aux autres, en fonction des mots-clés qu’elles partagent. Les résultats sont donc présentés graphiquement, sous forme de nœuds et de liens : les nœuds, qui correspondent aux pages Web trouvées, sont de taille variable, selon le degré de pertinence [13] des pages Web ; les liens entre les nœuds représentent les relations entre les pages Web, c’est-à-dire leur proximité, leur similarité. Représentés sous forme de sphères et de liens sur Kartoo, de places et de rues sur MapStan, ces réseaux sémantiques, parfois difficiles à décoder, offrent plusieurs intérêts pour l’utilisateur : possibilité d’affiner les requêtes (par choix de mots-clés, sur Kartoo), de visualiser des liens entre sites Web que l’on n’aurait pas pensé à associer, d’élargir les recherches sur les sites proches, de mettre en évidence (notamment sur MapStan) des réseaux d’acteurs sur telle ou telle thématique, avec des indications sur l’importance de tel ou tel site (par le nombre de liens qu’il reçoit) [14]. Une troisième orientation technologique porte sur l’analyse automatique du contenu des documents. Elle est développée notamment par un métamoteur américain, SurfWax [15]. Après une requête sur ce métamoteur (qui permet d’interroger près de 500 sources !), une fonction, appelée SiteSnaps, offre une sorte de synthèse de l’information sur chaque document trouvé, sous forme de fiche récapitulative : on y trouve ainsi le nombre de mots, de liens, d’images, éventuellement le résumé de l’auteur, les mots-clés de la requête dans leur contexte, les points clés (Key Points) de la page. En bref, une sorte d’analyse des documents, permettant à l’utilisateur de mieux faire ses choix, d’affiner et d’élargir sa recherche.

Comme on l’a vu rapidement, ces innovations dans le traitement des résultats induisent des usages différents et offrent des intérêts spécifiques pour la recherche d’information : d’un côté la mise en catégories de documents, de l’autre la représentation cartographique d’un réseau, ou encore l’analyse du contenu.

[1] Ce bref panorama prend origine dans la synthèse intéressante établie par Alexandre Serres en 2004 : www.urfist.cict.fr/lettres/lettre34/lettre34-31.html

[4] Internet Search Engine Database. Cleveland (OH) (USA) : ISEDB.com, 2002-2004. Disponible sur http://www.isedb.com. Plus de 1500 outils de recherche référencés, articles, dossiers, actualités. In-Extenso.org, moteur de recherche en sciences sociales. Voir http://www.in-extenso.org/index.html

[10] Voir Vivisimo

[11] http://kartoo.com"

[12] http://search.mapstan.net"

[13] L’indice de pertinence permet de classer les documents selon les mots-clés (nombre, emplacement, « poids » des mots-clés.

[14] Selon cet indice de popularité (le fameux PageRank de Google), les pages Web sont classées, non plus selon leur « pertinence » intrinsèque, mais selon leur notoriété sur le Web (cad le nombre et le type de liens pointant vers elles).

[15] Entre autres fonctionnalités, SurfWax propose une fonction linguistique tout à fait originale, le Focus, qui permet de préciser les mots-clés d’une requête, en proposant pour un terme les termes synonymes, génériques et spécifiques. Ce Focus se présente comme un véritable thésaurus, un outil d’aide à la recherche.