Architecture de Recherche d'Information

De WIKOM

Vue d'ensemble

Un architecture de recherche d’information peut être synthétisé de manière macroscopique tel que représenté de la manière suivante.

Architecture de recherche d’information
Architecture de recherche d’information [4][5]

Cette architecture de principe est toujours la même. Elle positionne d’une part l’analyse et le traitement des contenus et d’autre part l’exploitation des résultats de ces analyses de contenu. Evoquons d’ailleurs que les principes sous-jacent sont très similaires au travail effectué historiquement par les personnels de type bibliothécaire et archivistes dans le cadre de la gestion du document papier et des livres, ces derniers et leurs méthodes ayant encore un grand rôle à jouer dans un contexte numérique.

On peut souligner que 2 facteurs clés sont à considérer :

  • « la capacité à produire (comprendre et donc extraire) le maximum d’informations à partir des documents analysés » : c’est la tâche d’indexation
  • « la capacité à comprendre (exploiter au maximum et de façon cohérente) la question posée par l’utilisateur : c’est la tâche d’analyse de la requête

Ces deux facteurs clés représentent les fondamentaux d’une architecture de recherche d’information. Ils sont liés à une « manière d’accéder à l’information (« search ») [qui] est toujours la même quelques soient les outils : remplissage d’une base d’index et requête sur la base d’index » [4], [5]. Une vue plus détaillée et explicative du processus allant de l’analyse des contenus à la requête est présenté sur la figure suivante.

Processus global de valorisation de contenus non structurés
Processus global de valorisation de contenus non structurés [4], [5]

Bien évidemment le résultat de l’indexation est plus ou moins pertinent selon le type de source de données, structurée ou non structurée[1]. Aussi, il s’agit de bien maitriser « la qualité de l’information à la source […] pour pouvoir accéder facilement à leur contenu » [4], [5].

Analyse et traitement : Indexation

L’indexation correspond à « l’activité consistant à repérer dans un document ou dans le contexte de sa production, certains descripteurs signifiants, et à créer un lien entre ces descripteurs et le document original » [6]. L’objectif de l’indexation est «  de permettre de retrouver, dans une source (ou un ensemble de sources), un document ou la partie intéressante d’un document en fonction d’un besoin exprimé au travers d’une requête » [6].

Les figures suivantes proposent une illustration non exhaustive pouvant résulter d’une démarche d’indexation. La première schématise l’indexation des termes qui peut faire usage de vocabulaires contrôlés, de listes de mots à ne pas considérer (« stopwords ») ou encore de dictionnaires de synonymes.

Identification de termes dans des documents
Identification de termes dans des documents

La deuxième figure affiche une ambition plus importante l’objet étant de pouvoir par analyse du texte extraire des concepts et les relations liant ceux-ci.

Extraction de concepts et liaisons entre ceux-ci
Extraction de concepts et liaisons entre ceux-ci

La troisième figure schématise la possibilité par analyse d’un corpus documentaire d’extraire un réseau sémantique pouvant traduire différentes natures de liens entre les documents et les contenus de ces documents.

Construction de réseaux sémantiques par analyse de corpus documentaires
Construction de réseaux sémantiques par analyse de corpus documentaires

Analyse automatique

Globalement, l’analyse et le traitement intégrant une composante sémantique des contenus va permettre d’expliciter tout ou partie de la structure et des contenus sous une forme de représentation à destination d’un traitement automatique, au sens d’interprétation par la machine. La chaîne d’analyse peut ainsi être centrée sur le langage naturel tel qu’illustré sur la figure suivante.

Chaîne d’analyse classique en langage naturel
Chaîne d’analyse classique en langage naturel

De manière plus abstraite, le processus d’analyse et de traitement du contenu correspond à l’enchainement de briques d’annotations successives. Une illustration est proposée sur la figure suivante. Chaque brique d’annotation permet de repérer des descripteurs et peut s’appuyer sur des connaissances formalisées (dictionnaires, codifications, vocabulaires contrôlés). Les résultats de ce processus d’annotation peuvent ainsi faire l’objet d’un stockage dans une base d’index ou une base de connaissances.

Vue d’ensemble d’architecture d’annotation
Vue d’ensemble d’architecture d’annotation

Exploitation : Analyse de la requête, restitution des résultats etc…

En premier lieu, il faut souligner que « pour améliorer la recherche d’information, d’autres aspects sont également très importants : la présentation efficace des résultats (choix, navigation, affinage de sélection), » [6]. La présentation joue un rôle clé dans l’amélioration de l’accès à l’information [1][9] tout comme un ensemble de mécanisme d’accompagnement, de conditionnement, de la requête utilisateur. Le second facteur clé qui est en relation avec la thématique d’exploitation des index produits ne tient pas uniquement à la « capacité à comprendre la question posée par l’utilisateur » par un « simple » mécanisme de mise en correspondance de la requête et du contenu des index.

Recherche ouverte et suggestion

Ce mécanisme de mise en correspondance sera en premier lieu exploité dans les cas de recherche ouverte d’information à l’image de l’exploitation du moteur de recherche Google. Toutefois, même dans ce type de situation, les mécanismes de suggestion tendent à orienter, contraindre ou encore conditionner la requête de l’utilisateur. La figure suivante illustre ce type de mécanisme où lorsqu’un utilisateur saisie une requête des compléments ou une reformulation, de celle-ci lui sont proposés.

Mécanisme de suggestion lors d’une requête sur le moteur de recherche de Google
Mécanisme de suggestion lors d’une requête sur le moteur de recherche de Google

Recherche et navigation par facettes

Au-delà de situations de recherche ouverte et dans le contexte de l’ingénierie qui introduit nombre de codification et de référentiels, il s’agit d’offrir à l’utilisateur un accompagnement dans l’accès à l’information. Ce point est typiquement en relation avec la problématique « l’organisation de la mise à disposition des données auprès d’utilisateurs « non avertis » » mis en exergue dans le REX de la CAO 2000. L’organisation de la mise à disposition de l’information pourra ainsi exploiter 2 axes pouvant être combiné :

  • L’accès ou recherche par facettes [7],
  • L’accès via des représentations graphiques

L’accès ou recherche d’information par facettes est illustré sur la figure suivante. Il s’agit d’un mécanisme couramment mis en œuvre Chaque facette correspond à une manière de catégoriser les résultats de recherche et contient des ensembles de valeurs résultant du processus d’indexation ou implémente une contrainte. La recherche se fait ainsi par sélection de valeurs de facettes le résultat de recherche étant à l’intersection des informations indexées par ces valeurs. Les facettes peuvent ainsi être construites sur la base de référentiels et nomenclatures ou encore être déduites en sélectionnant les termes plus ou moins fréquents issus d’une indexation en texte intégral.

Faceted Search
Faceted Search

Recherche d’information et requêtes complexes

Au-delà d’une approche par facettes ou de recherche ouverte par mots clés, les technologies associées au web sémantique et de manière sous-jacente la formalisation de connaissances permettent d’envisager de manière opérationnelle et industrielle des mécanismes de recherche avancés et complexes. La figure suivante illustre ce point. Elle montre une recherche  en langage naturel et sa traduction dans un langage de requête formel : SPARQL. Appliquée à une base de données sémantique, il est possible d’obtenir un résultat à ce type de question.

Figure 33 Requête complexe en SPARQL

Reprenant des exemples évoqués précédemment, il est possible d’envisager répondre à des questions tel que [1] :

-          « an engineer trying to find components that are compatible with a particular product design »,

-          « an engineer trying to understood product life cycles and manage the risks associated with component obsolescence ».

Bien évidemment un travail est à faire pour rendre ce type de langage de requête plus accessible à un utilisateur final et envisager le développer de « requeteurs » en langage naturel ou semi naturel. Dans le prolongement de ce point, et en abordant une cible plus ambitieuse, il s’agit de considérer l’état de l’art posé par IBM via son projet DeepQA. Le projet DeepQA peut être résumé de cette façon : « A computer system that can directly and precisely answer natural language questions over an open and broad range of knowledge has been envisioned by scientists and writers since the advent of computers themselves. Consider, for example, the "Computer" in Star Trek. Taken to its ultimate form, broad and accurate open-domain question answering may well represent a crowning achievement for the field of Artificial Intelligence (AI) » [10]. La figure suivante illustre l’approche développée qui a conduit à créer un ordinateur ayant gagné le jeu Jeopardy contre des humains aux Etats Unis[1]. Si l’ambition n’est pas nécessairement de vouloir développer une solution de la même ampleur, le DeepQA reste une source d’inspiration à considérer.

Approche DeepQA de IBM
Approche DeepQA de IBM

Recherche d’information et visualisation graphique

Exploiter des représentations graphiques pour guider l’utilisateur ou contextualiser le résultat d’une recherche représente une réelle valeur ajoutée. Google Map en est un exemple charismatique, la publication d’un fond cartographique planétaire offre un contexte de représentation de résultat de recherche permettant de les appréhender, les analyser, dans la dimension spatiale et géographique, mais également un moyen pour effectuer une requête de recherche d’information spatiale par un simple clic sur la carte.

La solution Oracle Autovue à l’image de Google Map pour la représentation géographique introduit le concept de Visualisation d’entreprise. Ce concept est décrit comme devant permettre de connecter visuellement permettant via n’importe représentation graphique métier 2D ou 3D d’accéder à de l’information ou effectuer des actions telle que proposé sur la figure suivante.

Illustration de la solution Oracle Autovue
Illustration de la solution Oracle Autovue

Figure 35 Illustration de la solution Oracle Autovue [11]

On voit ici tout l’intérêt d’exploiter les représentations graphiques support à l’activité métier dans le cadre de l’accès ou la création de données.


à compléter


[1] Ce défi posé par le PDG d’IBM est comparaison avec la réalisation de l’ordinateur DeepBlue ayant gagné au échecs contre le champion du monde Garry Kasparov [16].


[1] La notion de structuration renvoie ici au fait que la forme de l’information est plus ou moins adaptée à une analyse formelle par un traitement informatique au sens où l’on peut dissocier de manière déterministe les briques élémentaires d’information.

Références