Architecture de Recherche d'Information
Contexte et problématique
Les entreprises et grandes organisation doivent faire face à la mise à disposition de contenus numériques dont le volume et en croissance continu. Ces contenus ne se cantonnent plus uniquement à la sphère de l’entreprise à la fois dans un contexte d’entreprise étendu mais également du fait de l’utilisation de ressources et banques de données disponibles dans la sphère publique selon un accès libre ou payant. Il s’agit pour les entreprises de maitriser la mise à disposition des contenus en particulier en accompagnant, assistant, l’utilisateur dans son accès à l’information. Il s'agit pour cela de développer des architectures de recherche d'information.
Vision macroscopique
Un architecture de recherche d’information peut être synthétisé de manière macroscopique tel que représenté sur la figure suivante.
Cette architecture de principe est toujours la même. Elle positionne d’une part l’analyse et le traitement des contenus et d’autre part l’exploitation des résultats de ces analyses de contenu. Les principes sous-jacent à cet architecture sont très similaires au travail effectué par les personnels de type bibliothécaire et archivistes dans le cadre de la gestion du document papier et des livres, ces derniers et leurs méthodes ayant encore un grand rôle à jouer dans un contexte numérique.
Deux facteurs clés sont à considérer :
- « la capacité à produire (comprendre et donc extraire) le maximum d’informations à partir des documents analysés » : c’est la tâche d’indexation
- « la capacité à comprendre (exploiter au maximum et de façon cohérente) la question posée par l’utilisateur : c’est la tâche d’analyse de la requête
Ces deux facteurs clés représentent les fondamentaux d’une architecture de recherche d’information. Ils sont liés à une « manière d’accéder à l’information (« search ») [qui] est toujours la même quelques soient les outils : remplissage d’une base d’index et requête sur la base d’index » [1][2]. Une vue plus détaillée et explicative du processus allant de l’analyse des contenus à la requête est présenté sur la figure suivante.
Bien évidemment le résultat de l’indexation est plus ou moins pertinent selon le type de source de données, structurée ou non structurée. La notion de structuration renvoie ici au fait que la forme de l’information est plus ou moins adaptée à une analyse formelle par un traitement informatique au sens où l’on peut dissocier de manière déterministe les briques élémentaires d’information. Aussi, il s’agit de bien maitriser « la qualité de l’information à la source […] pour pouvoir accéder facilement à leur contenu » [1][2].
Analyse et traitement : Indexation
L’indexation correspond à « l’activité consistant à repérer dans un document ou dans le contexte de sa production, certains descripteurs signifiants, et à créer un lien entre ces descripteurs et le document original » [3]. L’objectif de l’indexation est « de permettre de retrouver, dans une source (ou un ensemble de sources), un document ou la partie intéressante d’un document en fonction d’un besoin exprimé au travers d’une requête » [3].
La figure suivante schématise l’indexation des termes qui peut faire usage de vocabulaires contrôlés, de listes de mots à ne pas considérer (« stopwords ») ou encore de dictionnaires de synonymes.
La deuxième figure affiche une ambition plus importante l’objet étant de pouvoir par analyse du texte extraire des concepts et les relations liant ceux-ci.
La troisième figure schématise la possibilité par analyse d’un corpus documentaire d’extraire un réseau sémantique pouvant traduire différentes natures de liens entre les documents et les contenus de ces documents.
Analyse automatique
Globalement, l’analyse et le traitement intégrant une composante sémantique des contenus va permettre d’expliciter tout ou partie de la structure et des contenus sous une forme de représentation à destination d’un traitement automatique, au sens d’interprétation par la machine. La chaîne d’analyse peut ainsi être centrée sur le langage naturel tel qu’illustré sur la figure suivante.
De manière plus abstraite, le processus d’analyse et de traitement du contenu correspond à l’enchainement de briques d’annotations successives. Une illustration est proposée sur la figure suivante. Chaque brique d’annotation permet de repérer des descripteurs et peut s’appuyer sur des connaissances formalisées (dictionnaires, codifications, vocabulaires contrôlés). Les résultats de ce processus d’annotation peuvent ainsi faire l’objet d’un stockage dans une base d’index ou une base de connaissances.
Exploitation : Analyse de la requête, restitution des résultats etc…
En premier lieu, il faut souligner que « pour améliorer la recherche d’information, d’autres aspects sont également très importants : la présentation efficace des résultats (choix, navigation, affinage de sélection), » [3]. La présentation joue un rôle clé dans l’amélioration de l’accès à l’information [4][5] tout comme un ensemble de mécanisme d’accompagnement, de conditionnement, de la requête utilisateur. Le second facteur clé qui est en relation avec la thématique d’exploitation des index produits ne tient pas uniquement à la « capacité à comprendre la question posée par l’utilisateur » par un « simple » mécanisme de mise en correspondance de la requête et du contenu des index.
Recherche ouverte et suggestion
Ce mécanisme de mise en correspondance sera en premier lieu exploité dans les cas de recherche ouverte d’information à l’image de l’exploitation du moteur de recherche Google. Toutefois, même dans ce type de situation, les mécanismes de suggestion tendent à orienter, contraindre ou encore conditionner la requête de l’utilisateur. La figure suivante illustre ce type de mécanisme où lorsqu’un utilisateur saisie une requête des compléments ou une reformulation, de celle-ci lui sont proposés.
Au-delà de situations de recherche ouverte, il s’agit d’offrir à l’utilisateur un accompagnement dans l’accès à l’information. L’organisation de la mise à disposition de l’information pourra ainsi exploiter 2 axes pouvant être combiné :
- L’accès ou recherche par facettes [6],
- L’accès via des représentations graphiques
L’accès ou recherche d’information par facettes est illustré sur la figure suivante. Il s’agit d’un mécanisme couramment mis en œuvre Chaque facette correspond à une manière de catégoriser les résultats de recherche et contient des ensembles de valeurs résultant du processus d’indexation ou implémente une contrainte. La recherche se fait ainsi par sélection de valeurs de facettes le résultat de recherche étant à l’intersection des informations indexées par ces valeurs. Les facettes peuvent ainsi être construites sur la base de référentiels et nomenclatures ou encore être déduites en sélectionnant les termes plus ou moins fréquents issus d’une indexation en texte intégral.
Recherche d’information et requêtes complexes
De manière plus sophistiquée, les technologies associées au web sémantique et de manière sous-jacente la formalisation de connaissances permettent d’envisager de manière opérationnelle et industrielle des mécanismes de recherche avancés et complexes. La figure suivante illustre ce point. Elle montre une recherche en langage naturel et sa traduction dans un langage de requête formel : SPARQL. Appliquée à une base de données sémantique, il est possible d’obtenir un résultat à ce type de question.
Bien évidemment un travail est à faire pour rendre ce type de langage de requête plus accessible à un utilisateur final et envisager le développer de « requeteurs » en langage naturel ou semi naturel. Dans le prolongement de ce point, et en abordant une cible plus ambitieuse, il s’agit de considérer l’état de l’art posé par IBM via son projet DeepQA. Le projet DeepQA [7] peut être résumé de cette façon : « A computer system that can directly and precisely answer natural language questions over an open and broad range of knowledge has been envisioned by scientists and writers since the advent of computers themselves. Consider, for example, the "Computer" in Star Trek. Taken to its ultimate form, broad and accurate open-domain question answering may well represent a crowning achievement for the field of Artificial Intelligence (AI) » [8]. La figure suivante illustre l’approche développée qui a conduit à créer un ordinateur ayant gagné le jeu Jeopardy contre des humains aux Etats Unis[1]. Ce défi posé par le PDG d’IBM est comparaison avec la réalisation de l’ordinateur DeepBlue ayant gagné au échecs contre le champion du monde Garry Kasparov [9]
Recherche d’information et visualisation graphique
Exploiter des représentations graphiques pour guider l’utilisateur ou contextualiser le résultat d’une recherche représente une réelle valeur ajoutée. Google Map en est un exemple charismatique, la publication d’un fond cartographique planétaire offre un contexte de représentation de résultat de recherche permettant de les appréhender, les analyser, dans la dimension spatiale et géographique, mais également un moyen pour effectuer une requête de recherche d’information spatiale par un simple clic sur la carte.
La solution Oracle Autovue à l’image de Google Map pour la représentation géographique introduit le concept de Visualisation d’entreprise. Ce concept est décrit comme devant permettre de connecter visuellement permettant via n’importe représentation graphique métier 2D ou 3D d’accéder à de l’information ou effectuer des actions telle que proposé sur la figure suivante.
On voit ici tout l’intérêt d’exploiter les représentations graphiques support à l’activité métier dans le cadre de l’accès ou la création de données.
Références
- ↑ 1,0 1,1 1,2 et 1,3 A. Bouzy and M. Caussanel, “IBM Discovery - Un ensemble de technologies pour répondre aux challenges de l’exploitation de l'information non structurée,” Paris, 2008.
- ↑ 2,0 2,1 2,2 et 2,3 J. Waterman and M. Caussanel, “IBM Omnifind Enterprise Edition : une plate-forme stratégique pour la recherche et l’analyse de texte dans l'entreprise,” 2008.
- ↑ 3,0 3,1 et 3,2 B. Ricard, J.-M. Lacombe, Y. Quatrain, S. Nugier, and A. Cordelois, “Synthèse de l’état de l'art en indexation et du prototypage WebDiver. Orientations pour un démonstrateur d'indexation multimedia,” Chatou, 2008.
- ↑ T. Russell-Rose and T. Tate, Designing the search experience: The information architecture of discovery. 2012.
- ↑ A. Serafini, Apache Solr Beginner’s Guide. 2013.
- ↑ S. Mas, “Impact de l’organisation des documents électroniques sur l'interprétation de l'information organique et consignée dans un contexte de gestion décentralisée.” Oct-2004.
- ↑ David Ferrucci, Eric Brown, Jennifer Chu-Carroll, James Fan, David Gondek, Aditya A. Kalyanpur, Adam Lally, J. William Murdock, Eric Nyberg, John Prager, Nico Schlaefer, and Chris Welty "Building Watson: An Overview of the DeepQA Project", AI Magazine, 2010 [1]
- ↑ “IBM - DeepQA Project.” IBM Corporation, 22-Apr-2009.
- ↑ “IBM100 - Deep Blue.” IBM Corporation, 07-Mar-2012.
- ↑ F. Briandet, “Autovue - La visualisation d’entreprise.”