Différences entre les versions de « Architecture de Recherche d'Information »

Version actuelle datée du 12 novembre 2023 à 17:15

Contexte et problématique

Les entreprises et grandes organisation doivent faire face à la mise à disposition de contenus numériques dont le volume et en croissance continu. Ces contenus ne se cantonnent plus uniquement à la sphère de l’entreprise à la fois dans un contexte d’entreprise étendu mais également du fait de l’utilisation de ressources et banques de données disponibles dans la sphère publique selon un accès libre ou payant. Il s’agit pour les entreprises de maitriser la mise à disposition des contenus en particulier en accompagnant, assistant, l’utilisateur dans son accès à l’information. Il s'agit pour cela de développer des architectures de recherche d'information.

Faire face à la mise à disposition de contenus numériques dont le volume et en croissance continu

Vision macroscopique

Un architecture de recherche d’information peut être synthétisé de manière macroscopique tel que représenté sur la figure suivante.

Architecture de recherche d’information ^[1] ^[2]

Cette architecture de principe est toujours la même. Elle positionne d’une part l’analyse et le traitement des contenus et d’autre part l’exploitation des résultats de ces analyses de contenu. Les principes sous-jacent à cet architecture sont très similaires au travail effectué par les personnels de type bibliothécaire et archivistes dans le cadre de la gestion du document papier et des livres, ces derniers et leurs méthodes ayant encore un grand rôle à jouer dans un contexte numérique.

Deux facteurs clés sont à considérer :

« la capacité à produire (comprendre et donc extraire) le maximum d’informations à partir des documents analysés » : c’est la tâche d’indexation
« la capacité à comprendre (exploiter au maximum et de façon cohérente) la question posée par l’utilisateur : c’est la tâche d’analyse de la requête

Ces deux facteurs clés représentent les fondamentaux d’une architecture de recherche d’information. Ils sont liés à une « manière d’accéder à l’information (« search ») [qui] est toujours la même quelques soient les outils : remplissage d’une base d’index et requête sur la base d’index » ^[1]^[2]. Une vue plus détaillée et explicative du processus allant de l’analyse des contenus à la requête est présenté sur la figure suivante.

Processus global de valorisation de contenus non structurés ^[1]^[2]

Bien évidemment le résultat de l’indexation est plus ou moins pertinent selon le type de source de données, structurée ou non structurée. La notion de structuration renvoie ici au fait que la forme de l’information est plus ou moins adaptée à une analyse formelle par un traitement informatique au sens où l’on peut dissocier de manière déterministe les briques élémentaires d’information. Aussi, il s’agit de bien maitriser « la qualité de l’information à la source […] pour pouvoir accéder facilement à leur contenu » ^[1]^[2].

Analyse et traitement : Indexation

L’indexation correspond à « l’activité consistant à repérer dans un document ou dans le contexte de sa production, certains descripteurs signifiants, et à créer un lien entre ces descripteurs et le document original » ^[3]. L’objectif de l’indexation est « de permettre de retrouver, dans une source (ou un ensemble de sources), un document ou la partie intéressante d’un document en fonction d’un besoin exprimé au travers d’une requête » ^[3].

La figure suivante schématise l’indexation des termes qui peut faire usage de vocabulaires contrôlés, de listes de mots à ne pas considérer (« stopwords ») ou encore de dictionnaires de synonymes.

Identification de termes dans des documents

La deuxième figure affiche une ambition plus importante l’objet étant de pouvoir par analyse du texte extraire des concepts et les relations liant ceux-ci.

Extraction de concepts et liaisons entre ceux-ci

La troisième figure schématise la possibilité par analyse d’un corpus documentaire d’extraire un réseau sémantique pouvant traduire différentes natures de liens entre les documents et les contenus de ces documents.

Construction de réseaux sémantiques par analyse de corpus documentaires

Analyse automatique

Globalement, l’analyse et le traitement intégrant une composante sémantique des contenus va permettre d’expliciter tout ou partie de la structure et des contenus sous une forme de représentation à destination d’un traitement automatique, au sens d’interprétation par la machine. La chaîne d’analyse peut ainsi être centrée sur le langage naturel tel qu’illustré sur la figure suivante.

Chaîne d’analyse classique en langage naturel

De manière plus abstraite, le processus d’analyse et de traitement du contenu correspond à l’enchainement de briques d’annotations successives. Une illustration est proposée sur la figure suivante. Chaque brique d’annotation permet de repérer des descripteurs et peut s’appuyer sur des connaissances formalisées (dictionnaires, codifications, vocabulaires contrôlés). Les résultats de ce processus d’annotation peuvent ainsi faire l’objet d’un stockage dans une base d’index ou une base de connaissances.

Vue d’ensemble d’architecture d’annotation

Exploitation : Analyse de la requête, restitution des résultats etc…

En premier lieu, il faut souligner que « pour améliorer la recherche d’information, d’autres aspects sont également très importants : la présentation efficace des résultats (choix, navigation, affinage de sélection), » ^[3]. La présentation joue un rôle clé dans l’amélioration de l’accès à l’information ^[4]^[5] tout comme un ensemble de mécanisme d’accompagnement, de conditionnement, de la requête utilisateur. Le second facteur clé qui est en relation avec la thématique d’exploitation des index produits ne tient pas uniquement à la « capacité à comprendre la question posée par l’utilisateur » par un « simple » mécanisme de mise en correspondance de la requête et du contenu des index.

Recherche ouverte et suggestion

Ce mécanisme de mise en correspondance sera en premier lieu exploité dans les cas de recherche ouverte d’information à l’image de l’exploitation du moteur de recherche Google. Toutefois, même dans ce type de situation, les mécanismes de suggestion tendent à orienter, contraindre ou encore conditionner la requête de l’utilisateur. La figure suivante illustre ce type de mécanisme où lorsqu’un utilisateur saisie une requête des compléments ou une reformulation, de celle-ci lui sont proposés.

Mécanisme de suggestion lors d’une requête sur le moteur de recherche de Google

Recherche et navigation par facettes

L’accès ou recherche d’information par facettes^[6] est illustré sur la figure suivante. Il s’agit d’un mécanisme couramment mis en œuvre Chaque facette correspond à une manière de catégoriser les résultats de recherche et contient des ensembles de valeurs résultant du processus d’indexation ou implémente une contrainte. La recherche se fait ainsi par sélection de valeurs de facettes le résultat de recherche étant à l’intersection des informations indexées par ces valeurs. Les facettes peuvent ainsi être construites sur la base de référentiels et nomenclatures ou encore être déduites en sélectionnant les termes plus ou moins fréquents issus d’une indexation en texte intégral.

Faceted Search

Recherche d’information et requêtes complexes

De manière plus sophistiquée, les technologies associées au web sémantique et de manière sous-jacente la formalisation de connaissances permettent d’envisager de manière opérationnelle et industrielle des mécanismes de recherche avancés et complexes. La figure suivante illustre ce point. Elle montre une recherche en langage naturel et sa traduction dans un langage de requête formel : SPARQL. Appliquée à une base de données sémantique, il est possible d’obtenir un résultat à ce type de question.

Requête complexe en SPARQL

Bien évidemment un travail est à faire pour rendre ce type de langage de requête plus accessible à un utilisateur final et envisager le développer de « requeteurs » en langage naturel ou semi naturel. Dans le prolongement de ce point, et en abordant une cible plus ambitieuse, il s’agit de considérer l’état de l’art posé par IBM via son projet DeepQA. Le projet DeepQA ^[7] peut être résumé de cette façon : « A computer system that can directly and precisely answer natural language questions over an open and broad range of knowledge has been envisioned by scientists and writers since the advent of computers themselves. Consider, for example, the "Computer" in Star Trek. Taken to its ultimate form, broad and accurate open-domain question answering may well represent a crowning achievement for the field of Artificial Intelligence (AI) » ^[8]. La figure suivante illustre l’approche développée qui a conduit à créer un ordinateur ayant gagné le jeu Jeopardy contre des humains aux Etats Unis ^[7]. Ce défi posé par le PDG d’IBM est comparaison avec la réalisation de l’ordinateur DeepBlue ayant gagné au échecs contre le champion du monde Garry Kasparov ^[9]

Approche DeepQA de IBM

Recherche d’information et visualisation graphique

Exploiter des représentations graphiques pour guider l’utilisateur ou contextualiser le résultat d’une recherche représente une réelle valeur ajoutée. Google Map en est un exemple charismatique, la publication d’un fond cartographique planétaire offre un contexte de représentation de résultat de recherche permettant de les appréhender, les analyser, dans la dimension spatiale et géographique, mais également un moyen pour effectuer une requête de recherche d’information spatiale par un simple clic sur la carte.

La solution Oracle Autovue à l’image de Google Map pour la représentation géographique introduit le concept de Visualisation d’entreprise. Ce concept est décrit comme devant permettre de connecter visuellement permettant via n’importe représentation graphique métier 2D ou 3D d’accéder à de l’information ou effectuer des actions telle que proposé sur la figure suivante.

Illustration de la solution Oracle Autovue ^[10]

On voit ici tout l’intérêt d’exploiter les représentations graphiques support à l’activité métier dans le cadre de l’accès ou la création de données.

Vues d'ensemble

Architecture Recherche d'Information

Références

↑ ^1,0 ^1,1 ^1,2 et ^1,3 A. Bouzy and M. Caussanel, “IBM Discovery - Un ensemble de technologies pour répondre aux challenges de l’exploitation de l'information non structurée,” Paris, 2008.
↑ ^2,0 ^2,1 ^2,2 et ^2,3 J. Waterman and M. Caussanel, “IBM Omnifind Enterprise Edition : une plate-forme stratégique pour la recherche et l’analyse de texte dans l'entreprise,” 2008.
↑ ^3,0 ^3,1 et ^3,2 B. Ricard, J.-M. Lacombe, Y. Quatrain, S. Nugier, and A. Cordelois, “Synthèse de l’état de l'art en indexation et du prototypage WebDiver. Orientations pour un démonstrateur d'indexation multimedia,” Chatou, 2008.
↑ T. Russell-Rose and T. Tate, Designing the search experience: The information architecture of discovery. 2012.
↑ A. Serafini, Apache Solr Beginner’s Guide. 2013.
↑ S. Mas, “Impact de l’organisation des documents électroniques sur l'interprétation de l'information organique et consignée dans un contexte de gestion décentralisée.” Oct-2004. [1]
↑ ^7,0 et ^7,1 David Ferrucci, Eric Brown, Jennifer Chu-Carroll, James Fan, David Gondek, Aditya A. Kalyanpur, Adam Lally, J. William Murdock, Eric Nyberg, John Prager, Nico Schlaefer, and Chris Welty "Building Watson: An Overview of the DeepQA Project", AI Magazine, 2010 [2]
↑ “IBM - DeepQA Project.” IBM Corporation, 22-Apr-2009.
↑ “IBM100 - Deep Blue.” IBM Corporation, 07-Mar-2012.
↑ F. Briandet, “Autovue - La visualisation d’entreprise.”

[ibm1-1] 1,0 ^1,1 ^1,2 et ^1,3 A. Bouzy and M. Caussanel, “IBM Discovery - Un ensemble de technologies pour répondre aux challenges de l’exploitation de l'information non structurée,” Paris, 2008.

[ibm2-2] 2,0 ^2,1 ^2,2 et ^2,3 J. Waterman and M. Caussanel, “IBM Omnifind Enterprise Edition : une plate-forme stratégique pour la recherche et l’analyse de texte dans l'entreprise,” 2008.

[ricard-3] 3,0 ^3,1 et ^3,2 B. Ricard, J.-M. Lacombe, Y. Quatrain, S. Nugier, and A. Cordelois, “Synthèse de l’état de l'art en indexation et du prototypage WebDiver. Orientations pour un démonstrateur d'indexation multimedia,” Chatou, 2008.

[russell-4] T. Russell-Rose and T. Tate, Designing the search experience: The information architecture of discovery. 2012.

[serafini-5] A. Serafini, Apache Solr Beginner’s Guide. 2013.

[mas-6] S. Mas, “Impact de l’organisation des documents électroniques sur l'interprétation de l'information organique et consignée dans un contexte de gestion décentralisée.” Oct-2004. [1]

[ferucci-7] 7,0 et ^7,1 David Ferrucci, Eric Brown, Jennifer Chu-Carroll, James Fan, David Gondek, Aditya A. Kalyanpur, Adam Lally, J. William Murdock, Eric Nyberg, John Prager, Nico Schlaefer, and Chris Welty "Building Watson: An Overview of the DeepQA Project", AI Magazine, 2010 [2]

[8] “IBM - DeepQA Project.” IBM Corporation, 22-Apr-2009.

[9] “IBM100 - Deep Blue.” IBM Corporation, 07-Mar-2012.

[10] F. Briandet, “Autovue - La visualisation d’entreprise.”

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

@@ Ligne 1 : / Ligne 1 : @@
 == Contexte et problématique ==
 Les entreprises et grandes organisation doivent faire face à la mise à disposition de contenus numériques dont le volume et en croissance continu. Ces contenus ne se cantonnent plus uniquement à la sphère de l’entreprise à la fois dans un contexte d’entreprise étendu mais également du fait de l’utilisation de ressources et banques de données disponibles dans la sphère publique selon un accès libre ou payant. Il s’agit pour les entreprises de maitriser la mise à disposition des contenus en particulier en accompagnant, assistant, l’utilisateur dans son accès à l’information. Il s'agit pour cela de développer des architectures de [[Recherche d'Information|recherche d'information]].
-[[Fichier:Contexte ENtreprise Information.jpg|alt=Faire face à la mise à disposition de contenus numériques dont le volume et en croissance continu|centré|cadre|Faire face à la mise à disposition de contenus numériques dont le volume et en croissance continu]]
+[[Fichier:Contexte ENtreprise Information.jpg|alt=Faire face à la mise à disposition de contenus numériques dont le volume et en croissance continu|centré|cadre|Faire face à la mise à disposition de contenus numériques dont le volume et en croissance continu ]]
 == Vision macroscopique ==
@@ Ligne 16 : / Ligne 16 : @@
 Ces deux facteurs clés représentent les fondamentaux d’une architecture de recherche d’information. Ils sont liés à une ''« manière d’accéder à l’information (« search »''') [qui] est toujours la même''' quelques soient les outils : remplissage d’une base d’index et requête sur la base d’index »'' <ref name="ibm1"/><ref name="ibm2"/>. Une vue plus détaillée et explicative du processus allant de l’analyse des contenus à la requête est présenté sur la figure suivante.
 [[Fichier:ProcessusGLobalValorisationNonStructure.jpg|alt=Processus global de valorisation de contenus non structurés|centré|cadre|Processus global de valorisation de contenus non structurés <ref name="ibm1"/><ref name="ibm2"/>]]
-[[Fichier:Archi AI IBM.png|centré|archi|vignette|1024x1024px]]
+Bien évidemment le résultat de l’indexation est plus ou moins pertinent selon le type de source de données, structurée ou non structurée. La notion de structuration renvoie ici au fait que la forme de l’information est plus ou moins adaptée à une analyse formelle par un traitement informatique au sens où l’on peut dissocier de manière déterministe les briques élémentaires d’information. Aussi, il s’agit de bien maitriser ''« la qualité de l’information à la source […] pour pouvoir accéder facilement à leur contenu »'' <ref name="ibm1"/><ref name="ibm2"/>.
-Bien évidemment le résultat de l’indexation est plus ou moins pertinent selon le type de source de données, structurée ou non structurée. La notion de structuration renvoie ici au fait que la forme de l’information est plus ou moins adaptée à une analyse formelle par un traitement informatique au sens où l’on peut dissocier de manière déterministe les briques élémentaires d’information. Aussi, il s’agit de bien maitriser ''« la qualité de l’information à la source […] pour pouvoir accéder facilement à leur contenu »'' <ref name="ibm1"/><ref name="ibm2"/>.
 == Analyse et traitement : Indexation ==

Différences entre les versions de « Architecture de Recherche d'Information »