Du document au document numérique structuré

De WIKOM

Source : [1]

Le document comme preuve

Le document est un objet, un concept, qui a traversé les siècles. Il constitue un « objet unique, inscrit dans le temps et l’espace » [2]. Il renvoie classiquement à « une trace volontaire résultant d’une activité humaine » [2]. Cette trace volontaire doit permettre de passer outre « le caractère éphémère de l’information » [3] si elle n’est pas portée sur un support pérenne. Dans une vision classique, le document se matérialise souvent par une inscription sur un support : c’est le cas des documents papier. Il s’agit de la vision objet du document, évoquée par Paul OTLET [4], renvoyant « aux manuscrit, imprimé, représentation graphique ou figurée, objet de collections etc… » [5].

Cependant, la notion de document peut être étendue à d’autres formes notamment lorsqu’il est présenté comme « une source d’information où l’on peut puiser des connaissances » [2]. Ainsi, Briet évoque « l’antilope qui court dans les plaines d’Afrique ne peut être considérée comme un document… Mais si elle est capturée… et devient un objet d’études, on la considère alors comme un document. Elle devient une preuve physique » [3]. Le document n’est alors plus limité à la forme traditionnelle de « codex » (le livre avec les pages reliées) et peut être associé à « tout indice concret ou symbolique conservé ou enregistré aux fins de représenter, de reconstituer ou de prouver un phénomène ou physique ou intellectuel » [3].

Dans ce rapport au document, on souligne l’importance des attributs accompagnant le document : dans le cas de l’antilope, il s’agira d’une étiquette précisant qu’il s’agit d’une antilope. Ce sont ces attributs qui peuvent à la fois être source de connaissances pour le lecteur, mais également préciser sa légitimité dans sa valeur de preuve. La légitimité est à mettre en relation avec les notions d’autorité de l’information et de référence que véhicule la notion de document [2]. L’autorité et la référence sont liés à l’auteur, son statut mais également sa localisation ainsi que l’institution qui le diffuse par exemple. Ceci souligne l’importance du travail des sciences de l’information [6] et toute la tâche d’indexation du document qui va lui associer des attributs le caractérisant. Ainsi, la classification d’un document influencera nécessairement ce document.

Dans notre étude, nous désignons le document comme « production sémiotique transcrite ou enregistrée sur un support pérenne qui est équipé d’attributs spécifiques visant à faciliter les pratiques liées à son exploitation ultérieure dans le cadre de la préservation de transactions communicationnelles distribuées. Ces attributs doivent permettre au document de circuler à travers l’espace, le temps, les communautés » [7].

Le document numérique

La numérisation a eu un impact important sur la notion de document [8]. Au travers de cette numérisation du support et de l’inscription, le document se dématérialise. Il devient un enregistrement numérique qui peut être aisément modifié et réutilisé. Le document n’est plus caractérisé par sa finitude mais par une ouverture, une facilité de recomposition de la forme et du fond. Ainsi, le document numérique peut être « défini comme une représentation numérique d'une preuve, qui doit pouvoir être réutilisée (reused) dans un autre processus de traitement » [2]. Les frontières du document sont alors largement déplacées du fait de la facilité de réutilisation du contenu par un homme ou un ordinateur.

Le document numérique est largement influencé par l’évolution technologique et la création de formats numériques. Bien que le numérique implique une dématérialisation, ces formats se sont inspirés de la réalité et en particulier du support final visé. Il semble toutefois que l’évolution des formats tend vers « une abstraction croissante vis-à-vis du medium physique » [9].  Ainsi, cette abstraction peut être illustrée par les « formes documentaires » suivantes d’ abstractions croissantes [9] :

•    Images et sons digitaux,

•    Descriptions de page,

•    Contenus orientés présentation,

•    Documents structurés.

Les images et sons digitaux (TIFF, GIF, BMP…) se caractérisent par une représentation numérique des pixels ou échantillons sonores. La manipulation de ce type de document pourra se faire ou en s’appuyant sur des techniques issues du traitement du signal ou par une pratique manuelle via un éditeur spécialisé.

Les descriptions de page (PS, PDF) se basent sur une métaphore du document papier. La représentation numérique se fonde sur une description de la manière dont il serait construit sur un support papier. Le format permet ainsi de préciser l’ensemble des attributs inhérents à une page (format, marge,…), le positionnement d’éléments dans cette page (blocs de texte, images…) ou encore la mise en forme matérielle du texte (gras, italique,…). La modification du document devient alors une opération complexe du fait de la forte imbrication du contenu, de la mise en forme, mais également de la définition du medium dans le même fichier.

Les contenus orientés présentation sont en relation avec de nombreuses solutions caractérisées par des formats propriétaires. L’exemple caractéristique est le traitement de texte Microsoft Word. La représentation numérique mélange à la fois le contenu, les informations de style, les graphiques ou encore les informations de structure logique. La manipulation des fichiers est possible via une opération d’édition à condition d’être en possession d’un logiciel auteur permettant de lire le format propriétaire : il s’agit souvent du logiciel ayant permis de le créer.

Les documents structurés (SGML, XML) représentent une forme d’abstraction très importante puisqu’ils se caractérisent par une dissociation très franche entre le contenu et la mise en forme. Ils bénéficient d’une indépendance par rapport aux logiciels auteur ayant permis de les créer ce qui leur confère à la fois une facilité de traitement et un certaine pérennité. Ils constituent une forme abstraite très aboutie du document.

Le document numérique structuré

Définition

Le document numérique structuré ne peut être réduit à la simple évocation de l’utilisation des technologies XML (eXtended Markup Language). Pour le définir, nous prenons les éléments proposés par [9] : « les entités élémentaires sont des éléments structuraux (ou logiques) dont la signification est paramétrable. Les règles d’organisation logique sont explicites et modifiables séparément des instances documentaires (schémas documentaires). La validité structurelle d’un document par rapport à un schéma peut être vérifié via des algorithmes génériques. ».

Le document structuré est alors une structure dont les éléments (les unités élémentaires) vont stocker des contenus textuels. Cette structure sera classiquement hiérarchique. Ce mode d’organisation de l’information définit alors une réelle syntaxe dans la construction du document. Ainsi, les différents éléments structuraux qui délimitent les entités élémentaires d’un document associés à leur règle d’organisation constituent un réel langage : un contrat d’écriture et de lecture dans le document. En fonction de la technologie utilisée, les mots du langage de structuration sont plus ou moins contraints. Ainsi, le langage HTML (Hypertext Markup Language) définit une structuration de l’information dont les balises sont prédéterminées et répondent à une mise en forme standard : un exemple est présenté sur la Figure 12. Il en est de même lors de la création d’un document en Tex (cf. Figure 14 et Figure 15), standard développé par Donald Knuth [10].

Exemple de code html et de sa visualisation
Exemple de code html et de sa visualisation

Le standard XML (eXtended Markup Language) pour sa part ne constitue pas en soi un langage « mais plus exactement un ensemble de règles permettant la création de langage de balisage » [11]. Ainsi, en s’appuyant sur XML, les éléments de structuration de l’information ne sont pas prédéfinis.  La seule contrainte est de produire des documents bien formés, c’est à dire en se conformant aux règles lexicales et syntaxiques du standard XML (fermeture des balises ouvertes, pas de chevauchement de balises, etc…).

Document xml sous differentes formes
Document xml sous differentes formes

Notion de langage de structuration

Ainsi, le langage de structuration (concrétisé par le balisage) peut être construit selon 2 points de vue [12] :

•    Le balisage logique,

•    Le balisage généraliste

Le balisage logique est défini pour traduire l’enchaînement logique du document, à l’image de la structuration TEX [13] , mais en conservant une indépendance au regard de la mise en forme matérielle que prendra le contenu. Il s’agira par exemple d’insérer au sein du contenu des éléments structurant délimitant les titres, les parties, les sections, etc… La mise en forme du document pourra ensuite être faite au travers de la mise en relation des éléments structurants avec une feuilles de style. La feuille de style constitue une réelle légende qui spécifie la mise en forme associée à chaque brique élémentaire du document.

\documentclass{article}                        % Type de document

\title{Document Latex simple}                  % Titre du document

\author{Patrice Guay}                          % Auteur

\date{15/08/2004}                              % Date de création

\begin{document}                               % Début du document

\maketitle{}                                   % Génération du titre

\section{Introduction}                         % Section #1

Ce document est un exemple de fichier

source Latex.

\section{Developpement}                        % Section #2

Il s'agit d'un document de type "article".

Son titre est "Document Latex simple" et

il contient trois sections : "Introduction",

"Developpement" et "Conclusion".

\section{Conclusion}                           % Section #3

Ceci termine notre premier exemple de

fichier source Latex.

\end{document}                                 % Fin du document
Rendu latex
Rendu latex

Le balisage généraliste se positionne autrement puisque les éléments structurants insérés dans le document vont constituer un métalangage. Ils pourront alors caractériser plus sémantiquement le contenu sans être trop influencés par la métaphore du document papier et par exemple l’enchaînement linéaire du contenu imposé par la succession des pages. Le balisage généraliste tendra alors à définir des langages de structuration propre à un domaine ou une classe de document. Pour un courrier, on identifiera l’expéditeur, le destinataire, la date, le sujet ou le corps. Pour un formulaire de commande, les éléments structurants correspondront au nom, prénom, date, adresse de livraison, articles commandés et moyen de paiement. Le balisage généraliste traduit une forme d’indexation très fine du contenu.

<?xml version="1.0" encoding="UTF-8"?>

<courrier>

  <expediteur>Wallace</expediteur> <destinataire>Gromit</destinataire>

  <date>

    <jour>25</jour> <mois>octobre</mois> <année>2007</année>

  </date>

  <sujet> Manque de Cheddar </sujet>

  <corps>

Gromit nous sommes à cours de Cheddar. Or, la vie est impossible sans Cheddar.

A bien y regarder, la lune a de jolis trous, comme le délicieux fromage.

Nous pourrions partir en vacances sur la Lune.

  </corps>

</courrier>

Modèle de document, document bien formé et document valide

Que le balisage soit logique ou généraliste, les documents structurés sont fondés sur la définition d’un ensemble d’éléments structuraux qui vont constituer les mots d’un langage dédié à la structuration du contenu. Ce langage peut être ouvert ou fermé. Lorsque le langage est ouvert, il est possible de définir de nouveaux mots – c’est-à-dire de nouveaux éléments structuraux - qui vont enrichir le langage et permettre de délimiter de nouveaux contenus. Bien que le langage soit ouvert, la construction du document doit en général répondre à certain nombre de règles d’écriture qui vont par exemple permettre d’identifier les éléments structuraux par rapport au contenu.

Ce point permet d’aborder la notion de document bien formé. Un document bien formé est un document structuré qui va se conformer à des règles élémentaires de définition des balises et de structuration. Dans le langage XML, il s’agira  :

  • de définir les balises sous cette forme « <nom_balise> »
  • qu’une balise ouverte soit fermée par une balise « </nom_balise> »
  • qu’il n’y ait pas de chevauchement entre des balises différentes

Dans le cas d’un langage fermé, les éléments structuraux sont définis et ne supportent pas l’ajout de nouveaux mots. Un exemple est le langage HTML. Les langages fermés permettent d’introduire la notion de document valide. Le caractère fermé permet de définir de manière précise les règles lexicale et syntaxique d’un langage de structuration. Elles spécifient les éléments structurants disponibles et utilisables ainsi que leur organisation les uns par rapport aux autres. Ces règles peuvent être traduites sous la forme d’un modèle de document qui permettra alors de s’assurer qu’un document structuré est en accord ou non avec le langage défini. Il s’agit là de la validation introduisant la notion de document valide. Notons au passage qu’un document valide est nécessairement bien formé.

Le document doit avoir exactement un élément de niveau le plus élevé appelé : élément document ou élément racine. Tous les autres éléments doivent être logés entre ces marqueurs.

Quelques exemples de règles devant être respectées pour qu’un document XML soit bien formé
Quelques exemples de règles devant être respectées pour qu’un document XML soit bien formé


[[Fichier:Xml dtd.jpg|alt=Illustration d’un modèle de document sous la forme d’une DTD (source : http://pagesperso-orange.fr/emmanuel.remy/XML/DTD/DTD.htm )|centré|cadre|Illustration d’un modèle de document sous la forme d’une DTD (source : ] [[Fichier:Xml valide nonvalide.jpg|centré|cadre|Illustration de la validation d’un document XML (source : ]

La définition de [9] évoquée précédemment met l’accent sur l’importance d’expliciter les règles d’organisation logiques des entités élémentaires et le fait qu’elles doivent pouvoir être validées de manière algorithmique dans le cadre de documents structurés numériques. Ainsi, les modèles de document qui sont typiquement implémentés sous la forme d’une DTD (Document Type Definition) ou d’un Xschema (XML schema) lorsqu’on exploite les technologies XML, représentent une source d’informations essentielle. En effet, ils régissent le contrat de lecture, d’écriture et de validation  des documents. Ils permettent de valider le document afin par exemple de vérifier son origine et son autorité.

Poster

Du document au document numérique structuré
Du document au document numérique structuré

Références

  1. Approche méthodologique et instrumentale de construction et de restitution de documents structurés, Thèse de Doctorat, Samuel Parfouru Fichier:Phd SPARFOURU 2008.pdf [1]
  2. 2,0 2,1 2,2 2,3 et 2,4 Chabin, M.-A. (2004). "Document trace et document source. La technologie numérique change-t-elle la notion de document ?" Information-Interaction-Intelligence 4(1).
  3. 3,0 3,1 et 3,2 Briet, S. (1951). Qu'est ce que la documentation ? Paris, Edition Documentaires Industrielles et Techniques
  4. Buckland, M. K. (1997). "What is a "Document" ?" American Society for Information Science 48(9): 804-809.
  5. El-Hachini, M. (2005). Indexation des documents multilingues d'actualités incluant l'arabe : équivalence interlangues et gestion des connaissances chez les indexeurs. Sciences de l'information et de la communication. Lyon, Université Lumière (Lyon 2).
  6. Le_Coadic, Y.-F. (1994). La Science de l'information, PUF.
  7. Zacklad, M. (2004). Processus de documentation dans les Documents pour l'Action (DopA) : statut des annotations et technologies de la coopération associées. Le numérique : Impact sur le cycle de vie du document pour une analyse interdisciplinaire, Montréal.
  8. Pédauque, R. T. (2006). Le document à la lumière du numérique. Caen, C&F Editions.
  9. 9,0 9,1 9,2 et 9,3 Lux-Pogodalla, V. et J.-Y. Vion-Dury (2004). "Réflexions sur la modélisation des documents." Information-Interaction-Intelligence 4(1).
  10. Knuth, D. (1984). "Literate Programming." The Computer Journal 27(2).
  11. Ray, E. T. (2001). Introduction à XML Paris, O'Reilly.
  12. Marcoux, Y. (2006). A natural-language approach to modeling Why is some XML so difficult to write. Extreme Markup Language, Montréal.
  13. Knuth, D. (1968). The Art of Computer Programming, Addison-Wesley.