Introduction à XML
Le repérage
Dernière modification : 2002/09/10 16:31:22 Contact : Martin Sévigny
Le repérage des documents XML constitue une voie de recherche encore très active. En effet, il existe des solutions, mais également des problèmes et surtout des opportunités dans ce domaine.
Un document XML est une base de données en soi, alors il est normal de vouloir exploiter la structure de l'information lors du repérage. Par exemple, sortir tous les noms de personne d'une collection de documents.
Dans un contexte orienté données, il existe plusieurs solutions basées sur le langage XPath ou encore le langage de requêtes XQL. Par ailleurs, il existe plusieurs propositions au W3C pour normaliser les langages de requêtes, recensées dans la section XML Query, et en particulier le futur standard XQuery qui accompagnera XPath 2 comme composante fondamentale des systèmes XML.
Malheureusement, ces langages sont souvent limités pour des bases de documents à forte dominante textuelle. Ainsi, on ne retrouve pas de tri de pertience, de proximité des mots, d'analyse linguistique, rarement de la troncature, etc. Pourtant, il serait intéressant de pouvoir chercher des documents XML avec des mots, à l'aide d'un outil qui accorderait plus d'importance aux documents qui contiennent les mots dans les titres plutôt que dans les paragraphes.
La puissance d'XML dans le domaine des bases de données documentaires vient du fait que l'on peut amalgamer des informations très structurées avec des informations plutôt textuelles, et donc moins structurées. Mais il faut que les outils suivent cette approche, ce qui est malheureusement peu le cas.
Par ailleurs, il est possible de concevoir la recherche d'information dans les documents structurés à l'aide d'une indexation intelligente, plutôt qu'un langage de recherche sophistiqué. C'est ainsi que fonctionne par exemple SDX, ce qui permet d'utiliser n'importe quelle caractéristique de contenu ou de structure des documents XML, à condition que le concepteur de la base de documents ait prévu le besoin au départ.
| Document précédent : Le stockage des documents |
Table des matières | Document suivant : La consultation |