Réseaux Informatiques et Communication Multimédia 4
Accès et Recherche d'Information
S. I-III | Indexation, représentation, compression et stockage Les constructions du dictionnaire et de l'index inversé, ainsi que la représentation vectorielle des documents, constituent le point de départ dans toutes manipulations et recherche en RI. Dans une collection de documents donnée, construire le dictionnaire ou le vocabulaire correspond à extraire une liste de termes utiles, caractéristiques des documents présents dans la collection. L'autre concept fondamental en RI est la constitution de l'index inversé. Il s'agit ici de construire, pour chaque terme du dictionnaire, la liste des index de documents contenant ce terme. Cette liste, aussi appelée liste inversée, rend l'appariement entre les requêtes et les documents de la collection plus efficace. Pour les très grandes collections de données, un problème majeur est le stockage de l'index et du dictionnaire dans la mémoire ou sur le disque. Le défi dans ces cas est de trouver un moyen de compression simple et rapide des données. |
TP 1 & 2 Loi de Zipf TP 3 & 4 Constitution de vocabulaire et représentation |
|
S. IV-VI | Modèles de recherche, mesures d'évaluations Pour un besoin d'information donné, le système de recherche le transcrit sous forme d'une requête, constituée de mots-clés, et lorsque l'utilisateur regarde le résultat de la recherche, il voit les documents triés par ordre décroissant de pertinence. Si la requête est une expression booléenne, l'utilisation de l'index inversé permet de trouver facilement et en un temps minimal tous les documents qui satisfont cette requête. En revanche, les systèmes booléens purs ne permettent pas de retrouver les documents similaires au besoin d'information de l'utilisateur et ne contenant pas exactement les termes de la requête. Plusieurs modèles ont été développés pour pallier ce problème, depuis les modèles vectoriels jusqu'aux modèles probabilistes. De même, plusieurs stratégies, qui consistent à étendre la requête afin d'y inclure des termes similaires mais non mentionnés originellement par l'utilisateur, ont vues le jour afin d'enrichir ces différents modèles. |
TP 5 & 6 Modèle de recherche vectoriel et mesures d'évaluation |