CACM
et les documents filtrés d'après obtenus avec le filtrage appliqué au TP2
.
CACM-XX.flt
un à un et qui applique le stop-list common-words
en enlevant tous les termes de ces fichiers qui y apparaissent. Le résultat du filtrage sera mis dans un fichier portant le même nom que ces fichiers avec une nouvelle extension .stp
common-words
et en associant à chaque terme de fichier pris comme une clé de la table, la valeur 1
. Le filtrage se fera en regardant si un terme des fichiers CACM-XX.flt
est une clé de cette table de hash ou non.
CACM-XX.stp
. Le résultat sera mis dans un fichier.
df
des termes du vocabulaire et stocker le résultat dans un fichier en mettant le df
de chaque terme devant le terme.
Par exemple, si le vocabulaire contient 5
termes d'indice allant de 1
à 5
et qu'un document contient les termes d'indices 3
et 1
.
Dans le cas où, on optera pour une représentation binaire, le vecteur associé au document doit être la suivante :
1
:
1
3
:
1