3A IF
Traitement des données temps réel et
données hétérogénes
TP - Probabilistic Latent Semantic Analysis
1. But du TP
Implémenter l'algorithme PLSA pour extraire les thèmes latents d'une colleciton de document
2. Déroulement
On considère la collection Mini Wiki qui est une collection de 10,000
documents extraits du Wikipedia. Décompresser le fichier:
> bzip2 -cd wikiData.tar.bz2 | tar xvf -
Ce répertoire contient le fichier wiki.10k.txt
décompressé initial qui inclut un document wikipedia par ligne; un fichier contenant le Vocabulaire
(ensemble de 34280
termes les plus représentatifs de la collection) ainsi que la représentation vectorielle des documents dans l'espace induit (de dimension 34280
) par le vocabulaire appelé Indexation
.
Chaque ligne du fichier Indexation
correspond au vecteur représentatif du document associé, obtenu dans l'espace induit par le vocabulaire suivant la résentation creuse index:valeur
par exemple,
3:1 5:2
indque que les termes d'indices 3 et 5 du vocabulaire sont présents respectivement 1 et 2 fois dans le document associé.
- Implémenter le modèle PLSA pour extraire les thèmes latents d'une collection, et appliquer le aux 1000 premiers documents de cette collection en fixant le nombre de thèmes latents à 20 puis à 50.
- Montrer le résultat des topics extraits par le biais des 5 mots les plus fréquents dans chacun d'eux.
- Répéter les questions 1 à 2 avec 2000, 3000, 5000 et 10000 premiers documents, et conclure.