Une extension du modèle sémantique latent
probabiliste pour le partitionnement
non-supervisé de documents textuels
YoungMin Kim(1), Jean-Francois Pessiot(1), Massih-Reza Amini(2), Patrick Gallinari
(1) Laboratoire d'Informatique Paris 6
(2) National Research Council Canada
104, avenue du président
Kennedy
123,
boulevard Alexandre Taché
75016 Paris
Gatineau, Canada
Dans cet article, nous proposons une extension du modèle sémantique
latent probabiliste (PLSA) pour la tâche de partitionnement de documents (clustering).
Nous montrons que ce modèle étendu est équivalent à une combinaison
linéaire de modèles de factorisation matricielle non-négative au sens de la fonction
objective KL-divergence. Nous validons notre modèle sur les trois collections
de documents et, montrons empiriquement que notre approche est statistiquement
plus performante que le modèle PLSA de base pour la tâche de clustering.