Une extension du modèle sémantique latent probabiliste pour le partitionnement non-supervisé de documents textuels


YoungMin Kim(1), Jean-Francois Pessiot(1), Massih-Reza Amini(2), Patrick Gallinari
(1) Laboratoire d'Informatique Paris 6              (2) National Research Council Canada
              104, avenue du président Kennedy                     123, boulevard Alexandre Taché         
                  75016 Paris                                                   Gatineau, Canada         


Dans cet article, nous proposons une extension du modèle sémantique latent probabiliste (PLSA) pour la tâche de partitionnement de documents (clustering). Nous montrons que ce modèle étendu est équivalent à une combinaison linéaire de modèles de factorisation matricielle non-négative au sens de la fonction objective KL-divergence. Nous validons notre modèle sur les trois collections de documents et, montrons empiriquement que notre approche est statistiquement plus performante que le modèle PLSA de base pour la tâche de clustering.