Apprentissage d'un espace de concepts de mots pour une nouvelle repr�sentation des donn�es textuelles
Young-Min Kim, Jean-Fran�ois Pessiot, Massih-Reza Amini, Patrick Gallinari
Laboratoire d'Informatique Paris 6
104, Avenue du Pr�sident Kennedy
75016 Paris, France
Dans cet article nous proposons une technique � base d'apprentissage non-supervis� pour la r�duction de dimension des donn�es textuelles. Cette technique est bas�e sur l'hypoth�se que les termes co-occurrants dans les m�mes documents avec les m�mes fr�quences sont s�mantiquement proches. Suivant cette hypoth�se les termes sont d'abord regroup�s avec une version Classifiante de l'algorithme EM (CEM). Les documents sont ensuite repr�sent�s dans l'espace de ces groupes de termes. Nous g�n�ralisons cette approche en �tendant l'algorithme PLSA pour un partitionnement simultan� des termes et des documents. Nous montrons dans une derni�re �tape, la validit� de notre approche en comparant le r�sultat de ce clustering avec ceux obtenus dans l'espace sac de mots initial et l'espace des groupes de mots induit par l'algorithme PLSA sur les trois collections de documents Reuters, News et WebKB.