Apprentissage de fonctions d’ordonnancement avec un flux de données non-étiquetées


Vinh Truong(1), Massih-Reza Amini(2), Patrick Gallinari
(1) Laboratoire d'Informatique Paris 6              (2) National Research Council Canada
              104, avenue du président Kennedy                     123, boulevard Alexandre Taché         
                  75016 Paris                                                   Gatineau, Canada         


Dans ce papier, nous traitons de l’apprentissage de fonctions d’ordonnancement bipartite avec des données partiellement étiquetées. Contrairement aux études précédentes, nous supposons que les données non-étiquetées arrivent en grande quantité de façon séquentielle. Ce cadre évite de garder en mémoire toute la base d’apprentissage et permet de traiter les applications de routage d’information faisant intervenir des flux de données. La méthode proposée peut être vue comme une extension des modèles auto–apprenants proposés en classification semi–supervisée. Le modèle est d’abord initialisé sur les instances étiquetées puis traite à la volée les données non-étiquetées en continu. Notre algorithme se base sur une méthode d’optimisation en ligne des SVMs linéaires. Les expériences menées sur un grand nombre de collections montrent que le flux de données non-étiquetées permet d’améliorer les performances d’une fonction apprise uniquement sur les instances étiquetées.