Vinh Truong(1), Massih-Reza Amini(2), Patrick Gallinari
(1) Laboratoire d'Informatique Paris 6    (2) National Research Council Canada
      104, avenue du président Kennedy            123, boulevard Alexandre Taché
              75016 Paris                           Gatineau, Canada

Dans ce papier, nous traitons de l’apprentissage de fonctions d’ordonnancement bipartite avec des données partiellement étiquetées. Contrairement aux études précédentes, nous supposons que les données non-étiquetées arrivent en grande quantité de façon séquentielle. Ce cadre évite de garder en mémoire toute la base d’apprentissage et permet de traiter les applications de routage d’information faisant intervenir des flux de données. La méthode proposée peut être vue comme une extension des modèles auto–apprenants proposés en classification semi–supervisée. Le modèle est d’abord initialisé sur les instances étiquetées puis traite à la volée les données non-étiquetées en continu. Notre algorithme se base sur une méthode d’optimisation en ligne des SVMs linéaires. Les expériences menées sur un grand nombre de collections montrent que le flux de données non-étiquetées permet d’améliorer les performances d’une fonction apprise uniquement sur les instances étiquetées.