Apprentissage de fonctions d’ordonnancement avec un flux de données non-étiquetées
Vinh Truong(1), Massih-Reza Amini(2), Patrick Gallinari
(1) Laboratoire d'Informatique Paris 6
(2) National Research Council Canada
104, avenue du président
Kennedy
123,
boulevard Alexandre Taché
75016 Paris
Gatineau, Canada
Dans ce papier, nous traitons de l’apprentissage de fonctions d’ordonnancement
bipartite avec des données partiellement étiquetées. Contrairement
aux études précédentes, nous supposons que les données non-étiquetées arrivent
en grande quantité de façon séquentielle. Ce cadre évite de garder en mémoire
toute la base d’apprentissage et permet de traiter les applications de routage d’information
faisant intervenir des flux de données. La méthode proposée peut être
vue comme une extension des modèles auto–apprenants proposés en classification
semi–supervisée. Le modèle est d’abord initialisé sur les instances étiquetées
puis traite à la volée les données non-étiquetées en continu. Notre algorithme
se base sur une méthode d’optimisation en ligne des SVMs linéaires. Les expériences
menées sur un grand nombre de collections montrent que le flux de données
non-étiquetées permet d’améliorer les performances d’une fonction apprise
uniquement sur les instances étiquetées.