Je comprends les différences entre l'apprentissage supervisé et non supervisé:
Apprentissage supervisé est un moyen "d'enseigner" au classificateur, en utilisant des données étiquetées.
Apprentissage non supervisé permet au classificateur "d'apprendre par lui-même", par exemple, en utilisant le clustering.
Mais qu'est-ce que "l'apprentissage faiblement supervisé"? Comment classe-t-il ses exemples?
Comme plusieurs commentaires ci-dessous le mentionnent, la situation n'est pas aussi simple que je l'avais écrit à l'origine en 2013.
L'opinion généralement acceptée est que
Il y a aussi des classifications qui correspondent davantage à ma réponse originale, par exemple Zhi-Hua Zhou's 2017 A brief introduction to faiblement supervisé learning considère une supervision faible comme un terme générique pour
Réponse originale:
En bref: dans un apprentissage faiblement supervisé, vous utilisez une quantité limitée de données étiquetées.
La façon dont vous sélectionnez ces données et ce que vous en faites exactement dépend de la méthode. En général, vous utilisez un nombre limité de données faciles à obtenir et/ou qui font une réelle différence, puis apprenez le reste. Je considère le bootstrap comme une méthode qui peut être utilisée dans un apprentissage faiblement supervisé, mais comme le montre le commentaire de Ben ci-dessous, ce n'est pas une opinion généralement acceptée.
Voir, par exemple dissertation de Chris Bieman en 2007 pour un bon aperçu, il dit ce qui suit à propos de l'amorçage/de l'apprentissage faiblement supervisé:
Le bootstrap, également appelé auto-formation, est une forme d'apprentissage conçue pour utiliser encore moins d'exemples de formation, donc parfois appelée faiblement supervisé. Le bootstrapping commence par quelques exemples de formation, forme un classificateur et utilise des exemples positifs supposés fournis par ce classificateur pour le recyclage. Au fur et à mesure que l'ensemble d'exemples d'apprentissage augmente, le classificateur s'améliore, à condition que trop d'exemples négatifs ne soient pas classés comme positifs, ce qui pourrait entraîner une détérioration des performances.
Par exemple, en cas de balisage d'une partie de la parole, on forme généralement un baliseur HMM (ou à entropie maximale ou autre) sur 10 000 mots, chacun avec son POS. Dans le cas d'un balisage faiblement supervisé, vous pouvez simplement utiliser un très petit corpus de 100 mots. Vous obtenez un tagueur, vous l'utilisez pour baliser un corpus de 1000 mots, vous entraînez un tagueur sur cela et l'utilisez pour baliser un corpus encore plus gros. Évidemment, vous devez être plus intelligent que cela, mais c'est un bon début. (Voir cet article pour un exemple plus avancé d'un tagueur bootstrapé)
Remarque: un apprentissage faiblement supervisé peut également faire référence à un apprentissage avec des étiquettes bruyantes (ces étiquettes peuvent mais ne doivent pas nécessairement être le résultat d'un amorçage)
Cet article [1] définit 3 types typiques de supervision faible:
[1] Zhi-Hua Zhou, Une brève introduction à l'apprentissage faiblement supervisé, National Science Review, Volume 5, Numéro 1, janvier 2018, Pages 44-53, https://doi.org/10.1093/nsr/ nwx106
Comme décrit par Jirka, une supervision faible implique une formation initiale (supervisée) sur un petit ensemble de données étiqueté, la prédiction sur un ensemble plus grand et l'incorporation (non supervisée) des instances identifiées positivement (ou de leurs caractéristiques) dans le modèle (soit en se recyclant sur le agrandissement du jeu de données ou par mise à jour directe du modèle). Le processus de mise à jour (non supervisée) est itéré jusqu'à ce qu'un certain objectif soit atteint. Évidemment, cela peut facilement mal tourner si le prédicteur initial donne de nombreux faux positifs, mais il existe certaines situations dans lesquelles l'espace de recherche peut être contraint de sorte que la généralisation obtenue par une supervision faible ne s'exécute pas (souvent) de manière folle ou que la saisie de l'utilisateur puisse être utilisé pour (faiblement) superviser le processus d'apprentissage. Pour fournir un exemple complémentaire, très réussi et non en text-mining, PSI-BLAST affine itérativement un profil de séquence protéique pour identifier des homologues distants. Un bon aperçu de ce qui peut mal tourner avec une telle approche dans ce contexte peut être trouvé dans ce papier .