Nous savons que Bert a une limite de longueur maximale de jetons = 512, donc si un acticule a une longueur beaucoup plus grande que 512, telle que 10000 jetons dans le texte, comment Bert peut-il être utilisé?
Il y a une approche utilisée dans le papier défendant contre les fausses nouvelles du neurones ( https://arxiv.org/abs/1905.12616 )
Leur modèle génératif produisait des sorties de 1024 jetons et ils souhaitaient utiliser Bert pour les générations de la machine VS humaines. Ils ont prolongé la longueur de la séquence que Bert utilise simplement en initialisant 512 plus d'embarcations supplémentaires et en les entraînant alors qu'ils ont fini par le jeu de données sur leur ensemble de données.
Il y a deux méthodes principales:
J'ai repris quelques papiers typiques de Bert pour un texte long dans ce message: https://lethienhoablog.wordpress.com/2020/11/19/frecap-4-qui-Bert-for- Texte long /
Vous pouvez avoir un aperçu de toutes les méthodes là-bas.