Comment puis-je capturer tout le texte d'un document à partir de Google Docs et le convertir en fichier texte, de préférence une manière utilisable dans un script? wget
fonctionnerait-il? tel que:
wget https://docs.google.com/document/d/documentcode > googledoc.txt
Si oui, pourrais-je utiliser une URL raccourcie?
Pas besoin de pipe vers un autre programme pour convertir le fichier. Vous pouvez télécharger depuis Google Docs dans n’importe quel format pris en charge, en utilisant les paramètres existants dans l’adresse URL.
https://docs.google.com/document/d/FILE_ID/export?format=FORMAT
où:
FILE_ID
est l'ID de chaîne du fichier cible et;FORMAT
est le format de fichier de choix i.e. txt
name__Ensuite, le téléchargement du document à partir de Google Documents sous forme de fichier texte est simple à l'aide de wget
ou d'un navigateur Web. Les deux méthodes téléchargeront le document en tant que fichier texte comme prévu.
Je me suis essayé et la sortie ressemble à ceci:
$ wget https://docs.google.com/document/d/FILE_ID/export?format=txt
--####-##-## ##:##:##-- https://docs.google.com/document/d/FILE_ID/export?format=txt
Resolving docs.google.com (docs.google.com)...
Connecting to docs.google.com (docs.google.com)... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/plain]
Saving to: ‘export?format=txt’
[ <=> ] 649 --.-K/s in 0s
####-##-## ##:##:## (##.# MB/s) - ‘export?format=txt’ saved [649]
L'adresse URL d'autres produits tels que Google Sheets, Google Presentation ou même Google Drive serait légèrement différente.
En termes de documentation, le seul guide pertinent que j'ai trouvé était cet article de blog daté vers 2014 . Il y a cette page du guide du développeur pour Google Drive mais pas utile tel quel. C'est tout.
Téléchargez le document Google Doc au format Word avec l’extension de fichier .docx. Assurez-vous que le paquet docxtxt est déjà installé. Ensuite, exécutez la commande docx2txt suivie du nom de votre fichier. Par exemple...
docx2txt report.docx