Donc, j'ai ce dump wikipedia d'une taille d'environ 10 Go et nommé "enwiki-latest-pages-articles.xml.bz2". J'ai essayé les commandes suivantes dans le terminal pour décompresser le dump:
tar jxf enwiki-latest-pages-articles.xml.bz2
Et
tar xvf enwiki-latest-pages-articles.xml.bz2
Mais tous les deux renvoie l'erreur suivante
tar: This does not look like a tar archive
tar: Skipping to next header
Vous ne pouvez pas utiliser la commande tar
car l'archive n'est pas un fichier .tar. *. Pour décompresser un fichier bzip2, utilisez la commande suivante (cela ne conservera pas le fichier .bz2 d'origine):
bzip2 -d enwiki-latest-pages-articles.xml.bz2
Si vous voulez l'extraire et conserver l'original, exécutez cette commande:
bzip2 -dk enwiki-latest-pages-articles.xml.bz2
Source: https://superuser.com/questions/480950/how-to-decompress-a-bz2-file
Il suffit d'utiliser bunzip2
:
bunzip2 enwiki-latest-pages-articles.xml.bz2
Et s’il s’agit d’un fichier dépressé gzip
:
gunzip enwiki-latest-pages-articles.xml.gz