Pourquoi ZFS est-il tellement plus lent que EXT4 et BTRFS?

Question

Problème

J'ai récemment installé un nouveau disque et j'ai créé un zpool dessus:

/# zpool create morez /dev/sdb

Après l'avoir utilisé pendant un moment, j'ai remarqué que c'était assez lent:

/morez# fio --name rw --rw rw --size 10G read: IOPS=19.6k, BW=76.6MiB/s (80.3MB/s)(5120MiB/66834msec) write: IOPS=19.6k, BW=76.6MiB/s (80.3MB/s)(5120MiB/66834msec)

Ce test est assez similaire à mon cas d'utilisation réelle. Je lis un nombre modéré (~ 10k) d'images (~ 2 mib chacun) du disque. Ils ont été écrits à la fois lorsque le disque était surtout vide, alors je ne m'attends donc pas à ce qu'ils soient fragmentés.

À titre de comparaison, j'ai testé ext4:

/# gdisk /dev/sdb ... /# mkfs.ext4 -f /dev/sdb1 && mount /dev/sdb1 /mnt && cd /mnt /mnt# fio --name rw --rw rw --size 10G read: IOPS=48.3k, BW=189MiB/s (198MB/s)(5120MiB/27135msec) write: IOPS=48.3k, BW=189MiB/s (198MB/s)(5120MiB/27135msec)

Et btrfs:

/# mkfs.btrfs -f /dev/sdb1 && mount /dev/sdb1 /mnt && cd /mnt /mnt# fio --name rw --rw rw --size 10G read: IOPS=51.3k, BW=201MiB/s (210MB/s)(5120MiB/25528msec) write: IOPS=51.3k, BW=201MiB/s (210MB/s)(5120MiB/25528msec)

Qu'est-ce qui pourrait causer les problèmes de performance avec ZFS et comment puis-je la rendre plus rapide?

Échec de la tentative d'une solution

J'ai également essayé de définir explicitement la taille du secteur pour le zpool, comme mon disque ( Seagate ST1000DM0 ) utilise des secteurs physiques de 4096 octets:

/# zpool create -o ashift=12 morez /dev/sdb

Cela n'a pas amélioré la performance:

/morez# fio --name rw --rw rw --size 10G read: IOPS=21.3k, BW=83.2MiB/s (87.2MB/s)(5120MiB/61573msec) write: IOPS=21.3k, BW=83.2MiB/s (87.2MB/s)(5120MiB/61573msec)

Observation

Étrangement, l'utilisation d'un Zvol avait une grande performance:

/# zfs create -V 20G morez/vol /# fio --name rw --filename /dev/zvol/morez/vol --rw rw --size 10G read: IOPS=52.7k, BW=206MiB/s (216MB/s)(5120MiB/24852msec) write: IOPS=52.7k, BW=206MiB/s (216MB/s)(5120MiB/24852msec)

Pourquoi cela n'aimc aucun impact sur les systèmes de fichiers ZFS et non zvols?

Test étendu pour BTRFS

Dans les commentaires, il a été suggéré que la différence peut être due à la mise en cache. Après avoir des tests supplémentaires, je ne crois pas que c'est le cas. J'ai augmenté la taille du test BTRFS bien au-dessus de la quantité de mémoire que mon ordinateur a et sa performance était toujours significativement supérieure à celle de ZFS:

/# mkfs.btrfs -f /dev/sdb1 && mount /dev/sdb1 /mnt && cd /mnt /mnt# $ fio --name rw --rw rw --size 500G --runtime 3600 --time_based --ramp_time 900 read: IOPS=41.9k, BW=164MiB/s (172MB/s)(576GiB/3600003msec) write: IOPS=41.9k, BW=164MiB/s (172MB/s)(576GiB/3600003msec)

Information système

Logiciel

Arch Linux, Kernel version 4.11.6
ZFS sur Linux 0.6.5.10
fio 2.21

Matériel

Drive en cours de test: Seagate ST1000DM0 , connecté au port SATA de 6 Go/s
Carte mère: Gigabyte X99-SLI
Mémoire: 8 gib

Info zfs

Voici ce que les propriétés ZFS ressemblaient avant d'exécuter FIO. Celles-ci ne sont que du résultat de la création d'un zpool avec les paramètres par défaut.

# zpool get all morez NAME PROPERTY VALUE SOURCE morez size 928G - morez capacity 0% - morez altroot - default morez health ONLINE - morez guid [removed] default morez version - default morez bootfs - default morez delegation on default morez autoreplace off default morez cachefile - default morez failmode wait default morez listsnapshots off default morez autoexpand off default morez dedupditto 0 default morez dedupratio 1.00x - morez free 928G - morez allocated 276K - morez readonly off - morez ashift 0 default morez comment - default morez expandsize - - morez freeing 0 default morez fragmentation 0% - morez leaked 0 default morez feature@async_destroy enabled local morez feature@empty_bpobj enabled local morez feature@lz4_compress active local morez feature@spacemap_histogram active local morez feature@enabled_txg active local morez feature@hole_birth active local morez feature@extensible_dataset enabled local morez feature@embedded_data active local morez feature@bookmarks enabled local morez feature@filesystem_limits enabled local morez feature@large_blocks enabled local # zfs get all morez NAME PROPERTY VALUE SOURCE morez type filesystem - morez creation Thu Jun 29 19:34 2017 - morez used 240K - morez available 899G - morez referenced 96K - morez compressratio 1.00x - morez mounted yes - morez quota none default morez reservation none default morez recordsize 128K default morez mountpoint /morez default morez sharenfs off default morez checksum on default morez compression off default morez atime on default morez devices on default morez exec on default morez setuid on default morez readonly off default morez zoned off default morez snapdir hidden default morez aclinherit restricted default morez canmount on default morez xattr on default morez copies 1 default morez version 5 - morez utf8only off - morez normalization none - morez casesensitivity sensitive - morez vscan off default morez nbmand off default morez sharesmb off default morez refquota none default morez refreservation none default morez primarycache all default morez secondarycache all default morez usedbysnapshots 0 - morez usedbydataset 96K - morez usedbychildren 144K - morez usedbyrefreservation 0 - morez logbias latency default morez dedup off default morez mlslabel none default morez sync standard default morez refcompressratio 1.00x - morez written 96K - morez logicalused 72.5K - morez logicalreferenced 40K - morez filesystem_limit none default morez snapshot_limit none default morez filesystem_count none default morez snapshot_count none default morez snapdev hidden default morez acltype off default morez context none default morez fscontext none default morez defcontext none default morez rootcontext none default morez relatime off default morez redundant_metadata all default morez overlay off default

shodanshok · Answer

Bien que vieux, je pense que cette question mérite une réponse.

fio problèmes, par défaut, iops de taille de 4 ko; Les jeux de données ZFS utilisent plutôt 128 Ko enregistrement par défaut. Cette inadéquation signifie que chaque écriture 4k provoque une lecture/modification/écriture de l'ensemble de l'enregistrement de 128k.

Zvols, sur les autres mains, utilisez 8K VolblockSize par défaut. Cela signifie qu'une écriture de 4 km entraîne un cycle de lecture/modification/de modification/d'écriture beaucoup plus petite d'un enregistrement 8K et, avec une chance, deux écrivies 4K peuvent être fusionnées dans une seule écriture 8K (qui nécessite non lecture/modifier/écrire du tout).

ZFS DataSet Recranterie peut être modifié avec zfs set recordize=8K <dataset> Et, dans ce cas, il devrait donner une performance plus ou moins équivalente puis zvols. Toutefois, lorsqu'il est utilisé pour des transferts relativement importants (OP a parlé d'environ 2 mb de fichiers qui, étant des images, doivent être entièrement lus à chaque fois qu'ils sont accessibles) Il est préférable d'avoir grand recueil/volblocksize, parfois plus grande. Ensuite, réglage par défaut (128k).

Anon · Answer

Note: comme le travail fio manque direct=1 ( http://fio.readthedocs.io/en/latest/fio_doc.html#cmdoption-arg-direct ) une certaine quantité de l'E/S en cours d'exécution (les deux lectures et écriture) peut être mis en cache par le système d'exploitation, déformant vos résultats (et rendant les chiffres artificiellement élevés). Ce lui-même est encore compliquée par ce qui suit:

ZFS sous Linux ne supporte pas O_DIRECT (Donc l'ouverture échoue) ou si elle le fait, alors il le fait en descendant tranquillement à I tamponnée/O (voir le point 3 de https://github.com/zfsonlinux/zfs/commit/a584ef26053065f486d46a7335bea222cb03eeea ).
Dans certains cas BTRFS et ext4 feront O_DIRECT Retour d'automne I/O en mémoire tampon.

Être conscient O_DIRECT Porte encore E/S mises en mémoire tampon est encore autorisée parce que sur Linux O_DIRECT Est plus d'un soupçon (voir la section Références de https://stackoverflow.com/a/46377629/2732969 ).

Si vous êtes dans une situation où vous ne pouvez pas correctement contourner les caches, il est essentiel que vous faites assez d'E/S sur une surface assez grande pour minimiser l'impact de la mise en cache (à moins, bien sûr, vous voulez vraiment la mise en cache de test) ...