Comment calculez-vous la taille de bloc optimale lorsque vous exécutez dd
? Je l'ai un peu étudié et je n'ai rien trouvé qui indique comment cela serait accompli.
J'ai l'impression qu'une taille de bloc plus grande entraînerait un dd
... plus rapide. Est-ce vrai?
Je suis sur le point de dd
deux disques durs Hitachi identiques de 500 Go qui fonctionnent à 7 200 tr/min sur une boîte exécutant un processeur Intel Core i3 avec 4 Go de RAM DDR3 de 1 333 MHz, aussi j'essaie de comprendre quelle taille de bloc utiliser. (Je vais démarrer Ubuntu 10.10 x86 à partir d'un lecteur flash et l'exécuter à partir de cela.)
La taille de bloc optimale dépend de divers facteurs, notamment le système d'exploitation (et sa version), ainsi que des différents bus et disques matériels impliqués. Plusieurs systèmes de type Unix (y compris Linux et au moins certaines versions de BSD) définissent le membre st_blksize
dans le struct stat
qui donne ce que le noyau pense être la taille de bloc optimale:
#include <sys/stat.h>
#include <stdio.h>
int main(void)
{
struct stat stats;
if (!stat("/", &stats))
{
printf("%u\n", stats.st_blksize);
}
}
Le meilleur moyen peut être d’expérimenter: copiez un gigaoctet avec différentes tailles de bloc et une durée variable. (N'oubliez pas de vider les caches de mémoire tampon du noyau avant chaque exécution: echo 3 > /proc/sys/vm/drop_caches
).
Cependant, en règle générale, j’ai constaté qu’une taille de bloc suffisamment importante permettait à dd
de faire un bon travail. Les différences entre, par exemple, 64 Ko et 1 MiB sont mineures, comparées à 4 Ko contre 64 Ko. (Bien que, certes, cela fait un certain temps que je l'ai fait. J'utilise un mebibyte par défaut maintenant, ou je laisse simplement dd
choisir la taille.)
Comme d'autres l'ont dit, il n'y a pas de taille de bloc universellement correcte; ce qui est optimal pour une situation ou un matériel peut être terriblement inefficace pour un autre. En outre, en fonction de l'état des disques, il peut être préférable d'utiliser une taille de bloc différente de celle qui est "optimale".
Une chose qui est assez fiable sur le matériel moderne est que la taille de bloc par défaut de 512 octets a tendance à être presque d'un ordre de grandeur plus lente qu'une alternative plus optimale. En cas de doute, j'ai trouvé que 64K est un défaut moderne assez solide. Bien que 64K ne soit généralement pas la taille de bloc optimale, selon mon expérience, il a tendance à être beaucoup plus efficace que celui par défaut. 64K a également une solide réputation de fiabilité: vous pouvez trouver un message de la liste de diffusion Eug-Lug, circa 2002, recommandant une taille de bloc de 64K ici: http://www.mail-archive.com/ [email protected]/msg12073.html
Pour déterminer LA taille de bloc de sortie optimale, j'ai écrit le script suivant qui teste l'écriture d'un fichier de test 128M avec dd dans une plage de tailles de blocs différentes, allant de la valeur par défaut de 512 octets à un maximum de 64M. Soyez averti, ce script utilise dd en interne, utilisez-le avec prudence.
dd_obs_test.sh:
#!/bin/bash
# Since we're dealing with dd, abort if any errors occur
set -e
TEST_FILE=${1:-dd_obs_testfile}
TEST_FILE_EXISTS=0
if [ -e "$TEST_FILE" ]; then TEST_FILE_EXISTS=1; fi
TEST_FILE_SIZE=134217728
if [ $EUID -ne 0 ]; then
echo "NOTE: Kernel cache will not be cleared between tests without Sudo. This will likely cause inaccurate results." 1>&2
fi
# Header
PRINTF_FORMAT="%8s : %s\n"
printf "$PRINTF_FORMAT" 'block size' 'transfer rate'
# Block sizes of 512b 1K 2K 4K 8K 16K 32K 64K 128K 256K 512K 1M 2M 4M 8M 16M 32M 64M
for BLOCK_SIZE in 512 1024 2048 4096 8192 16384 32768 65536 131072 262144 524288 1048576 2097152 4194304 8388608 16777216 33554432 67108864
do
# Calculate number of segments required to copy
COUNT=$(($TEST_FILE_SIZE / $BLOCK_SIZE))
if [ $COUNT -le 0 ]; then
echo "Block size of $BLOCK_SIZE estimated to require $COUNT blocks, aborting further tests."
break
fi
# Clear kernel cache to ensure more accurate test
[ $EUID -eq 0 ] && [ -e /proc/sys/vm/drop_caches ] && echo 3 > /proc/sys/vm/drop_caches
# Create a test file with the specified block size
DD_RESULT=$(dd if=/dev/zero of=$TEST_FILE bs=$BLOCK_SIZE count=$COUNT conv=fsync 2>&1 1>/dev/null)
# Extract the transfer rate from dd's STDERR output
TRANSFER_RATE=$(echo $DD_RESULT | \grep --only-matching -E '[0-9.]+ ([MGk]?B|bytes)/s(ec)?')
# Clean up the test file if we created one
if [ $TEST_FILE_EXISTS -ne 0 ]; then rm $TEST_FILE; fi
# Output the result
printf "$PRINTF_FORMAT" "$BLOCK_SIZE" "$TRANSFER_RATE"
done
Je n’ai testé ce script que sur un système Debian (Ubuntu) et sur OSX Yosemite. Il faudra donc probablement peaufiner certaines modifications pour pouvoir fonctionner sur d’autres versions Unix.
Par défaut, la commande crée un fichier de test nommé dd_obs_testfile dans le répertoire en cours. Vous pouvez également fournir un chemin d'accès à un fichier de test personnalisé en spécifiant un chemin après le nom du script:
$ ./dd_obs_test.sh /path/to/disk/test_file
La sortie du script est une liste des tailles de blocs testées et de leurs taux de transfert respectifs, ainsi:
$ ./dd_obs_test.sh
block size : transfer rate
512 : 11.3 MB/s
1024 : 22.1 MB/s
2048 : 42.3 MB/s
4096 : 75.2 MB/s
8192 : 90.7 MB/s
16384 : 101 MB/s
32768 : 104 MB/s
65536 : 108 MB/s
131072 : 113 MB/s
262144 : 112 MB/s
524288 : 133 MB/s
1048576 : 125 MB/s
2097152 : 113 MB/s
4194304 : 106 MB/s
8388608 : 107 MB/s
16777216 : 110 MB/s
33554432 : 119 MB/s
67108864 : 134 MB/s
(Remarque: l'unité des taux de transfert variera selon le système d'exploitation)
Pour tester la taille optimale du bloc de lecture, vous pouvez utiliser plus ou moins le même processus, Mais au lieu de lire depuis/dev/zero et d'écrire sur le disque, vous liriez depuis Sur le disque et écrivez dans/dev. /nul. Un script pour faire cela pourrait ressembler à ceci:
dd_ibs_test.sh:
#!/bin/bash
# Since we're dealing with dd, abort if any errors occur
set -e
TEST_FILE=${1:-dd_ibs_testfile}
if [ -e "$TEST_FILE" ]; then TEST_FILE_EXISTS=$?; fi
TEST_FILE_SIZE=134217728
# Exit if file exists
if [ -e $TEST_FILE ]; then
echo "Test file $TEST_FILE exists, aborting."
exit 1
fi
TEST_FILE_EXISTS=1
if [ $EUID -ne 0 ]; then
echo "NOTE: Kernel cache will not be cleared between tests without Sudo. This will likely cause inaccurate results." 1>&2
fi
# Create test file
echo 'Generating test file...'
BLOCK_SIZE=65536
COUNT=$(($TEST_FILE_SIZE / $BLOCK_SIZE))
dd if=/dev/urandom of=$TEST_FILE bs=$BLOCK_SIZE count=$COUNT conv=fsync > /dev/null 2>&1
# Header
PRINTF_FORMAT="%8s : %s\n"
printf "$PRINTF_FORMAT" 'block size' 'transfer rate'
# Block sizes of 512b 1K 2K 4K 8K 16K 32K 64K 128K 256K 512K 1M 2M 4M 8M 16M 32M 64M
for BLOCK_SIZE in 512 1024 2048 4096 8192 16384 32768 65536 131072 262144 524288 1048576 2097152 4194304 8388608 16777216 33554432 67108864
do
# Clear kernel cache to ensure more accurate test
[ $EUID -eq 0 ] && [ -e /proc/sys/vm/drop_caches ] && echo 3 > /proc/sys/vm/drop_caches
# Read test file out to /dev/null with specified block size
DD_RESULT=$(dd if=$TEST_FILE of=/dev/null bs=$BLOCK_SIZE 2>&1 1>/dev/null)
# Extract transfer rate
TRANSFER_RATE=$(echo $DD_RESULT | \grep --only-matching -E '[0-9.]+ ([MGk]?B|bytes)/s(ec)?')
printf "$PRINTF_FORMAT" "$BLOCK_SIZE" "$TRANSFER_RATE"
done
# Clean up the test file if we created one
if [ $TEST_FILE_EXISTS -ne 0 ]; then rm $TEST_FILE; fi
Une différence importante dans ce cas est que le fichier de test est un fichier écrit par le script. Ne pointez pas cette commande sur un fichier existant, sinon le fichier existant sera remplacé par des zéros!
Pour mon matériel particulier, j’ai trouvé que 128 Ko était la taille de bloc d’entrée la plus optimale sur un disque dur et 32K était la meilleure sur un SSD.
Bien que cette réponse couvre la plupart de mes découvertes, je me suis souvent heurtée à cette situation au cours de laquelle j'ai écrit un article sur son blog: http://blog.tdg5.com/tuning-dd-block-size/ You peut trouver plus de détails sur les tests que j’ai effectués là-bas.
J'ai trouvé que ma taille de bloc optimale était de 8 Mo (égale à la mémoire cache du disque?) Je devais effacer (certains disent: laver) l'espace vide sur un disque avant d'en créer une image compressée
cd /media/DiskToWash/
dd if=/dev/zero of=zero bs=8M; rm zero
J'ai expérimenté des valeurs de 4K à 100M.
Après avoir laissé dd fonctionner pendant un moment, je l’ai tué (Ctlr + C) et lu le résultat:
36+0 records in
36+0 records out
301989888 bytes (302 MB) copied, 15.8341 s, 19.1 MB/s
Comme dd affiche le débit en entrée/sortie (19,1 Mo/s dans ce cas), il est facile de voir si la valeur que vous avez sélectionnée est meilleure que la précédente ou pire.
Mes scores:
bs= I/O rate
---------------
4K 13.5 MB/s
64K 18.3 MB/s
8M 19.1 MB/s <--- winner!
10M 19.0 MB/s
20M 18.6 MB/s
100M 18.6 MB/s
Vous pouvez essayer d’utiliser dd-opt , un petit utilitaire que j’ai écrit.
(Améliorations/raffinements bienvenus!)
Ceci dépend totalement du système. Vous devriez faire des essais pour trouver la solution optimale . Essayez de commencer par bs=8388608
. (Comme les disques durs Hitachi semblent avoir un cache de 8 Mo).
Comme dd copie les données avec l'option de synchronisation conv = noerror, toute erreur rencontrée entraînera le remplacement du reste du bloc par des zéros. Les tailles de bloc plus grandes seront copiées plus rapidement, mais chaque fois qu'une erreur est rencontrée, le reste du bloc est ignoré.