Comment utiliser les instructions FMA (Multused Multiply-Add) avec SSE / AVX
Obtention de la bande passante maximale sur Haswell dans le cache L1: seulement 62%
AVX2: Calcul du produit scalaire de 512 tableaux flottants