J'ai vu une discussion sur l'utilisation de la RAM ECC sur des serveurs. Pourquoi est-ce mieux?
ECC RAM===== peut récupérer de petites erreurs dans des bits, en utilisant des bits de parité. Les serveurs étant une ressource partagée dans laquelle le temps et la fiabilité sont importants, ECC RAM Est généralement utilisé avec seulement une différence modeste de prix. ECC RAM est également utilisé dans les postes de travail de CAO/CAM était de faibles erreurs de bits pourraient provoquer des erreurs de calcul qui sont des problèmes plus importants lorsqu'une conception va à la fabrication.
Excellente étude du monde réel:
erreurs drames dans la nature: une étude de terrain à grande échelle (PDF)
Ce document fournit la première étude à grande échelle des erreurs de mémoire DRAM sur le terrain. Il est basé sur des données collectées auprès de Google Server Flotte sur une période de plus de deux ans, ce qui constitue de nombreuses millions de jours de DIMM. Le DRAM de notre étude couvre plusieurs fournisseurs, densités et technologies DRAM (DDR1, DDR2 et FBDIMM).
Le document aborde les questions suivantes: Comment COMM sont des erreurs de mémoire dans la pratique? Quelles sont leurs propriétés statistiques? Comment sont-ils affectés par des facteurs externes, tels que la température et l'utilisation du système? Et comment varient-elles avec des facteurs spécifiques à la puce, tels que la densité de copeaux, la technologie de la mémoire et l'âge de DIMM?
Nous constatons que dans de nombreux aspects, les erreurs drames dans le domaine se comportent très différemment que communément supposées. Par exemple, nous observons des taux d'erreur DRAM qui sont des ordres de grandeur supérieurs à ceux précédemment rapportés, avec des taux d'ajustement (échecs dans le temps par milliard d'heures d'heures) de 25 000 à 70 000 par Mbit et plus de 8% des DIMM concernés par an. Nous fournissons des preuves solides que des erreurs de mémoire sont dominées par des erreurs difficiles, plutôt que par des erreurs souples, que la plupart des travaux précédents se concentrent sur. Nous trouvons que, sur tout Les facteurs qui ont une incidence sur le comportement d'erreur du DIMM sur le terrain, la température a un effet étonnamment faible. Enfin, contrairement à la crainte couramment, nous n'observons aucune indication selon laquelle les taux d'erreur par Dimm augmentent avec les générations plus récentes de DIMMS.
Intéressant que la plupart des erreurs de mémoire étaient irrécupérables des erreurs de mémoire difficiles, ce qui signifie que la mémoire doit être physiquement remplacée comme ayant échoué, tandis que les erreurs de mémoire molle peuvent être corrigées en écrasant la mémoire avec la valeur correcte avec la valeur correcte. . Cela m'indique que la valeur de la CEC est assez limitée.
Il existe deux types d'erreurs qui peuvent généralement se produire dans un système de mémoire. Le premier est appelé une erreur répétable ou difficile. Dans cette situation, un élément de matériel est brisé et retournera systématiquement des résultats incorrects. Un peu peut être coincé de sorte qu'il retourne toujours "0" par exemple, peu importe ce qui est écrit. Les erreurs difficiles indiquent généralement des modules de mémoire desserrés, des copeaux soufflés, des défauts de la carte mère ou d'autres problèmes physiques. Ils sont relativement faciles à diagnostiquer et à corriger car ils sont cohérents et répétables.
Cela ressemble à tous les serveurs de l'étude utilisée ECC. Nous ne pouvons donc pas connaître les taux d'erreur ECC vs non-ECC.
Cet article a étudié l'incidence et les caractéristiques des erreurs de DRAM dans une grande flotte de serveurs de produits de base. Notre étude repose sur des données collectées sur plus de 2 ans et couvre les DIMM de plusieurs fournisseurs, générations, technologies et capacités. Tous les DIMM ont été équipés d'erreurs de correction de la logique (ECC) pour corriger au moins une seule erreur de bits.
La CEC a plusieurs avantages sur la parité. Pour un, il peut détecter et réparer des erreurs mono-bits et le faire sans avoir à arrêter tout le système. Les erreurs multiples bit rendront toujours une erreur de parité, mais les chances de cette activité sont astronomiquement au cours de la vie d'un PC, à moins que la mémoire elle-même soit défectueuse. ECC est comme une assurance auto: il vous couvre la majorité des choses qui peuvent vous tromper, mais cela ne peut pas empêcher un empilement multi-voitures.
plus de détails ici: Mémoire ECC: Un must pour les serveurs, non pour les ordinateurs de burea
Pour rendre les choses simples, citant de Wikipedia :
Les interférences électriques ou magnétiques à l'intérieur d'un système informatique peuvent entraîner une bascule spontanément à l'état opposé. Il était initialement pensé que c'était principalement due à des particules alpha émises par des contaminants dans des matériaux d'emballage de copeaux, mais la recherche [5] a montré que la majorité des erreurs unique ("douces") dans les puces drames se produisent à la suite de rayonnement de fond
...
[.____] Ce problème peut être atténué en utilisant des modules DRAM qui incluent des bits de mémoire supplémentaires et des contrôleurs de mémoire qui exploitent ces bits. Ces bits supplémentaires sont utilisés pour enregistrer la parité ou pour utiliser un code de correction d'erreur.