web-dev-qa-db-fra.com

Problèmes avec le SSD: erreurs CRC en hausse, gel, parfois en lecture seule

Mon ordinateur portable SSD agit et le nombre d'erreurs a monté en flèche depuis le la dernière fois que j'ai posté .

Ce lecteur est-il mort/en train de mourir?
C’est le moment et j’écris ceci: toutes mes données sont sauvegardées, mais je ne sais toujours pas si elles sont utilisables ou non?

Contacter le fabricant n'a pas beaucoup aidé: ils m'ont demandé d'installer Windows et d'exécuter l'utilitaire de vérification de disque à partir de là ou de le connecter en tant que lecteur externe à un hôte Windows et de le tester.
J'ai fait les deux et aucune erreur n'a été rencontrée.

Je l'ai aussi vérifié avec l'utilitaire fourni (voir la capture d'écran ci-dessous). J'ai ensuite utilisé l'image que j'ai faite avec Clonezilla pour revenir à Ubuntu, et j'ai constaté que le nombre d'erreurs SATA PHY avoisine les 300 erreurs!

J'ai également vérifié les connecteurs, mais comme le SSD est dans un ordinateur portable, je ne peux pas changer le câble (facilement).

Ce sont les résultats de test générés par l'utilitaire du fabricant

Test results

Et la sortie smartctl sur Ubuntu, plus tard:

smartctl 6.5 2016-05-07 r4318 [x86_64-linux-4.14.0-041400-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     SPCC Solid State Disk
Serial Number:    XXXXXXXXXX
Firmware Version: S9FM02.8
User Capacity:    120,034,123,776 bytes [120 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      2.5 inches
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ACS-3 (minor revision not indicated)
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Sun Feb 18 02:22:56 2018 EET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                    was never started.
                    Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                    without error or no self-test has ever 
                    been run.
Total time to complete Offline 
data collection:        (   30) seconds.
Offline data collection
capabilities:            (0x7b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                    General Purpose Logging supported.
Short self-test routine 
recommended polling time:    (   1) minutes.
Extended self-test routine
recommended polling time:    (   2) minutes.
Conveyance self-test routine
recommended polling time:    (   2) minutes.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000a   100   100   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0012   100   100   000    Old_age   Always       -       6352
 12 Power_Cycle_Count       0x0012   100   100   000    Old_age   Always       -       2717
168 Unknown_Attribute       0x0012   100   100   000    Old_age   Always       -       0
170 Unknown_Attribute       0x0013   100   100   010    Pre-fail  Always       -       25
173 Unknown_Attribute       0x0000   100   100   000    Old_age   Offline      -       105447539
192 Power-Off_Retract_Count 0x0012   100   100   000    Old_age   Always       -       77
194 Temperature_Celsius     0x0023   070   070   000    Pre-fail  Always       -       30
196 Reallocated_Event_Count 0x0000   100   100   000    Old_age   Offline      -       0
218 Unknown_Attribute       0x0000   100   100   000    Old_age   Offline      -       15431
241 Total_LBAs_Written      0x0012   100   100   000    Old_age   Always       -       6281157

SMART Error Log Version: 1
ATA Error Count: 298 (device log contains only the most recent five errors)
    CR = Command Register [HEX]
    FR = Features Register [HEX]
    SC = Sector Count Register [HEX]
    SN = Sector Number Register [HEX]
    CL = Cylinder Low Register [HEX]
    CH = Cylinder High Register [HEX]
    DH = Device/Head Register [HEX]
    DC = Device Command Register [HEX]
    ER = Error register [HEX]
    ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 298 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 01 01 00 00 00

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ff d5 01 01 00 00 00 ff      00:11:08.077  [VENDOR SPECIFIC]
  ca 00 80 b0 8f 12 e1 00      00:11:08.076  WRITE DMA
  ca 00 80 30 8f 12 e1 00      00:11:08.076  WRITE DMA
  ca 00 80 b0 8e 12 e1 00      00:11:08.075  WRITE DMA
  ca 00 80 30 8e 12 e1 00      00:11:08.074  WRITE DMA

Error 297 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 01 01 00 00 00

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ff d5 01 01 00 00 00 ff      00:11:08.039  [VENDOR SPECIFIC]
  ca 00 80 b0 7c 12 e1 00      00:11:08.038  WRITE DMA
  ca 00 80 30 7c 12 e1 00      00:11:08.038  WRITE DMA
  ca 00 80 b0 7b 12 e1 00      00:11:08.037  WRITE DMA
  ca 00 80 30 7b 12 e1 00      00:11:08.037  WRITE DMA

Error 296 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 01 01 00 00 00

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ff d5 01 01 00 00 00 ff      00:11:07.974  [VENDOR SPECIFIC]
  ca 00 80 b0 48 12 e1 00      00:11:07.973  WRITE DMA
  ca 00 80 30 48 12 e1 00      00:11:07.972  WRITE DMA
  ca 00 80 b0 47 12 e1 00      00:11:07.972  WRITE DMA
  ca 00 80 30 47 12 e1 00      00:11:07.972  WRITE DMA

Error 295 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 01 01 00 00 00

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ff d5 01 01 00 00 00 ff      00:11:07.927  [VENDOR SPECIFIC]
  ca 00 80 b0 2a 12 e1 00      00:11:07.926  WRITE DMA
  ca 00 80 30 2a 12 e1 00      00:11:07.925  WRITE DMA
  ca 00 80 b0 29 12 e1 00      00:11:07.925  WRITE DMA
  ca 00 80 30 29 12 e1 00      00:11:07.924  WRITE DMA

Error 294 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 01 01 00 00 00

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ff d5 01 01 00 00 00 ff      00:11:07.899  [VENDOR SPECIFIC]
  ca 00 80 b0 22 12 e1 00      00:11:07.898  WRITE DMA
  ca 00 80 30 22 12 e1 00      00:11:07.897  WRITE DMA
  ca 00 80 b0 21 12 e1 00      00:11:07.897  WRITE DMA
  ca 00 80 30 21 12 e1 00      00:11:07.896  WRITE DMA

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%      6288         -
# 2  Conveyance offline  Completed without error       00%      6285         -
# 3  Short offline       Completed without error       00%      6285         -
# 4  Extended offline    Completed without error       00%      6283         -
# 5  Extended offline    Completed without error       00%      6283         -
# 6  Short offline       Completed without error       00%      6283         -
# 7  Extended offline    Completed without error       00%      6262         -
# 8  Conveyance offline  Completed without error       00%      6262         -
# 9  Conveyance offline  Completed without error       00%      6262         -
#10  Extended offline    Completed without error       00%      6262         -
#11  Short offline       Completed without error       00%      6262         -
#12  Conveyance offline  Completed without error       00%      6211         -
#13  Extended offline    Completed without error       00%      6211         -
#14  Short offline       Completed without error       00%      6211         -
#15  Short offline       Completed without error       00%      6075         -
#16  Conveyance offline  Completed without error       00%      5564         -
#17  Extended offline    Completed without error       00%      5564         -
#18  Short offline       Completed without error       00%      5564         -
#19  Conveyance offline  Completed without error       00%      5319         -
#20  Short offline       Completed without error       00%      5319         -
#21  Conveyance offline  Completed without error       00%      4403         -

SMART Selective self-test log data structure revision number 0
Note: revision number not 1 implies that no selective self-test has ever been run
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
6
Muaad ElSharif

Remplacez votre SSD

Les gens ont essayé beaucoup de choses dans les commentaires, mais ce disque SSD semble avoir quelques problèmes.

À en juger par les lectures S.M.A.R.T, votre lecteur n’a pas été très actif (environ 250 jours de puissance, ~ 6 TB écrit) et vous dites qu’il a environ 2 ans. Cela devrait bien être dans la garantie!

Mon conseil est

  • sauvegarder toutes vos données immédiatement (bien que vous disiez que celles-ci sont déjà couvertes)
  • enlever/remplacer le SSD (selon votre budget, bien sûr)
  • envoyer le disque au fabricant pour le remplacer

Votre disque " Slim S70 " doit être couvert par la garantie de 5 ans de Silicon Power warranty

Il suffit de leur envoyer ne demande de RMA ici.

6
Robert Riedl

Avant le 11 mai 2017, vous avez mis à jour votre micrologiciel SSD. Cependant, une nouvelle version a été publiée dans septembre 2017 et vous devez l'appliquer sous Windows.


Exécutez fstrim pour supprimer les blocs inutilisés du système de fichiers:

$ Sudo fstrim --verbose --all
/mnt/c: 16 EiB (18446744073709551615 bytes) trimmed
/mnt/e: 16 EiB (18446744073709551615 bytes) trimmed
/: 23.4 GiB (25132920832 bytes) trimmed

Dans mon cas, les résultats pour les partitions Windows 10 /mnt/c et /mnt/e étaient hors de ce monde. J'ai donc vérifié les fichiers et rien n’a été fait au détriment des données.


Exécutez fsck -f sur votre disque SSD après l’amorçage avec un Live-USB lorsque la partition n’est pas montée. Une autre option consiste à exécuter fsck -f à partir de grub - Comment fsck un disque dur lorsque celui-ci est démonté, à l’aide d’une clé USB amorçable? .


Comme mentionné dans les commentaires, un câble SATA défectueux peut provoquer des erreurs. Mais comme cette réponse , une connexion lâche peut également causer des erreurs. Pour éliminer tout risque de connexion défectueuse ou lâche, retirez les fiches de votre SSD, insufflez de l'air comprimé dessus et les broches mâles du lecteur, puis réinsérez fermement les câbles.


Combien vaut votre temps?

La dernière question est combien vaut votre temps. En supposant que vous ayez passé 10 heures sur ce problème, cela vous coûtera 5 $ de l’heure, car de nombreux SSD 120 Go SATA III tout neufs peuvent être achetés auprès de ebay.com


Mise à jour du 23 février 2014

J'ai lu toutes les autres réponses ce soir. Une réponse dit de le retourner. Mais si vous le faites et qu'ils ne trouvent rien de mal, ils le renverront tout simplement et vous ne passerez pas en voiture pendant 2 semaines à 2 mois.

Une autre réponse indique que smartctl a signalé qu’il n’y avait aucun problème avec le lecteur.

Dans cette réponse, j'ai suggéré de lancer fsck -f et vous avez répondu qu'aucune erreur n'avait été signalée.

Exécutez fsck à chaque démarrage

En tant que compromis entre la réponse négative (la retourner) et la réponse positive (rien n’est faux), j’aurais tendance à vouloir exécuter fsck à chaque démarrage . Si une erreur est découverte, le démarrage est suspendu et vous pouvez lire le message d'erreur. Pour résumer le lien, utilisez:

Sudo tune2fs -c 1 /dev/sdX

Remarque: remplacez X par votre lettre de lecteur, c'est-à-dire a, b, etc. .

Si, après un mois sans erreur, modifiez la valeur de 1 en 30, ce qui est typique pour la plupart des systèmes, je crois. Sur un SSD typique, la fsck fonctionnera rapidement.

Nettoyez et réinstallez les câbles SATA

D'autres ont mentionné le remplacement du câble SATA, ce qui est problématique pour un ordinateur portable. En guise de compromis, envisagez de débrancher tous les câbles du côté du lecteur, en utilisant de l'air comprimé aux extrémités mâle et femelle, puis en rebranchant fermement les câbles.

3
WinEunuuchs2Unix

Il n'y a rien de mal avec votre lecteur. Tous les tests réussissent. Vous interprétez simplement mal les données SMART.

Premièrement, la première capture d'écran contient des données brutes et vous ne pouvez en tirer aucune conclusion. Je ne sais pas du tout quel usage son créateur pense que ces données seraient utiles à quiconque, mais cela ne veut vraiment rien dire. Sauf si les colonnes significatives peuvent être atteintes en faisant défiler directement dans la fenêtre ou quelque chose.

Laissez-moi vous expliquer les colonnes du rapport SMART (le dernier rapport que vous avez publié).

  • Nom de l'attribut: nom de la métrique
  • Valeur: valeur actuelle, plus c'est élevé, mieux c'est. Les valeurs sont souvent sur 100 où 100 = mieux, mais peuvent utiliser n'importe quelle échelle tant que le plus haut est le meilleur. Même si la mesure s'apparente à "taux d'erreur", elle est normalisée, donc des valeurs plus élevées signifient des taux d'erreur plus faibles.
  • Pire: pire valeur observée, plus c'est élevé, mieux c'est.
  • Thresh: si la valeur tombe en dessous de cela, c'est une condition d'échec. At ou dessus = passe.
  • Type: ce qu'une condition d'échec signifierait pour cette métrique.
    • Old_age: cette métrique indique l'âge/l'utilisation du lecteur, pas un problème spécifique.
    • Pré-échec: cette métrique indique un problème potentiel avec le lecteur, augmentant les risques de défaillance du lecteur.
  • When_failed: Lorsque ce mode d'échec est entré, si jamais
  • Raw_value: mesure interne du lecteur qui a contribué à la valeur - cela n'est pas utile pour l'utilisateur final et des valeurs inférieures ou supérieures n'indiquent pas nécessairement un résultat meilleur ou pire.

Pour aborder certains domaines spécifiques du rapport:

Résultat du test d'auto-évaluation de santé globale SMART: PASSED

Cela reflète tout passé. Aucune des mesures mesurées n’est jamais entrée dans un état d’échec.

Le journal des "erreurs" est relativement typique pour un lecteur. Celles-ci n'indiquent pas nécessairement des erreurs irrécupérables ni même des problèmes avec le lecteur lui-même; leurs rapports sont vagues, vous ne pouvez donc pas dire ce qui s'est réellement passé, à moins que ce soit pendant le transfert de DMA chez le contrôleur, mais si quelque chose d'importait, cela figurerait dans le rapport sur la santé en général. Celles-ci peuvent notamment être quelque chose d'assez innocent, comme des écritures annulées du côté du contrôleur, ou le système d'exploitation demandant une fonctionnalité pendant le chargement que le lecteur ne prend pas en charge, ce qui peut être tout à fait normal lors de l'analyse des capacités du périphérique.

Enfin, une remarque sur les erreurs CRC ou les taux d’erreur: tous les lecteurs ont un taux d’erreur. Les lecteurs stockent des données à des densités si élevées qu’un certain nombre d’erreurs sur les bits est attendu et conçu pour, en utilisant un code de correction d’erreur. Le code de correction d'erreur garantit qu'un certain nombre d'erreurs sur les bits peuvent se produire et être corrigés à 100%. Le lecteur applique constamment le code de correction d'erreur à tout moment, et le code de correction d'erreur est conçu de sorte que le risque d'erreur irrécupérable se produisant de manière aléatoire est très faible (comme dans, nettement moins probable que le gain du loterie) dans un lecteur qui fonctionne bien. Si vous voyez un taux d'erreur dans n'importe quelle statistique et qu'elle est traitée comme une affaire sans importance, c'est parce que ce n'est pas le cas, il s'agira simplement d'erreurs corrigées.

2
thomasrutter

Puisque vous n'avez que WRITE DMA erreurs et court et longs tests ne montrent aucune erreur.

Et puisque DMA concerne l’accès direct à la mémoire, essayez de savoir si le BIOS dispose d’un test de diagnostic matériel distinct et essayez les tests liés à la mémoire.

Si aucun test intégré au BIOS n'est disponible, consultez le site de support du fabricant si un diagnostic matériel hors ligne est disponible (par exemple: fichier ISO amorçable à graver sur un CD ou une clé USB).

(BTW: Un cd ubuntu a aussi des diagnostics de mémoire)

Étant donné que DMA write est IO, je voudrais essayer de remplacer le câble SATA et vérifier si aucun nouveau numéro d'erreur n'est ajouté par la suite (le dernier est ici 298 mais vous pouvez en ajouter d'autres maintenant).

0
jringoot