Problèmes avec le SSD: erreurs CRC en hausse, gel, parfois en lecture seule

Question

Mon ordinateur portable SSD agit et le nombre d'erreurs a monté en flèche depuis le la dernière fois que j'ai posté .

Ce lecteur est-il mort/en train de mourir?
C’est le moment et j’écris ceci: toutes mes données sont sauvegardées, mais je ne sais toujours pas si elles sont utilisables ou non?

Contacter le fabricant n'a pas beaucoup aidé: ils m'ont demandé d'installer Windows et d'exécuter l'utilitaire de vérification de disque à partir de là ou de le connecter en tant que lecteur externe à un hôte Windows et de le tester.
J'ai fait les deux et aucune erreur n'a été rencontrée.

Je l'ai aussi vérifié avec l'utilitaire fourni (voir la capture d'écran ci-dessous). J'ai ensuite utilisé l'image que j'ai faite avec Clonezilla pour revenir à Ubuntu, et j'ai constaté que le nombre d'erreurs SATA PHY avoisine les 300 erreurs!

J'ai également vérifié les connecteurs, mais comme le SSD est dans un ordinateur portable, je ne peux pas changer le câble (facilement).

Ce sont les résultats de test générés par l'utilitaire du fabricant

Et la sortie smartctl sur Ubuntu, plus tard:

smartctl 6.5 2016-05-07 r4318 [x86_64-linux-4.14.0-041400-generic] (local build) Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Device Model: SPCC Solid State Disk Serial Number: XXXXXXXXXX Firmware Version: S9FM02.8 User Capacity: 120,034,123,776 bytes [120 GB] Sector Size: 512 bytes logical/physical Rotation Rate: Solid State Device Form Factor: 2.5 inches Device is: Not in smartctl database [for details use: -P showall] ATA Version is: ACS-3 (minor revision not indicated) SATA Version is: SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s) Local Time is: Sun Feb 18 02:22:56 2018 EET SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: PASSED General SMART Values: Offline data collection status: (0x00) Offline data collection activity was never started. Auto Offline Data Collection: Disabled. Self-test execution status: ( 0) The previous self-test routine completed without error or no self-test has ever been run. Total time to complete Offline data collection: ( 30) seconds. Offline data collection capabilities: (0x7b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time: ( 1) minutes. Extended self-test routine recommended polling time: ( 2) minutes. Conveyance self-test routine recommended polling time: ( 2) minutes. SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000a 100 100 000 Old_age Always - 0 9 Power_On_Hours 0x0012 100 100 000 Old_age Always - 6352 12 Power_Cycle_Count 0x0012 100 100 000 Old_age Always - 2717 168 Unknown_Attribute 0x0012 100 100 000 Old_age Always - 0 170 Unknown_Attribute 0x0013 100 100 010 Pre-fail Always - 25 173 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 105447539 192 Power-Off_Retract_Count 0x0012 100 100 000 Old_age Always - 77 194 Temperature_Celsius 0x0023 070 070 000 Pre-fail Always - 30 196 Reallocated_Event_Count 0x0000 100 100 000 Old_age Offline - 0 218 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 15431 241 Total_LBAs_Written 0x0012 100 100 000 Old_age Always - 6281157 SMART Error Log Version: 1 ATA Error Count: 298 (device log contains only the most recent five errors) CR = Command Register [HEX] FR = Features Register [HEX] SC = Sector Count Register [HEX] SN = Sector Number Register [HEX] CL = Cylinder Low Register [HEX] CH = Cylinder High Register [HEX] DH = Device/Head Register [HEX] DC = Device Command Register [HEX] ER = Error register [HEX] ST = Status register [HEX] Powered_Up_Time is measured from power on, and printed as DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes, SS=sec, and sss=millisec. It "wraps" after 49.710 days. Error 298 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 84 51 01 01 00 00 00 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- ff d5 01 01 00 00 00 ff 00:11:08.077 [VENDOR SPECIFIC] ca 00 80 b0 8f 12 e1 00 00:11:08.076 WRITE DMA ca 00 80 30 8f 12 e1 00 00:11:08.076 WRITE DMA ca 00 80 b0 8e 12 e1 00 00:11:08.075 WRITE DMA ca 00 80 30 8e 12 e1 00 00:11:08.074 WRITE DMA Error 297 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 84 51 01 01 00 00 00 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- ff d5 01 01 00 00 00 ff 00:11:08.039 [VENDOR SPECIFIC] ca 00 80 b0 7c 12 e1 00 00:11:08.038 WRITE DMA ca 00 80 30 7c 12 e1 00 00:11:08.038 WRITE DMA ca 00 80 b0 7b 12 e1 00 00:11:08.037 WRITE DMA ca 00 80 30 7b 12 e1 00 00:11:08.037 WRITE DMA Error 296 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 84 51 01 01 00 00 00 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- ff d5 01 01 00 00 00 ff 00:11:07.974 [VENDOR SPECIFIC] ca 00 80 b0 48 12 e1 00 00:11:07.973 WRITE DMA ca 00 80 30 48 12 e1 00 00:11:07.972 WRITE DMA ca 00 80 b0 47 12 e1 00 00:11:07.972 WRITE DMA ca 00 80 30 47 12 e1 00 00:11:07.972 WRITE DMA Error 295 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 84 51 01 01 00 00 00 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- ff d5 01 01 00 00 00 ff 00:11:07.927 [VENDOR SPECIFIC] ca 00 80 b0 2a 12 e1 00 00:11:07.926 WRITE DMA ca 00 80 30 2a 12 e1 00 00:11:07.925 WRITE DMA ca 00 80 b0 29 12 e1 00 00:11:07.925 WRITE DMA ca 00 80 30 29 12 e1 00 00:11:07.924 WRITE DMA Error 294 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours) When the command that caused the error occurred, the device was active or idle. After command completion occurred, registers were: ER ST SC SN CL CH DH -- -- -- -- -- -- -- 84 51 01 01 00 00 00 Commands leading to the command that caused the error were: CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name -- -- -- -- -- -- -- -- ---------------- -------------------- ff d5 01 01 00 00 00 ff 00:11:07.899 [VENDOR SPECIFIC] ca 00 80 b0 22 12 e1 00 00:11:07.898 WRITE DMA ca 00 80 30 22 12 e1 00 00:11:07.897 WRITE DMA ca 00 80 b0 21 12 e1 00 00:11:07.897 WRITE DMA ca 00 80 30 21 12 e1 00 00:11:07.896 WRITE DMA SMART Self-test log structure revision number 1 Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error # 1 Short offline Completed without error 00% 6288 - # 2 Conveyance offline Completed without error 00% 6285 - # 3 Short offline Completed without error 00% 6285 - # 4 Extended offline Completed without error 00% 6283 - # 5 Extended offline Completed without error 00% 6283 - # 6 Short offline Completed without error 00% 6283 - # 7 Extended offline Completed without error 00% 6262 - # 8 Conveyance offline Completed without error 00% 6262 - # 9 Conveyance offline Completed without error 00% 6262 - #10 Extended offline Completed without error 00% 6262 - #11 Short offline Completed without error 00% 6262 - #12 Conveyance offline Completed without error 00% 6211 - #13 Extended offline Completed without error 00% 6211 - #14 Short offline Completed without error 00% 6211 - #15 Short offline Completed without error 00% 6075 - #16 Conveyance offline Completed without error 00% 5564 - #17 Extended offline Completed without error 00% 5564 - #18 Short offline Completed without error 00% 5564 - #19 Conveyance offline Completed without error 00% 5319 - #20 Short offline Completed without error 00% 5319 - #21 Conveyance offline Completed without error 00% 4403 - SMART Selective self-test log data structure revision number 0 Note: revision number not 1 implies that no selective self-test has ever been run SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 0 0 Not_testing 2 0 0 Not_testing 3 0 0 Not_testing 4 0 0 Not_testing 5 0 0 Not_testing Selective self-test flags (0x0): After scanning selected spans, do NOT read-scan remainder of disk. If Selective self-test is pending on power-up, resume after 0 minute delay.

Robert Riedl · Answer

Remplacez votre SSD

Les gens ont essayé beaucoup de choses dans les commentaires, mais ce disque SSD semble avoir quelques problèmes.

À en juger par les lectures S.M.A.R.T, votre lecteur n’a pas été très actif (environ 250 jours de puissance, ~ 6 TB écrit) et vous dites qu’il a environ 2 ans. Cela devrait bien être dans la garantie!

Mon conseil est

sauvegarder toutes vos données immédiatement (bien que vous disiez que celles-ci sont déjà couvertes)
enlever/remplacer le SSD (selon votre budget, bien sûr)
envoyer le disque au fabricant pour le remplacer

Votre disque " Slim S70 " doit être couvert par la garantie de 5 ans de Silicon Power

Il suffit de leur envoyer ne demande de RMA ici.

WinEunuuchs2Unix · Answer

Avant le 11 mai 2017, vous avez mis à jour votre micrologiciel SSD. Cependant, une nouvelle version a été publiée dans septembre 2017 et vous devez l'appliquer sous Windows.

Exécutez fstrim pour supprimer les blocs inutilisés du système de fichiers:

$ Sudo fstrim --verbose --all /mnt/c: 16 EiB (18446744073709551615 bytes) trimmed /mnt/e: 16 EiB (18446744073709551615 bytes) trimmed /: 23.4 GiB (25132920832 bytes) trimmed

Dans mon cas, les résultats pour les partitions Windows 10 /mnt/c et /mnt/e étaient hors de ce monde. J'ai donc vérifié les fichiers et rien n’a été fait au détriment des données.

Exécutez fsck -f sur votre disque SSD après l’amorçage avec un Live-USB lorsque la partition n’est pas montée. Une autre option consiste à exécuter fsck -f à partir de grub - Comment fsck un disque dur lorsque celui-ci est démonté, à l’aide d’une clé USB amorçable? .

Comme mentionné dans les commentaires, un câble SATA défectueux peut provoquer des erreurs. Mais comme cette réponse , une connexion lâche peut également causer des erreurs. Pour éliminer tout risque de connexion défectueuse ou lâche, retirez les fiches de votre SSD, insufflez de l'air comprimé dessus et les broches mâles du lecteur, puis réinsérez fermement les câbles.

Combien vaut votre temps?

La dernière question est combien vaut votre temps. En supposant que vous ayez passé 10 heures sur ce problème, cela vous coûtera 5 $ de l’heure, car de nombreux SSD 120 Go SATA III tout neufs peuvent être achetés auprès de ebay.com

Mise à jour du 23 février 2014

J'ai lu toutes les autres réponses ce soir. Une réponse dit de le retourner. Mais si vous le faites et qu'ils ne trouvent rien de mal, ils le renverront tout simplement et vous ne passerez pas en voiture pendant 2 semaines à 2 mois.

Une autre réponse indique que smartctl a signalé qu’il n’y avait aucun problème avec le lecteur.

Dans cette réponse, j'ai suggéré de lancer fsck -f et vous avez répondu qu'aucune erreur n'avait été signalée.

Exécutez `fsck` à chaque démarrage

En tant que compromis entre la réponse négative (la retourner) et la réponse positive (rien n’est faux), j’aurais tendance à vouloir exécuter fsck à chaque démarrage . Si une erreur est découverte, le démarrage est suspendu et vous pouvez lire le message d'erreur. Pour résumer le lien, utilisez:

Sudo tune2fs -c 1 /dev/sdX

Remarque: remplacez X par votre lettre de lecteur, c'est-à-dire a, b, etc. .

Si, après un mois sans erreur, modifiez la valeur de 1 en 30, ce qui est typique pour la plupart des systèmes, je crois. Sur un SSD typique, la fsck fonctionnera rapidement.

Nettoyez et réinstallez les câbles SATA

D'autres ont mentionné le remplacement du câble SATA, ce qui est problématique pour un ordinateur portable. En guise de compromis, envisagez de débrancher tous les câbles du côté du lecteur, en utilisant de l'air comprimé aux extrémités mâle et femelle, puis en rebranchant fermement les câbles.

thomasrutter · Answer

Il n'y a rien de mal avec votre lecteur. Tous les tests réussissent. Vous interprétez simplement mal les données SMART.

Premièrement, la première capture d'écran contient des données brutes et vous ne pouvez en tirer aucune conclusion. Je ne sais pas du tout quel usage son créateur pense que ces données seraient utiles à quiconque, mais cela ne veut vraiment rien dire. Sauf si les colonnes significatives peuvent être atteintes en faisant défiler directement dans la fenêtre ou quelque chose.

Laissez-moi vous expliquer les colonnes du rapport SMART (le dernier rapport que vous avez publié).

Nom de l'attribut: nom de la métrique
Valeur: valeur actuelle, plus c'est élevé, mieux c'est. Les valeurs sont souvent sur 100 où 100 = mieux, mais peuvent utiliser n'importe quelle échelle tant que le plus haut est le meilleur. Même si la mesure s'apparente à "taux d'erreur", elle est normalisée, donc des valeurs plus élevées signifient des taux d'erreur plus faibles.
Pire: pire valeur observée, plus c'est élevé, mieux c'est.
Thresh: si la valeur tombe en dessous de cela, c'est une condition d'échec. At ou dessus = passe.
Type: ce qu'une condition d'échec signifierait pour cette métrique.
- Old_age: cette métrique indique l'âge/l'utilisation du lecteur, pas un problème spécifique.
- Pré-échec: cette métrique indique un problème potentiel avec le lecteur, augmentant les risques de défaillance du lecteur.
When_failed: Lorsque ce mode d'échec est entré, si jamais
Raw_value: mesure interne du lecteur qui a contribué à la valeur - cela n'est pas utile pour l'utilisateur final et des valeurs inférieures ou supérieures n'indiquent pas nécessairement un résultat meilleur ou pire.

Pour aborder certains domaines spécifiques du rapport:

Résultat du test d'auto-évaluation de santé globale SMART: PASSED

Cela reflète tout passé. Aucune des mesures mesurées n’est jamais entrée dans un état d’échec.

Le journal des "erreurs" est relativement typique pour un lecteur. Celles-ci n'indiquent pas nécessairement des erreurs irrécupérables ni même des problèmes avec le lecteur lui-même; leurs rapports sont vagues, vous ne pouvez donc pas dire ce qui s'est réellement passé, à moins que ce soit pendant le transfert de DMA chez le contrôleur, mais si quelque chose d'importait, cela figurerait dans le rapport sur la santé en général. Celles-ci peuvent notamment être quelque chose d'assez innocent, comme des écritures annulées du côté du contrôleur, ou le système d'exploitation demandant une fonctionnalité pendant le chargement que le lecteur ne prend pas en charge, ce qui peut être tout à fait normal lors de l'analyse des capacités du périphérique.

Enfin, une remarque sur les erreurs CRC ou les taux d’erreur: tous les lecteurs ont un taux d’erreur. Les lecteurs stockent des données à des densités si élevées qu’un certain nombre d’erreurs sur les bits est attendu et conçu pour, en utilisant un code de correction d’erreur. Le code de correction d'erreur garantit qu'un certain nombre d'erreurs sur les bits peuvent se produire et être corrigés à 100%. Le lecteur applique constamment le code de correction d'erreur à tout moment, et le code de correction d'erreur est conçu de sorte que le risque d'erreur irrécupérable se produisant de manière aléatoire est très faible (comme dans, nettement moins probable que le gain du loterie) dans un lecteur qui fonctionne bien. Si vous voyez un taux d'erreur dans n'importe quelle statistique et qu'elle est traitée comme une affaire sans importance, c'est parce que ce n'est pas le cas, il s'agira simplement d'erreurs corrigées.

jringoot · Answer

Puisque vous n'avez que WRITE DMA erreurs et court et longs tests ne montrent aucune erreur.

Et puisque DMA concerne l’accès direct à la mémoire, essayez de savoir si le BIOS dispose d’un test de diagnostic matériel distinct et essayez les tests liés à la mémoire.

Si aucun test intégré au BIOS n'est disponible, consultez le site de support du fabricant si un diagnostic matériel hors ligne est disponible (par exemple: fichier ISO amorçable à graver sur un CD ou une clé USB).

(BTW: Un cd ubuntu a aussi des diagnostics de mémoire)

Étant donné que DMA write est IO, je voudrais essayer de remplacer le câble SATA et vérifier si aucun nouveau numéro d'erreur n'est ajouté par la suite (le dernier est ici 298 mais vous pouvez en ajouter d'autres maintenant).