Wann ist ein SMART Fehler "kritisch"? (Reset Error Counter)

  • Hallo und Hi,

    ich weiß nicht, ob das hier das richtige Forum ist, aber da ich nicht in vielen Foren angemeldet bin,
    probier ich es hier einfach mal.
    Und zwar, ich habe mir 2 neue Festplatten gekauft, und auch gleich fleißig mein System von "normalen" Debian Wheezy auf OpenMediaVault geändert (also, im Grunde nicht viel dran verändert, normales Debian durech ein gleiches Debian ersetzt *grins*)

    Sodele, zu meinem Problem, ich habe unter OpenMediaVault die SMART Berichte eingeschaltet.
    Das System einen Tag laufen lassen, und heute mal, da ich es einfach vermisst habe, Webmin installiert.
    (Schönere Graphen und CPU Temperaturen...)

    Prompt habe ich im Willkommens-Screen "SMART Fehler". (siehe Bild)

    Also, erst mal Panik geschobeben, SDA und SDB sind die zwei neuen Platten.
    SDC und SDD liefen seit rund 8 Monate unter meinem normalen Wheezy ohne Fehleranzeige im SMART.

    Der genauere Bericht von SDA lautet:

    Kurzer SMART Bericht

    Ort SATA Gerät B Festplattengröße 5.59 TB
    Marke und Modell ATA WDC WD60EZRX-11M Unterstützt SMART? Ja
    SMART eingeschaltet? Ja
    Gespeicherte Fehler 6 Fehler erfasst
    Festplattentest durchgeführt? Ja
    Modell-Familie Western Digital Green
    Marke und Modell WDC WD60EZRX-11MVLB1
    Seriennummer WD-xxxxxxxxxxxxxxx
    Kapazität 6,001,141,572,096 bytes [6.00 TB]

    Offline data collection status Offline data collection activity was never started.
    Auto Offline Data Collection: Enabled.
    Self-test execution status The previous self-test routine completed without error or no self-test has ever been run.
    Total time to complete Offline data collection 5564 seconds.
    Offline data collection capabilities SMART execute Offline immediate.
    Auto Offline data collection on/off support.
    Suspend Offline collection upon new command.
    Offline surface scan supported.
    Self-test supported.
    Conveyance Self-test supported.
    Selective Self-test supported.
    SMART capabilities Saves SMART data before entering power-saving mode.
    Supports SMART auto save timer.
    Error logging capability Error logging supported.
    General Purpose Logging supported.
    Short self-test routine recommended polling time 2 minutes.
    Extended self-test routine recommended polling time 255 minutes.
    Conveyance self-test routine recommended polling time 5 minutes.
    SCT capabilities SCT Status supported.
    SCT Feature Control supported.
    SCT Data Table supported.

    Raw Read Error Rate
    Spin Up Time
    Start Stop Count
    Reallocated Sector Ct
    Seek Error Rate
    Power On Hours
    Spin Retry Count
    Calibration Retry Count
    Power Cycle Count
    Power-Off Retract Count
    Load Cycle Count
    Temperature Celsius
    Reallocated Event Count
    Current Pending Sector
    Offline Uncorrectable
    Multi Zone Error Rate

    Ausführlicher Bericht

    smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-4-amd64] (local build)
    Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

    Model Family: Western Digital Green
    Device Model: WDC WD60EZRX-11MVLB1
    Serial Number: WD-xxxxxxxxxxxxxxxxxxx
    LU WWN Device Id: 5 0014ee xxxxxxxxxxxxx
    Firmware Version: 80.00A80
    User Capacity: 6,001,141,572,096 bytes [6.00 TB]
    Sector Sizes: 512 bytes logical, 4096 bytes physical
    Device is: In smartctl database [for details use: -P show]
    ATA Version is: 9
    ATA Standard is: Not recognized. Minor revision code: 0x001f
    Local Time is: Sun Nov 15 14:44:10 2015 CET
    SMART support is: Available - device has SMART capability.
    SMART support is: Enabled

    SMART overall-health self-assessment test result: PASSED

    General SMART Values:
    Offline data collection status: (0x80) Offline data collection activity
    was never started.
    Auto Offline Data Collection: Enabled.
    Self-test execution status: ( 0) The previous self-test routine completed
    without error or no self-test has ever
    been run.
    Total time to complete Offline
    data collection: ( 5564) seconds.
    Offline data collection
    capabilities: (0x7b) SMART execute Offline immediate.
    Auto Offline data collection on/off support.
    Suspend Offline collection upon new
    Offline surface scan supported.
    Self-test supported.
    Conveyance Self-test supported.
    Selective Self-test supported.
    SMART capabilities: (0x0003) Saves SMART data before entering
    power-saving mode.
    Supports SMART auto save timer.
    Error logging capability: (0x01) Error logging supported.
    General Purpose Logging supported.
    Short self-test routine
    recommended polling time: ( 2) minutes.
    Extended self-test routine
    recommended polling time: ( 255) minutes.
    Conveyance self-test routine
    recommended polling time: ( 5) minutes.
    SCT capabilities: (0x3035) SCT Status supported.
    SCT Feature Control supported.
    SCT Data Table supported.

    SMART Attributes Data Structure revision number: 16
    Vendor Specific SMART Attributes with Thresholds:
    1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
    3 Spin_Up_Time 0x0027 196 195 021 Pre-fail Always - 9166
    4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 17
    5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
    7 Seek_Error_Rate 0x002e 100 253 000 Old_age Always - 0
    9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 51
    10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
    11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
    12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 17
    192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 5
    193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 439
    194 Temperature_Celsius 0x0022 119 114 000 Old_age Always - 33
    196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
    197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
    198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0
    199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
    200 Multi_Zone_Error_Rate 0x0008 100 253 000 Old_age Offline - 0

    SMART Error Log Version: 1
    ATA Error Count: 6 (device [definition='1','0']log[/definition] contains only the most recent five errors)
    CR = Command Register [HEX]
    FR = Features Register [HEX]
    SC = Sector Count Register [HEX]
    SN = Sector Number Register [HEX]
    CL = Cylinder Low Register [HEX]
    CH = Cylinder High Register [HEX]
    DH = Device/Head Register [HEX]
    DC = Device Command Register [HEX]
    ER = Error register [HEX]
    ST = Status register [HEX]
    Powered_Up_Time is measured from power on, and printed as
    DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
    SS=sec, and sss=millisec. It "wraps" after 49.710 days.

    Error 6 occurred at disk power-on lifetime: 29 hours (1 days + 5 hours)
    When the command that caused the error occurred, the device was active or idle.

    After command completion occurred, registers were:
    -- -- -- -- -- -- --
    04 51 0b 00 00 00 00 Error: ABRT

    Commands leading to the command that caused the error were:
    CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
    -- -- -- -- -- -- -- -- ---------------- --------------------
    b0 d5 01 e1 4f c2 00 08 02:17:22.359 SMART READ LOG
    b0 d5 01 e1 4f c2 00 08 02:17:22.359 SMART READ LOG
    b0 d5 01 e0 4f c2 00 08 02:17:22.359 SMART READ LOG
    b0 d6 01 e0 4f c2 00 08 02:17:22.358 SMART WRITE LOG
    b0 d6 01 e0 4f c2 00 08 02:17:22.357 SMART WRITE LOG

    Error 5 occurred at disk power-on lifetime: 17 hours (0 days + 17 hours)
    When the command that caused the error occurred, the device was active or idle.

    After command completion occurred, registers were:
    -- -- -- -- -- -- --
    04 51 0b 00 00 00 00 Error: ABRT

    Commands leading to the command that caused the error were:
    CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
    -- -- -- -- -- -- -- -- ---------------- --------------------
    b0 d5 01 e1 4f c2 00 08 06:21:36.200 SMART READ LOG
    b0 d5 01 e1 4f c2 00 08 06:21:36.200 SMART READ LOG
    b0 d5 01 e1 4f c2 00 08 06:21:36.199 SMART READ LOG
    b0 d6 01 e0 4f c2 00 08 06:21:36.198 SMART WRITE LOG

    Error 4 occurred at disk power-on lifetime: 17 hours (0 days + 17 hours)
    When the command that caused the error occurred, the device was active or idle.

    After command completion occurred, registers were:
    -- -- -- -- -- -- --
    04 51 0b 00 00 00 00 Error: ABRT

    Commands leading to the command that caused the error were:
    CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
    -- -- -- -- -- -- -- -- ---------------- --------------------
    b0 d5 01 e1 4f c2 00 08 06:21:36.200 SMART READ LOG
    b0 d5 01 e1 4f c2 00 08 06:21:36.199 SMART READ LOG
    b0 d6 01 e0 4f c2 00 08 06:21:36.198 SMART WRITE LOG
    b0 d6 01 e0 4f c2 00 08 06:21:36.197 SMART WRITE LOG

    Error 3 occurred at disk power-on lifetime: 1 hours (0 days + 1 hours)
    When the command that caused the error occurred, the device was active or idle.

    After command completion occurred, registers were:
    -- -- -- -- -- -- --
    04 51 0b 00 00 00 00 Error: ABRT

    Commands leading to the command that caused the error were:
    CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
    -- -- -- -- -- -- -- -- ---------------- --------------------
    b0 d5 01 e1 4f c2 00 08 01:48:36.263 SMART READ LOG
    b0 d5 01 e1 4f c2 00 08 01:48:36.263 SMART READ LOG
    b0 d6 01 e0 4f c2 00 08 01:48:36.262 SMART WRITE LOG
    b0 d6 01 e0 4f c2 00 08 01:48:36.261 SMART WRITE LOG

    Error 2 occurred at disk power-on lifetime: 1 hours (0 days + 1 hours)
    When the command that caused the error occurred, the device was active or idle.

    After command completion occurred, registers were:
    -- -- -- -- -- -- --
    04 51 0b 00 00 00 00 Error: ABRT

    Commands leading to the command that caused the error were:
    CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
    -- -- -- -- -- -- -- -- ---------------- --------------------
    b0 d5 01 e1 4f c2 00 08 01:48:36.260 SMART READ LOG
    b0 d5 01 e1 4f c2 00 08 01:48:36.260 SMART READ LOG
    b0 d5 01 09 4f c2 00 08 01:48:36.260 SMART READ LOG
    b0 d5 01 09 4f c2 00 08 01:48:36.260 SMART READ LOG
    b0 d6 01 e0 4f c2 00 08 01:48:36.259 SMART WRITE LOG

    SMART Self-test [definition='1','0']log[/definition] structure revision number 1
    Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
    # 1 Short offline Completed without error 00% 49 -

    SMART Selective self-test [definition='1','0']log[/definition] data structure revision number 1
    1 0 0 Not_testing
    2 0 0 Not_testing
    3 0 0 Not_testing
    4 0 0 Not_testing
    5 0 0 Not_testing
    Selective self-test flags (0x0):
    After scanning selected spans, do NOT read-scan remainder of disk.
    If Selective self-test is pending on power-up, resume after 0 minute delay.

    Mit meinen, mehr oder minder schlechten englisch Kenntnissen heißen die Fehler lediglich, dass eine SMART Operation durchgeführt wurde (Abfrage irgendwelche Werte), während das Gerät einfach nicht Bereit war.
    Jetzt, wie bekomme ich diese hässlichen Fehler wieder auf 0 gesetzt, damit diese in der Übersicht / Willkommensmeldung von Webmin verschwinden?


  • Konnte diese Tabelle leider nicht einfügen...
    Deshalb hier:

    Edit: bei den 3 anderen Festplatten ist eigentlich dieselbe Fehlermeldung.
    Also keine Fehler wo ich sagen würde da muss error stehen, sondern Abfrage wenn Festplatte beschäftigt...

  • Ach ja, die lieben SMART-Werte und -Fehler...
    Ich nutze auch Webmin und bekomme da Fehler angezeigt. Rauszufinden ob kritisch oder nicht, ist nich so einfach. Für Windows hat man ja Crystal Disk Info, mit nem Ampel-System für kritische Fehler.
    Aber unter Linux haben wir ja nur smartctl...

    Was auf jeden Fall bedenklich ist sind:

    Power On Hours 51
    Load Cycle Count 439

    Das entspricht 8,6 Start-Stop-Vorgänge bzw, Parkvorgänge des Schreibkopfes. Da solltest du tunlichst was an den Energiespareinstellungen ändern, sonst verschleißt dir die HDD rapide...
    Die Temperatur ist mit 33°C voll okay.

    Zu deiner eigentlichen Frage:

    Es ist natürlich ärgerlich, wenn so so kurz nach dem in Betrieb nehmen die ersten SMART-Fehler erscheinen. Man kann die aber meines Wissens nach nicht (so einfach) löschen. Dafür müsste man in die Firmware der HDD eingreifen, und das ist nur was für absolute Profis.
    Sprich, man muss einfach damit leben.

    Kodi-Basis: Intel® NUC7PJYH | 4GB DDR4 | 60GB Sandisk SSD | LibreElec 10 | Horizon V | Emby
    Sound: Sony HT-CT290 2.1 Soundbar
    TV: 55" Sony KD-55XE8577
    Server: Intel Core i5-4690 @ Asrock Z97 Anniversary | 8GB DDR3 | Xubuntu 18.04.4 LTS @ 256GB Samsung 840Pro | 5x 3TB WD-Red @ ZFS RAID 5 | Emby-Server | Monitorix

  • Okidoki,
    Ja, das mit den PowerOnHours und LLC hab ich direkt nach 10 Stunden gesehen und gefixt.
    Da stand er schon bei ~400.

    Also im Endeffekt nur 39 nach 40 Stunden.
    Damit kann ich leben.
    Mittels idle Tool auf 10 Minuten hochgestellt.

    Danke für deine Antwort.
    Dann muss ich wohl echt leben damit. Grml. :-(((

  • Naja, austauschen / umtauschen ist so ne Sache.
    a) kann ich die beiden 6 TB nicht auf einmal tauschen, auf der einen sind bereits ~5 TB Daten, auf der anderen die zugehörigen Paritydaten aus meinem ~12TB großen Snapraid... ;(

    Rein theoretisch nacheinander, das Problem dabei ist nur, das waren Platten aus einem Angebot von WD, aus der Elements Reihe, sprich externe mit Gehäuse, und ich hab das Gehäuse entfernt... ;)

    Und wirkliche Fehler haben die Platten ja (aus Sicht der Garantiebeanspruchung: leider, aus Sicht der Datensicherheit: gottseidank) auch nicht.
    Keine Lesefehler, keine neu zugewiesene Sektoren, keine schwebende Sektoren, usw... :(

    Ich schau mal, was passiert, wenn ich die Platte an mein Windowssystem hänge und mal mit CrystalDiscInfo anschaue...
    (kann ich aber erst am Wochenende *seufz*)

    Hab halt echt gehofft, dass es nen Linuxbefehl (alla chkdsk) gibt, der nen Test macht, und dann diese Logeinträge wieder löscht.
    Bei aden anderen Festplatten (siehe Screenshot oben) haben genau den selben Fehler.

    Error 6 occurred at disk power-on lifetime: 29 hours (1 days + 5 hours)
      When the command that caused the error occurred, the device was active or idle.
      After command completion occurred, registers were:
      -- -- -- -- -- -- --
      04 51 0b 00 00 00 00  Error: ABRT
  • Ich vermute mal einfach, dass es keine kritischen Fehler sind. Mir gings vor Kurzem ähnlich beim Erstellen meines Linux-Raid5. Auf einmal hatte ich auch 8 SMART-Fehler. Mir ist da leider das Plasti vom SATA Port kaputt gegangen und dadurch war ein Wackelkontakt. Daher die Fehler.

    Was du höchstens mal machen könntest: HDDs ausbauen an Windows PC anschließen und mit Crystal Disk Info schauen ob einer der wichtigen Parameter betroffen ist.

    Kodi-Basis: Intel® NUC7PJYH | 4GB DDR4 | 60GB Sandisk SSD | LibreElec 10 | Horizon V | Emby
    Sound: Sony HT-CT290 2.1 Soundbar
    TV: 55" Sony KD-55XE8577
    Server: Intel Core i5-4690 @ Asrock Z97 Anniversary | 8GB DDR3 | Xubuntu 18.04.4 LTS @ 256GB Samsung 840Pro | 5x 3TB WD-Red @ ZFS RAID 5 | Emby-Server | Monitorix

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!