Forum: PC Hard- und Software smartctl output für vier HDs


von Markus W. (dl8mby) (Gast)



Lesenswert?

Hallo Forum,

sorry muss als Gast posten, da ich mein PW grade nicht zur Hand habe.

Habe vier HDs mit dem o.g. output von smartctl -a

Werde aber nicht ganz schlau daraus und hoffe Ihr könnt mir etwas
auf die Sprünge helfen.

Vor allem die letzte Disk ganz rechts könnte Probleme haben -
sehe ich das so richtig?

Aufgefallen ist mir das heute, weil der

zypper dup Vorgang bereits auf zuvor heruntergeladene Packete
mit zypper dup --download-only sehr langsam läuft.

Von meinen Notebooks bin ich es gewöhnt, das der Update von bereits
auf der Disk heruntergeladenen Packeten ratzfatz durchläuft.

Ich warte aber schon fast zwei Stunden auf das Finish.
Das könnte auf ein Disk-Problem hindeuten.
Ich sehe aber keine Fehlermeldungen via journalctl -f

zypper Durchlauf gekürzt s.u.:

>In cache binwalk-2.3.2-1.1.noarch.rpm            (2019/2021), 187.2 KiB >(832.1 
KiB unpacked)
>In cache q4wine-1.3.12-1.17.x86_64.rpm           (2020/2021),   2.9 MiB (  >5.1 
MiB unpacked)
>In cache q4wine-lang-1.3.12-1.17.noarch.rpm      (2021/2021), 216.9 KiB (  >1.4 
MiB unpacked)
>
>Checking for file conflicts: 
.........................................................[done]
>(   1/2059) Removing libstdc++6-pp-gcc9-32bit-9.3.1+git1684-3.5.x86_64 
...............[done]
>(   2/2059) Removing libstdc++6-pp-gcc9-9.3.1+git1684-3.5.x86_64 
.....................[done]

>... fast zwei Stunden dazwischen!!!

>(1023/2059) Installing: shadow-4.8.1-7.1.x86_64 
......................................[done]
>(1024/2059) Installing: pam-config-1.3-2.1.x86_64 
....................................[done]
>Additional rpm output:


Könnt Ihr mir diesbezüglich Eure Einschätzung geben,
was Sache ist.

Danke für die Mühe schon mal vorab.

Markus

: Verschoben durch Moderator
von Frank M. (ukw) (Moderator) Benutzerseite


Lesenswert?

Die ersten 3 HDDs sind Seagate, die vierte HDD ist eine WD. Die RAW 
values verschiedener Hersteller lassen sich schlecht vergleichen.

Gib mal bitte den kompletten Output von /dev/sdd hier an - aber nicht 
als Bild, sondern als Text - zum Beispiel Dateianhang.

von Dergute W. (derguteweka)


Lesenswert?

Moin,

Ich wuerd' dann auch einfach mal die Selbsttests der Pladden empfehlen; 
also:
smartctl -t short /dev/bla

oder auch mal long, wenns nicht pressiert...

Gruss
WK

von Markus W. (dl8mby)



Lesenswert?

Sorry sehe gerade der Beitrag ist im Falschen Bereich gelandet!

Bitte nach PC-Hardware verschieben. Danke!

Jetzt ist auch das Bit im Hirn gekippt und ich habe mich aus dem
Gedächtnis einloggen können ;-)

Nun zum eigentlichen Problem:

Die vollen Outputs der sda bis sdd sind nun im Anhang gelistet.

Hoffe das Sichten macht nicht zu viel Mühe.

Übrigens liegt /var auf sda4 dort legt doch zypper seine
herunter geladenen Pakete ab - richtig?

/dev/sda4         125G   46G   73G  39% /var

Ich habe aber erst einmal alle Disks durchforstet um eventuelle
Fehler zu erkennen und anhand der Werte vergleichen zu können.

Markus

von Markus W. (dl8mby)


Lesenswert?

@Dergute W.

da mein Update gerade läuft, ist das halt suboptimal.
Aber Danke für das Kommando - war mir aber bereits bekannt.

LG
Markus

von Markus W. (dl8mby)


Lesenswert?

@Frank M.

Hallo Frank, ich habe mich in meinem Eröffnungsbeitrag
verschrieben bzw. verschaut. Gemeint ist die dritte Disk,
die mit den meisten Betriebsstunden, sofern dieser Wert
verlässlich ausgegeben wird.

Markus

von Axel S. (a-za-z0-9)


Lesenswert?

Markus W. schrieb:
>
> Die vollen Outputs der sda bis sdd sind nun im Anhang gelistet.
> Hoffe das Sichten macht nicht zu viel Mühe.

Die SMART Werte sind im grünen Bereich. Wie ein Vorredner schon sagte, 
lassen sich die RAW Werte zwischen Herstellern nicht vergleichen. Das 
gilt ganz besonders für Attribute 1 und 7.

Festplattenfehler auf gemounteten Partitionen führen auch immer zu 
Einträgen im Log, z.b. /var/log/syslog oder /var/log/kernel (kommt auf 
die Konfiguration an).

> Übrigens liegt /var auf sda4 dort legt doch zypper seine
> herunter geladenen Pakete ab - richtig?
>
> /dev/sda4         125G   46G   73G  39% /var

Weiß nicht. Habe kein zypper. Abgesehen davon ist /dev/sda4 die 4. 
Partition auf der 1. Platte. Und falls die Partition, die /var hält 
kaputt sein sollte, ist auf das Log natürlich kein Verlass. Mit dmesg 
sollte man aber zumindest noch den Ringbuffer des Kernels mit den 
letzten Messages auslesen können.

: Bearbeitet durch User
von >>> (Gast)


Lesenswert?

Nö da ist doch nichts.

'TRESH' setzt den Level ab dem gewarnt wird wenn 'VALUE' ihn 
unterschreitet.


ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH
  1 Raw_Read_Error_Rate     0x000b   100   100   016

Die raw Werte sind kein Ereigniszähler wie z.B. beim Power_Cycle_Count
gleiches gilt für die Seek_Error_Rate

Da gibts nichts das mich stören würde. Sicher das dein Paketmanager mit 
'zypper dup --download-only' genau das macht was du dir vorstellst?

Lädt der nicht alles nötige zum he Distributionsupgrade runter und 
installiert es nur nicht?


--- nur überflogen ---
 If --download-only is used, the downloaded packages will be available 
in /var/cache/zypper/RPMS

 To get a meaningful file conflict check use --dry-run together with 
--download-only

von Peter M. (r2d3)


Lesenswert?

Hallo Markus W.,

Markus W. schrieb:

Deine Platte mit dem Gerätenamen sdd benötigt einen Lüfter, die läuft, 
bedingt durch die 7200 rpm heißer, war aber sogar mal bei 
verschleißträchtigen 56°C.

: Bearbeitet durch User
von Markus W. (dl8mby)


Lesenswert?

Danke mal allen Beteiligten für Ihre konstruktiven Beiträge
zu meinem Problem.

Inzwischen ist mir auch wohler und ich sehe, dass die Disks
soweit noch keine Probleme produzieren.

Beim zypper dup bin ich mir auch nicht sicher ob da ein Problem
vorligt - Das Tempo des Updates legt es aber nahe.

Ich habe mir die laufenden Logs und history vom zypper angesehen
als auch seinen cache. Sieht soweit unauffällig aus.

Ich mache diese Art von Updates schon seit Jahren mit der Rolling
Release von OpenSuse.

Beide Updates zuhause sind gestern auch imnu durchgelaufen, obwohl
auch über 2T Pakete ersetzt wurden.


/var/cache/zypp #
>du -sh *
13G  packages
4.0K  pubkeys
60M  raw
51M  solv

/var/log #
>tail -f zypper.log

/var/log/zypp #
>tail -f history

/var/cache/zypp/packages/repo-oss/x86_64 #
>ls -ltr | head -10
total 8414192
-rw-r--r-- 1 root root    206364 Feb 23  2020 
Mesa-KHR-devel-19.3.3-241.1.x86_64.rpm
-rw-r--r-- 1 root root    227640 Feb 23  2020 
apache2-example-pages-2.4.41-8.1.x86_64.rpm
-rw-r--r-- 1 root root     24536 Feb 23  2020 
attica-qt5-5.67.0-1.1.x86_64.rpm
-rw-r--r-- 1 root root   1007076 Feb 23  2020 
busybox-static-1.31.1-1.1.x86_64.rpm
-rw-r--r-- 1 root root    665256 Feb 23  2020 
cmake-man-3.16.2-2.1.x86_64.rpm
-rw-r--r-- 1 root root   1094760 Feb 23  2020 
colord-color-profiles-1.4.4-3.4.x86_64.rpm
-rw-r--r-- 1 root root    309720 Feb 23  2020 
dhcp-doc-4.3.5-13.1.x86_64.rpm
-rw-r--r-- 1 root root     15120 Feb 23  2020 
enchant-data-2.2.5-2.2.x86_64.rpm
-rw-r--r-- 1 root root     81184 Feb 23  2020 
gcr-data-3.34.0-3.1.x86_64.rpm
/var/cache/zypp/packages/repo-oss/x86_64 #
>ls -ltr | tail -10
-rw-r--r-- 1 root root   1197300 Sep 10 09:32 
kate-plugins-21.08.1-1.1.x86_64.rpm
-rw-r--r-- 1 root root     94933 Sep 10 09:32 
kaccounts-providers-21.08.1-1.1.x86_64.rpm
-rw-r--r-- 1 root root    523396 Sep 10 09:32 
plasma5-workspace-libs-5.22.5-1.1.x86_64.rpm
-rw-r--r-- 1 root root    182778 Sep 10 09:32 
kwrite-21.08.1-1.1.x86_64.rpm
-rw-r--r-- 1 root root     73765 Sep 10 09:32 
libKF5Purpose5-5.85.0-1.1.x86_64.rpm
-rw-r--r-- 1 root root    246384 Sep 10 09:32 
kde-cli-tools5-5.22.5-1.1.x86_64.rpm
-rw-r--r-- 1 root root     35065 Sep 10 09:32 
libKF5PurposeWidgets5-5.85.0-1.1.x86_64.rpm
-rw-r--r-- 1 root root    233478 Sep 10 09:32 
purpose-5.85.0-1.1.x86_64.rpm
-rw-r--r-- 1 root root   1928943 Sep 10 09:32 
okular-21.08.1-1.1.x86_64.rpm
-rw-r--r-- 1 root root   3053224 Sep 10 09:32 
q4wine-1.3.12-1.17.x86_64.rpm

Nach über drei Stunden bin ich fast am Ende mit dem Update.
Die Ursache für die Lange Durchführung ist mir aber immer noch nicht 
klar.

1013/1031) Installing: kaccounts-providers-21.08.1-1.1.x86_64 
........................................................................ 
.....................................[done]
(1014/1031) Installing: marble-data-21.08.1-1.1.noarch 
........................................................................ 
.............................................[done]
(1015/1031) Installing: plasma5-workspace-libs-5.22.5-1.1.x86_64 
........................................................................ 
...................................[done]
(1016/1031) Installing: kwrite-21.08.1-1.1.x86_64 
........................................................................ 
...............................................<100%>[/]

Im Prinzip verwende ich drei Kommandos um einen Rolling-Update bei 
OpenSuse zu machen.

zypper ref
zypper dup --download-only --allow-vendor-change 
--auto-agree-with-licenses
zypper dup --allow-vendor-change --auto-agree-with-licenses

Nach den beiden ersten Kommandos habe ich zu Testzwecken
tcpdump -i eth0 an geschmissen um zu sehen ob zypper noch
aufs LAN zugreift - war aber nicht der Fall.
Langsam habe ich den Verdacht, dass es am rpm liegt, den zypper
verwendet.
Ein ps -ef | grep zypper und ein ps -ef | grep rpm zeigen
relativ lange (mehrere Sekunden) Aktivzeiten in der Processliste an.

Das geht bei mir daheim wesentlich fixer.

So jetzt muss ich die Kiste durchbooten und hoffe gleich wieder online
zu sein - sofern der NV Treiber nicht wieder Probleme macht ;-)

LG
Markus

von Norbert (Gast)


Lesenswert?

Also, ich habe ein kleines Problem mit sdc.
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always 
-       377251

Der ›Load_Cycle_Count‹ ist komplett runter auf Minimum evtl. sogar 
darunter.
Könnte so eine Energie-Spar-Blue-SaveThePlanet Harddisk sein die ständig 
mit den Köpfen klappert wie ein Unterkühlter mit den Zähnen.
Würde ich zumindest mal recht genau im Auge behalten, das ist nämlich 
ein Attribut-Wert einer mechanischen Aktivität.

von Markus W. (dl8mby)


Angehängte Dateien:

Lesenswert?

Hallo Norbert,
hallo Forum,

bin wieder Online ;-)

Danke den Admins für das Moven des Beitrags an den richtigen Platz.

>Würde ich zumindest mal recht genau im Auge behalten, das ist nämlich
>ein Attribut-Wert einer mechanischen Aktivität.

Also Scrubbing oder etwas in der Art habe ich nicht aktiviert.
Zudem verwende ich keine Indexierung auf Partitionen.

Warum die Disk dann "klappern sollte" kann ich nicht sagen.

Hast Du eine Idee, wie man das testen und eventuell abstellen kann.

Siehst Du was ungewöhnliches am systemctl output was Deine Annahme
bestätigen würde?

Markus

PS.: Für Norbert:

smartctl -a /dev/sdc | grep Load_Cycle_Count
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always 
-       377277

>while true; do smartctl -a /dev/sdc | grep Load_Cycle_Count; sleep 60; done
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always 
-       377278
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always 
-       377279

Der Wert steigt kontinuierlich :-( Soll ich eine neue Disk einbauen - 
jetzt schon. Besser zu früh als zu spät!

: Bearbeitet durch User
von (prx) A. K. (prx)


Lesenswert?


von Norbert (Gast)


Lesenswert?

Nein, nein.
Was ich meinte war einfach: Wenn das so eine Platte mit extrem schnellem 
Kopf- Load/Park Zyklus ist -- und so sieht der Zähler mit über einer 
drittel Million Zyklen aus -- dann ist laut SMART (Hersteller) das 
Maximum der spezifizierten Load/Park Zyklen erreicht. Läuft weiter, aber 
nun außerhalb dessen was Seagate spezifiziert hat.

Jeder Zyklus eine mechanische Bewegung, ein Klick/Klack - Das 
Zähneklappern war vielleicht etwas zu salopp formuliert. ;-)

> Siehst Du was ungewöhnliches am systemctl output
> was Deine Annahme bestätigen würde?

193 Load_Cycle_Count        0x0032   001   001   000    Old_age 
Always
-       377251

Der erste 001 Wert begann mal bei 100 (in Prozent) und ist nun auf 1 (%) 
herunter. Ich kann nicht sagen ob das der Endwert ist oder ob's noch auf 
0 geht.

von Norbert (Gast)


Lesenswert?

Markus W. schrieb:
> PS.: Für Norbert:
> while true; do smartctl -a /dev/sdc | grep Load_Cycle_Count; sleep 60; done
> 193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always
> -       377278
> 193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always
> -       377279
>
> Der Wert steigt kontinuierlich :-( Soll ich eine neue Disk einbauen -
> jetzt schon. Besser zu früh als zu spät!

Neue Disk? Wer kann das schon sagen…
Ich würde es aufmerksam beobachten. Und zumindest versuchen das Timeout 
für den Head-Retract sehr deutlich hoch zu setzen.
›hdparm‹ eventuell, muss man aber mit den Hersteller-Informationen 
abgleichen

von Markus W. (dl8mby)


Lesenswert?

Nach dem Vorschlag von (prx) A. K.
habe ich mir den Link durchgelesen und das Tool mal compiliert.
Leider war das deaktivieren des Timers nicht erfolgreich, s.u.

>smartctl -a /dev/sdd
smartctl 7.2 2021-06-06 r5225 [x86_64-linux-5.14.0-1-default] (SUSE RPM)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, 
www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Gold
Device Model:     WDC WD4002FYYZ-01B7CB1

>./idle3ctl -g /dev/sdd
sg16(VSC_ENABLE) failed: Invalid exchange

>./idle3ctl -d /dev/sdd
sg16(VSC_ENABLE) failed: Invalid exchange

>while true; do smartctl -a /dev/sdc | grep Load_Cycle_Count; sleep 60; done
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always 
-       377278
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always 
-       377279
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always 
-       377280
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always 
-       377281
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always 
-       377282
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always 
-       377283
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always 
-       377284
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always 
-       377285
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always 
-       377286
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always 
-       377287
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always 
-       377288
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always 
-       377289
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always 
-       377290
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always 
-       377291
193 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always 
-       377292

Markus

von Frank M. (ukw) (Moderator) Benutzerseite


Lesenswert?

(prx) A. K. hat ja schon einen Link gepostet, wo beschrieben ist, wie 
man das Parken konfigurieren kann. Wenn ich das richtig sehe, 
funktioniert idle3ctl (idle3-tools) wohl nur verlässlich mit WD HDDs. 
Die dritte Platte ist aber eine Seagate. Kann funktionieren, muss aber 
nicht. Immerhin gibt es die Option "-f(orce)".

Markus W. schrieb:
> Der Wert steigt kontinuierlich :-(

Die Platte scheint wohl bei jeder kleinen Pause den/die Köpfe zu parken.

> Soll ich eine neue Disk einbauen -

Verkehrt ist es nicht. HDDs kosten ja nicht mehr die Welt.

: Bearbeitet durch Moderator
von Markus W. (dl8mby)


Lesenswert?

Auch die unterschiedlichen Versionen habe keinen Ausleseerfolg gebracht!

/dev/shm/idle3-tools-0.9.1 #
>./idle3ctl -g100 /dev/sdd
sg16(VSC_ENABLE) failed: Invalid exchange
/dev/shm/idle3-tools-0.9.1 #
>./idle3ctl -g103 /dev/sdd
sg16(VSC_ENABLE) failed: Invalid exchange
/dev/shm/idle3-tools-0.9.1 #
>./idle3ctl -g105 /dev/sdd
sg16(VSC_ENABLE) failed: Invalid exchange
/dev/shm/idle3-tools-0.9.1 #

Markus

von Frank M. (ukw) (Moderator) Benutzerseite


Lesenswert?

Markus W. schrieb:
> ./idle3ctl -g100 /dev/sdd

Die dritte Platte, die das Load_Cycle_Count Problem hat, ist /dev/sdc 
und nicht /dev/sdd. Warum willst Du Parameter für/dev/sdd ändern und 
erwartest dann, dass sich diese auf /dev/sdc auswirken?

Wenn ich es richtig verstanden habe, funktioniert das Tool sowieso nur 
für WD-Platten. /dev/sdc ist aber eine Seagate.

: Bearbeitet durch Moderator
von Markus W. (dl8mby)


Lesenswert?

Klappt übrigens bei der Seagate-Disk sdc auch nicht mit dem Tool
den counter auszulesen.

/dev/shm/idle3-tools-0.9.1 #
>./idle3ctl --force -g100 /dev/sdc
sg16(VSC_ENABLE) failed: Invalid exchange
/dev/shm/idle3-tools-0.9.1 #
>./idle3ctl --force -g103 /dev/sdc
sg16(VSC_ENABLE) failed: Invalid exchange
/dev/shm/idle3-tools-0.9.1 #
>./idle3ctl --force -g105 /dev/sdc
sg16(VSC_ENABLE) failed: Invalid exchange
/dev/shm/idle3-tools-0.9.1 #


Markus

von Tom (Gast)


Lesenswert?

Norbert hat recht. Die ST4000DM000 scheint für 300k load/unload cycles 
spezifiziert zu sein.

Datasheet: 
https://www.seagate.com/www-content/datasheets/pdfs/desktop-hdd-8tbDS1770-9-1603UK-en_GB.pdf

Da die restlichen SMART-Parameter OK sind, ist hier kein akuter Schaden 
zu sehen. Aber aus Sicht des Herstellers ist hat die Mechanik die 
projizierte Lebenserwartung überschritten. Je nachdem wieviel die auf 
der Platte gespeicherten Daten wert sind, könnte man über 
prophylaktischen Austausch nachdenken...

Temporär läßt sich der Idle-Timer bei vielen Platten mit
1
hdparm -B 254
 und/oder
1
hdparm -M 254
 entsprechend hochsetzen. Die Einstellung geht aber nach jedem 
PowerCycle verloren. idle3ctl ist nur für WD-spezifisch. Ich würde nicht 
erwarten, daß es auch bei Seagate funktioniert.

von Markus W. (dl8mby)


Lesenswert?

Deswegen habe ich ja erst bei der WD Disk das Tool angewendet.
Aber mit dem --force Parameter klappt das Auslesen auch bei der
Segate-Disk nicht.  War ja nur ein Versuch.

ICh kann jetzt aber gezielt nach dem Problem im Web suche.
Also nochmals danke für den Hinweis.

Nun wird aber die Kiste runter gefahren und dann geht es ins WE.

Markus

von Tom (Gast)


Lesenswert?

Ich weiß, es ist vermutlich eine überflüssige Frage, aber wurden die 
Befehle mit root-Rechten ausgeführt?

von Norbert (Gast)


Lesenswert?

Tom schrieb:
> Ich weiß, es ist vermutlich eine überflüssige Frage, aber wurden
> die
> Befehle mit root-Rechten ausgeführt?

Raute im Prompt, wahrscheinlich ja.

von Markus W. (dl8mby)


Lesenswert?

Norbert ist mir mit der Antwort zuvor gekommen.

>/dev/shm/idle3-tools-0.9.1 #

# als default shell prompt => root user.

Jetzt ist aber die Kiste bis Do. offline,
danach werde ich weiter suchen und hoffentlich
auch was finden.

Danke nochmals für die schnelle und kompetente
Hilfe.

Markus

von Markus W. (dl8mby)


Lesenswert?

Schade,

habe den Link erst jetzt entdeckt:

https://sourceforge.net/p/idle3-tools/bugs/2/

beim Suchen nach "sg16(VSC_ENABLE)" in der Suchmaschiene
meines Vertrauens.

eine -v Option wäre beim Ausführen des idle3ctl Kommandos
aussagekräftiger gewesen. Habe es leider übersehen.

Markus

von Markus W. (dl8mby)


Lesenswert?

Eventuell ist diese Aussage auch hilfreich!
Habe leider den angegebenen Link nicht bis ganz unten gelesen,
sondern mich gleich auf die Kommandos und das Compilieren gestürzt.

>Intellipark on newer WD drives cannot be switched off even with original >WDIDLE3 
utility.

>As a workaround you can add to hourly cron this command

>smartctl -t offline /dev/sdX

>it prevents parks. Performance degradation is unnoticeable for me.

Markus

: Bearbeitet durch User
von Norbert (Gast)


Lesenswert?

Ja, der offline test wuselt im Hintergrund ein wenig auf der Platte 
herum wenn gerade nichts wichtiges (Arbeit) anliegt. Also bleiben die 
Köpfe schön geladen.
Du solltest aber das Ding einmal so laufen lassen um abzuschätzen wie 
lange ein Durchlauf braucht. Das wäre dann ungefähr das Intervall im 
cron.

von Markus W. (dl8mby)


Lesenswert?

Hallo Norbert,

ich habe mal spaßhalber, da durch die Beiträge neugierig geworden,
mir meine Disks via smartctl auf meinem NB daheim angesehen.
sda zählt etwas langsamer hoch sdb etwas schneller.
Beide Disks sind von Seagate.

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 2.5 5400
Device Model:     ST2000LM015-2E8174

root@linux:~
>while true
> do
> smartctl -a /dev/sda | grep Load_Cycle_Count | awk '{printf("sda: %s\n",$0)}'
> smartctl -a /dev/sdb | grep Load_Cycle_Count | awk '{printf("sdb: %s\n",$0)}'
> sleep 120
> done
sda: 193 Load_Cycle_Count        0x0032   050   050   000    Old_age 
Always       -       100829
sdb: 193 Load_Cycle_Count        0x0032   001   001   000    Old_age 
Always       -       535385
sda: 193 Load_Cycle_Count        0x0032   050   050   000    Old_age 
Always       -       100829
sdb: 193 Load_Cycle_Count        0x0032   001   001   000    Old_age 
Always       -       535385
sda: 193 Load_Cycle_Count        0x0032   050   050   000    Old_age 
Always       -       100829
sdb: 193 Load_Cycle_Count        0x0032   001   001   000    Old_age 
Always       -       535386
sda: 193 Load_Cycle_Count        0x0032   050   050   000    Old_age 
Always       -       100829
sdb: 193 Load_Cycle_Count        0x0032   001   001   000    Old_age 
Always       -       535388
sda: 193 Load_Cycle_Count        0x0032   050   050   000    Old_age 
Always       -       100829
sdb: 193 Load_Cycle_Count        0x0032   001   001   000    Old_age 
Always       -       535390

Markus

von Markus W. (dl8mby)


Lesenswert?

Scheint im Hintergrund zu laufen.

root@linux:~
>time smartctl -t offline /dev/sdb
smartctl 7.2 2021-06-06 r5225 [x86_64-linux-5.14.0-1-default] (SUSE RPM)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, 
www.smartmontools.org

=== START OF OFFLINE IMMEDIATE AND SELF-TEST SECTION ===
Sending command: "Execute SMART off-line routine immediately in off-line 
mode".
Drive command "Execute SMART off-line routine immediately in off-line 
mode" successful.
Testing has begun.

real    0m0.224s
user    0m0.028s
sys     0m0.001s

Kommt das Kommando nit einer Meldung von alleine zurück?

Markus

von Tom (Gast)


Lesenswert?

Hmm.. Der offline-Test kann (auch aus dem Hintergrund heraus) sich 
negativ auf die Festplattenperformance auswirken. Statt da einen 
stündlichen cron-Job zu starten, daher nochmal der Hinweis auf "hdparm 
-B 254 /dev/<device>". Das braucht keine cron-Job und gilt bis zum 
PowerOff/Standby.

von Markus W. (dl8mby)


Lesenswert?

Hallo Tom,

nur um zu verstehen was Du da vorschlägst habe ich mir die
hdparm Dok. durchgelesen.

Danke für Deinen Hinweis.

Markus

hdparm -h
...
-B   Set Advanced Power Management setting (1-255)

wie sieht es damit aus:

-S   Set standby (spindown) timeout

-J   Get/set Western DIgital "Idle3" timeout for a WDC "Green" drive 
(DANGEROUS)


Aus Manpage zu hdparm

-B
Get/set Advanced Power Management feature, if the drive supports
it. A low value means aggressive power management and a high
value means better performance.  Possible settings range from
values 1 through 127 (which permit spin-down), and values 128
through 254 (which do not permit spin-down).  The highest degree
of power management is attained with a setting of 1, and the
highest I/O performance with a setting of 254.  A value of 255
tells hdparm to disable Advanced Power Management altogether on
the drive (not all drives support disabling it, but most do).

-J
Get/set the Western Digital (WD) Green Drive's "idle3" timeout
value.  This timeout controls how often the drive parks its
heads and enters a low power consumption state.  The factory
default is eight (8) seconds, which is a very poor choice for
use with Linux.  Leaving it at the default will result in
hundreds of thousands of head load/unload cycles in a very short
period of time.  The drive mechanism is only rated for 300,000
to 1,000,000 cycles, so leaving it at the default could result
in premature failure, not to mention the performance impact of
the drive often having to wake-up before doing routine I/O.

WD supply a WDIDLE3.EXE DOS utility for tweaking this setting,
and you should use that program instead of hdparm if at all
possible.  The reverse-engineered implementation in hdparm is
not as complete as the original official program, even though it
does seem to work on at a least a few drives.  A full power
cycle is required for any change in setting to take effect,
regardless of which program is used to tweak things.

A setting of 30 seconds is recommended for Linux use.  Permitted
values are from 8 to 12 seconds, and from 30 to 300 seconds in
30-second increments.  Specify a value of zero (0) to disable
the WD idle3 timer completely (NOT RECOMMENDED!).

-S
Put the drive into idle (low-power) mode, and also set the
standby (spindown) timeout for the drive.  This timeout value is
used by the drive to determine how long to wait (with no disk
activity) before turning off the spindle motor to save power.
Under such circumstances, the drive may take as long as 30
seconds to respond to a subsequent disk access, though most
drives are much quicker.  The encoding of the timeout value is
somewhat peculiar.  A value of zero means "timeouts are
disabled": the device will not automatically enter standby mode.
Values from 1 to 240 specify multiples of 5 seconds, yielding
timeouts from 5 seconds to 20 minutes.  Values from 241 to 251
specify from 1 to 11 units of 30 minutes, yielding timeouts from
30 minutes to 5.5 hours.  A value of 252 signifies a timeout of
21 minutes. A value of 253 sets a vendor-defined timeout period
between 8 and 12 hours, and the value 254 is reserved.  255 is
interpreted as 21 minutes plus 15 seconds.  Note that some older
drives may have very different interpretations of these values.

: Bearbeitet durch User
von Einer (Gast)


Lesenswert?

Also, ich würde dem Gesamtsystem nicht trauen.

Die Platten haben schlechte Seek_Error_Rate. Sind die mechanisch 
schlecht montiert? Vibrieren die Platten oder gar der PC? Vielleicht 
hast Du auch Resonanzen etc.

Dabei sind die ersten beiden Platten ja gerade mal zwei Monate in 
Betrieb. Da stimmt doch was nicht.

Meiner Meinung könnte das eine Ursache für die langsamen Zugriffe sein.

Auch Raw_Read_Error_Rate ist doch viel zu hoch für solche, neuen 
Platten.

Und Dein Temperatur-Problem wurde weiter oben schon angesprochen, so wie 
Load_Cycle_Count.


So sieht z.B. eine meiner ältesten Platten aus:
1
=== START OF INFORMATION SECTION ===
2
Model Family:     Western Digital Green
3
Device Model:     WDC WD20EARX-00PASB0
4
Serial Number:    WD-WCAZAC491275
5
LU WWN Device Id: 5 0014ee 25bbfe755
6
Firmware Version: 51.0AB51
7
User Capacity:    2.000.398.934.016 bytes [2,00 TB]
8
Sector Sizes:     512 bytes logical, 4096 bytes physical
9
10
...
11
12
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
13
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
14
  3 Spin_Up_Time            0x0027   202   171   021    Pre-fail  Always       -       4858
15
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       319
16
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
17
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
18
  9 Power_On_Hours          0x0032   001   001   000    Old_age   Always       -       74708
19
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
20
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
21
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       316
22
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       52
23
193 Load_Cycle_Count        0x0032   181   181   000    Old_age   Always       -       59459
24
194 Temperature_Celsius     0x0022   119   108   000    Old_age   Always       -       31
25
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
26
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
27
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
28
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
29
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

von >>> (Gast)


Lesenswert?

Markus W. schrieb:


>>while true
>> do
>> smartctl -a /dev/sda | grep Load_Cycle_Count | awk '{printf("sda: %s\n",$0)}'
>> smartctl -a /dev/sdb | grep Load_Cycle_Count | awk '{printf("sdb: %s\n",$0)}'
>> sleep 120
>> done

smartd? (auch über lange Zeiträume wenn Journale aufgehoben werden)

journalctl -u smartd

-> SMART Usage Attribute: n  changed from x to y


bspw.:
root@slax:$journalctl -r -u smartd
-- Logs begin at Thu 2016-11-03 18:16:50 CET, end at Fri 2021-09-10 
18:39:03 CEST. --
Sep 10 16:15:30 slax smartd[851]: Device: /dev/sdc [SAT],
 SMART Usage Attribute: 194 Temperature_Celsius changed from 42 to 43
Sep 10 16:15:30 slax smartd[851]: Device: /dev/sdc [SAT],
 SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 58 to 
57
Sep 10 15:15:30 slax smartd[851]: Device: /dev/sda [SAT],
SMART Prefailure Attribute: 8 Seek_Time_Performance changed from 252 to 
251

usw. usw.


Es interessiert ja nur wenn sich wirklich etwas geändert hat,
das kannst du nat. auch durch grep jagen u. nach Platten sortieren
(Load_Cycle_Count kennen meine garnicht)



> sda: 193 Load_Cycle_Count        0x0032   050   050   000    Old_age
> Always       -       100829
> sdb: 193 Load_Cycle_Count        0x0032   001   001   000    Old_age
> Always       -       535385
> sda: 193 Load_Cycle_Count        0x0032   050   050   000    Old_age
> Always       -       100829
> sdb: 193 Load_Cycle_Count        0x0032   001   001   000    Old_age
> Always       -       535385
> sda: 193 Load_Cycle_Count        0x0032   050   050   000    Old_age
> Always       -       100829
> sdb: 193 Load_Cycle_Count        0x0032   001   001   000    Old_age
....

von Tom (Gast)


Lesenswert?

Hallo Markus,

-S bestimmt den Zeitpunkt, wann der Spindelmotor im Standby 
ausgeschaltet wird. Das hat leider keinen Einfluß auf die 
load/unload-Timer.

-J dürfte das gleiche tun (oder nicht tun), was das idle3ctl - Tool 
versucht hat.

-B beeinflußt das Powermanagement von der Platte, und das ist ja leider 
eine Black-Box weil herstellerspezifisch. :-( Man kann ja -B ohne eine 
Zahl übergeben, dann sollte man sehen können, was der Hersteller oder 
das OS da als default-Wert vorgibt. Das load/unload-Problem besteht ja 
bei Linux (und MacOS) schon seit Jahrzehnten. (Ich habe das anno 2004 in 
meinem damaligen PowerBook gehabt). Man muß ein wenig mit dem Parameter 
spielen. Ich erinnere mich dunkel, daß manche Platten schon bei Werten 
größer 128 Ruhe gegeben haben, andere erst über 192. Ich habe 254 
vorgeschlagen, weil 255 nicht immer funktioniert.

Wenn Du in Deinen Smart-Logs die Werte von "9 Power_On_Hours" und "240 
Head_Flying_Hours" vergleichst, dann sieht man, daß beide Werte ziemlich 
nach beiandander sind, was zumindest die betroffene Platte (sdc) 
bedeutet, daß sie nur selten im Spin-Down war. Von daher würde ich mir 
um den Spin-Down keine großen Gedanken machen.

Nachteile sollte man davon keine haben, denn eigentlich jede Platte aus 
diesem Jahrhundert sollte einen freien Fall oder ungewöhnliche 
Beschleunigung des Gehäuses bemerken und die Köpfe automatisch unloaden 
(Smart-Parameter: "191 G-Sense_Error_Rate"). Gleiches gilt beim 
Herunterfahren des Rechners oder Standby (=kontrollierter Spindown) oder 
beim plötzlichen Abschalten ohne, daß das OS den Befehl "Spin-Down" gibt 
(Smart-Parameter: "192 Power-Off_Retract_Count").

von Markus W. (dl8mby)


Lesenswert?

Hallo, danke Euch für den Input.
Vieles davon war mir so gar nicht im Detail bekannt.

Um die angedeutete schlechte Montage zu entkräften
nun mehr Infos (Resonanzen könnten aber durchaus in Frage kommen).

Bei dem besagten Rechner handelt es sich um einen DELL-T5800 Tower.
Steht am Boden neben dem Schreibtisch.
Die vier Disks sind auf Gummipuffern ala DELL in Wechsel-Rahmen
montiert und sollten keine übermäßigen Vibrationen von Tower-Gehäuse
abbekommen.

Die später gezeigten Disks sind aus meinem HP-zBook17 G3 und waren
nur als Vergleich herangezogen worden ohne selber zum Problemkreis
zu gehören.

Die vier Disks im T5800 sind aus zwei unterschiedlichen Zeiten.
Ich wechsle die Disks alle zwei bis drei Jahre und setze auch das
Linux komplett neu auf. Die alten Disks bleiben dabei im System
für Backups und als Archiv alter Daten.

Diese Vorgehensweise habe ich die letzten zwei Jahrzehnte praktiziert
und auch bis dato keinen Datenverlust durch defekte Disks erfahren.
Sicherungen mache ich schon seit Jahren mit dem GO Programm restic

>/usr/bin/restic version
restic 0.12.1 compiled with go1.16.6 on linux/amd64

Soweit die Infos zu dem verwendeten System.

Markus

von Voodoopriester (Gast)


Lesenswert?

idle3 verlangt nach dem ändern einen kompletten powercycle.
Ausserdem ist die Änderung wirkungslos wenn die platte gerade im 
spindown ist.

von Voodoopriester (Gast)


Lesenswert?

Noch was zu S.M.A.R.T.:

Habe gerade ne Platte hier die am sterben ist aber smart health status 
ist ok, obwohl die massenhaft fehlerhafte Sketoren hat, der selfcheck 
beim ersten defekt sektor abbricht und das log bald überläuft vor 
lesefehlern, ...

von Dergute W. (derguteweka)


Lesenswert?

Moin,

Voodoopriester schrieb:
> Noch was zu S.M.A.R.T.:
blafasel

Ja und? Auch wenn du dich im Auto anschnallst, kannst du trotzdem z.b. 
an einem Herzkasper waehrend der Fahrt sterben.

SCNR,
WK

von >>> (Gast)


Lesenswert?

Voodoopriester schrieb:
> Noch was zu S.M.A.R.T.:
>
> Habe gerade ne Platte hier die am sterben ist aber smart health status
> ist ok, obwohl die massenhaft fehlerhafte Sketoren hat, der selfcheck
> beim ersten defekt sektor abbricht und das log bald überläuft vor
> lesefehlern, ...


guck was es bedeuten soll: manpage

failing health status
this means either that the device has already failed,
or that it is predicting its  own failure within the next 24 hours.

Geht doch noch ;)
---


Weshalb sollte das abbrechen?
Verkabelung, Hostcontroller, Stromversorgung, Firmware...
wären z.B. Dinge die ein Selbsttest ja garnicht erfaßt

trotzdem ziemlicher Murks :/

von Peter M. (r2d3)


Lesenswert?

Hallo Voodoopriester,

Voodoopriester schrieb:
> Noch was zu S.M.A.R.T.:
>
> Habe gerade ne Platte hier die am sterben ist aber smart health status
> ist ok,

der "smart health status" ist vermutlich als Vereinfachung für 
technikferne Menschen gedacht und wenig aussagekräftig.

> obwohl die massenhaft fehlerhafte Sketoren hat, der selfcheck
> beim ersten defekt sektor abbricht und das log bald überläuft vor
> lesefehlern, ...

Man guckt sich die einzelnen SMART-Parameter an. Hat die Festplatte 
fehlerhafte Sektoren, spiegelt sich dieser Defekt auch in den 
SMART-Parametern wieder.
Festplatten mit fehlerhaften Sektoren sind in meiner Wahrnehmung nicht 
mehr "OK" auch wenn irgendeine Clickibunti-Software das behauptet.

Sinnvoll ist es, mit den Smartmontools eine Log-Datei zu erzeugen. Da 
findet sich sich dann auch alles Wesentliche drin wieder, also z.B. mit

smartctl -a /dev/sdX > C:voodolog.txt

Man ersetzt X durch den passendenlaufwerksbuchstaben und leitet die 
Ausgabe der Smartmontools in die Datei voodolog.txt auf der Wurzelebene 
des C-Laufwerks in einem Windowssystem um.

: Bearbeitet durch User
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.