Jump to content


Συζήτηση για αξιοπιστία σκληρών δίσκων. Μύθοι και πραγματικότητα.


Recommended Posts

καλησπερα, ωραιο θεμα.

 

εχω να πω πως εδω και 15-20 χρονια οσο θυμαμαι παντα εχω raid0 στον υπολογιστη, ειτε με μηχανικους ειτε με ssd δισκους, για λογους ομολογουμενως ψυχαναγκαστικους. το οποιο θεωρητικα εχει μεγαλυτερο ρισκο. παντα ειχα εξωτερικο δισκο backup, και τωρα cloud.

 

ουδεποτε εχω χασει αρχειο. τυχερος; τι να πω. α και -παντα- οι υπολογιστες μου ακομα και σημερα ειναι μονιμα αναμμενοι στο desktop με κατι να τρεχει. ποτε shutdown-sleep-hybernate και τα λοιπα.

  • Like 2
Link to comment
Share on other sites

πριν 50 λεπτά, το μέλος gdp77 έγραψε:

Συνοπτικά αναφέρει το URE (unrecoverable read error rate) που δίνουν όλοι (;) οι κατασκευαστές δίσκων ήτοι 10^14 bits. Δηλαδή 12,5 ΤΒ. Με βάση αυτό το νούμερο, οι κατασκευαστές δίνουν προδιαγραφή ενός σφάλματος μεγέθους bit στον δίσκο κάθε 12,5 ΤΒ ανάγνωσης. Δηλαδή ένας 6ΤΒ δίσκος αν διαβαστεί εξ ολοκλήρου δύο φορές θα εμφανίσει σφάλμα.

 

Συγγνώμη, αλλ' αυτή η προδιαγραφή δεν λέει αυτό το πράγμα. Λέει, πως μπορούν να αναγνωσθούν τουλάχιστον 12,5ΤΒ χωρίς σφάλμα. 

Link to comment
Share on other sites

7 minutes ago, Oric said:

 

Συγγνώμη, αλλ' αυτή η προδιαγραφή δεν λέει αυτό το πράγμα. Λέει, πως μπορούν να αναγνωσθούν τουλάχιστον 12,5ΤΒ χωρίς σφάλμα. 

To "τουλάχιστον" πώς το συμπεραίνεις; Κάποιο link παρακαλώ; Δεν υπάρχει καμιά απολύτως λογική σε αυτό το νούμερο, πέρα από το να πρόκειται για Μ.Ο. που δίνουν οι κατασκευαστές ή -κατ' άλλους- για χειρότερο σενάριο "upper limit" δηλαδή ένα σφάλμα ανά 10^14 bits π.χ. αν σου κάτσει ο χειρότερος δίσκος που βγήκε από το εργοστάσιο. O λόγος που δεν διευκρινίζεται από τους κατασκευαστές είναι τουλάχιστον ύποπτος.

Έγινε επεξεργασία από gdp77
Link to comment
Share on other sites

Δεν είναι ούτε «τουλάχιστον» ούτε «κάθε» από όσο καταλαβαίνω. Είναι στατιστικό, πιθανότητα. Μπορεί να συμβεί στα 6, μπορεί στα 26. Η πιθανότητα είναι να συμβεί εντός των 12,5.

Link to comment
Share on other sites

30 minutes ago, salde said:

Δεν είναι ούτε «τουλάχιστον» ούτε «κάθε» από όσο καταλαβαίνω. Είναι στατιστικό, πιθανότητα. Μπορεί να συμβεί στα 6, μπορεί στα 26. Η πιθανότητα είναι να συμβεί εντός των 12,5.

H "πιθανότητα" που αναφέρεις πρέπει να συνοδεύεται και από κάποιο ποσοστό. Αλλιώς δεν έχει νόημα. 

Link to comment
Share on other sites

φυσικά. Όχι μόνο ποσοστό αλλά και τρόπο υπολογισμού, μεθοδολογία, περιγραφή του δείγματος κλπ. Τουλάχιστον αν θέλει κάποιος να την υποστηρίξει ή να την αμφισβητήσει σε βάθος. Έχει ένα ελάχιστο νόημα αν κάποιος δεν θέλει να ασχοληθεί κι απλώς το λάβει υπόψιν ως αριθμό, έτσι στα τυφλά, με την (επίφοβη προκειμένου περί πωλητών) λογική «για να το γράφουν κάτι θα ξέρουν». Σίγουρα δεν είναι αυτή η λογική κατάλληλη για το είδος της συζήτησης που θες να κάνεις.

Μιλάμε πάντα για προσωπική χρήση, αν η συζήτηση πάει στις περιπτώσεις που εκείνος που παίρνει την απόφαση είτε για την αγορά υλικού είτε για την υλοποίηση της λύσης έχει να λογοδοτήσει κάπου για τις επιλογές του το πράγμα αλλάζει και γίνεται πιο περίπλοκο.
 

[να σημειώσω ότι οι ανεκδοτολογικές εμπειρίες μας -αν και αναπόφευκτο να εμφανίζονται στην συζήτηση ελλείψει κοινώς αποδεκτής, στιβαρής τεκμηρίωσης- κανονικά δεν θα έπρεπε να παίζουν κάποιο ρόλο]

 

Link to comment
Share on other sites

Μαθηματικά δεν αποδεικνύουν κάτι οι εμπειρίες μας, αλλά από την άλλη δεν υπάρχει και τρόπος να ελέγξουμε τι είναι πραγματικότητα και τι μύθος. Ακόμα και τα στατιστικά της backblaze να λάβουμε υπόψιν, αυτό είναι περιβάλλον 24/7 χρήσης σε σταθερές θερμοκρασίες κτλ. Ένας μέσος desktop χρήστης δεν έχει 24/7 χρήση αλλά από την άλλη έχει πολλά power on/off cycles που επίσης καταπονούν δίσκους. Άκρη δεν βγαίνει τουλάχιστον επιστημονικά, αλλά ακόμα και η κατάθεση των εμπειριών μας έχει κάποια αξία, γι' αυτό και ζητάω ο καθένας να καταθέσει τις εμπειρίες του. Με βάση τη δικιά μου εμπειρία το 10^14 δεν επαληθεύεται τουλάχιστον ως παράγοντας σοβαρού κινδύνου κατά το rebuild ενός RAID μεγάλων δίσκων. Το λέω αυτό γιατί έχω δει και paper (δυστυχώς δεν το βρίσκω τώρα για να το ποστάρω) που έδειχνε π.χ. ότι με RAID 5 μεγάλων δίσκων έχεις 70-80% πιθανότητα να αστοχήσει το rebuild και να χάσεις τα δεδομένα σου. 

Link to comment
Share on other sites

Αυτός ο τύπος δίνει ΔΡΑΜΑΤΙΚΑ ποσοστά αποτυχίας RAID5 rebuilds --> https://www.digistor.com.au/the-latest/Whether-RAID-5-is-still-safe-in-2019/

 

SATA disk (URE = 1e-14)

table1.jpg

Όπως το πάει με 12ΤΒ δίσκους δηλαδή θα έχεις 100% αποτυχία στο rebuild και με τους RAID controllers των consumer μητρικών, χάνεις όλα τα δεδομένα σου 100%. (Δεν ισχύει κάτι τέτοιο βέβαια με soft raids στο Linux π..χ. με  ZFS)

Link to comment
Share on other sites

Τα data σου ΔΕΝ χάνονται.
Απλά σταματάει το rebuild.
Μπορείς να το ξαναβάλεις να γίνει.
Το αν θα επιτύχει εξαρτάται από πολλά ( όπως από τον λόγο που προήλθε το σφάλμα, αν είναι προβληματικός sector απλά θα ξαναφάς το ίδιο στο ίδιο σημείο, διαφορετικά μπορεί και να ολοκληρωθεί just fine ).

 

Γενικότερα όντως τα μεγάλα RAID Arrays με ΜΕΓΑΛΟΥΣ δίσκους είναι κακή προσέγγιση όσον αφορά την ιδέα του "BACKUP" ( το RAID δεν είναι backup επί της ουσίας! ).

Link to comment
Share on other sites

6 hours ago, billpeppas said:

Τα data σου ΔΕΝ χάνονται.
Απλά σταματάει το rebuild.
Μπορείς να το ξαναβάλεις να γίνει.
Το αν θα επιτύχει εξαρτάται από πολλά ( όπως από τον λόγο που προήλθε το σφάλμα, αν είναι προβληματικός sector απλά θα ξαναφάς το ίδιο στο ίδιο σημείο, διαφορετικά μπορεί και να ολοκληρωθεί just fine ).

 

Μιλάμε για URE άρα για σφάλμα που δεν μπορεί να διορθωθεί από τον controller του δίσκου. Όπως το καταλαβαίνω εγώ, και να ξανακάνεις rebuild πάλι στο ίδιο σημείο θα έχεις θέμα. Αν είναι στην αρχή του rebuild OK, άντε να το ξαναπροσπαθήσω. Αν είναι όμως στη μέση ή στα τελειώματα ενός rebuild που θέλει ώρες ή ακόμα και μέρες.... δεν ξέρω.

 

6 hours ago, billpeppas said:

Γενικότερα όντως τα μεγάλα RAID Arrays με ΜΕΓΑΛΟΥΣ δίσκους είναι κακή προσέγγιση όσον αφορά την ιδέα του "BACKUP" ( το RAID δεν είναι backup επί της ουσίας! ).

Θες να πεις ότι στα data centers με δίσκους (έχουμε φτάσει στα ~20 ΤΒ;) δεν θα αγοράζουν μεγάλους δίσκους αλλά μικρούς; Αυτό ακριβώς γράφω στην αρχική επιχειρηματολογία μου. Είτε κάνεις RAID είτε δεν κάνεις, backup τακτικό θα παίρνεις. Έναν μεγάλο δίσκο, ακόμα και αν δεν τον έχεις σε RAID ARRAY θα τον διαβάζεις τακτικά για να παίρνεις backup. Το πρόβλημα του 10^14 θα το έχεις είτε στο backup του απλού δίσκου, είτε στο rebuild του array. Υπό αυτή την έννοια, ίσως είναι καλύτερο το raid για μικρότερη καταπόνηση του δίσκου, μια που τα data μοιράζονται και μόνο στο rebuild θα χρειαστεί full ανάγνωση. Ενώ με έναν μονό δίσκο θα χρειαστεί να τον διαβάζεις κάθε φορά που θα παίρνεις backup.

 

Το RAID όντως δεν είναι backup, είναι redundancy. Υποτίθεται ότι δεν έχεις downtime, δηλαδή όταν χάσεις δίσκο, και αποτελεί και ένα layer ασφαλείας πριν το backup. Με μεγάλους δίσκους το RAID ενδεχομένως να είναι κακή ιδέα με hardware controllers ή με soft raid τύπου Windows. Με soft raid τύπου ZFS η ασφάλεια που παρέχεται είναι απείρως μεγαλύτερη διότι έχεις πολλά layers ασφαλείας. 1) Ο controller του ίδιου δίσκου που κάνει forward checking και σε συνδυασμό με SMART μπορεί να προβλέψει πού θα υπάρξει πρόβλημα και να κάνει reallocate, αυτόματα. 2) Αν το πρόβλημα δεν μπορέσει να το προβλέψει ο controller του δίσκου, το ZFS έχει ήδη checksum metadata που θεωρητικά ένα σφάλμα επιπέδου bit θα μπορεί να το διορθώσει επίσης αυτόματα 3) Ακόμα και αν δεν μπορέσει να διορθωθεί το προβληματικό bit/byte κτλ, το ZFS δεν θα σταματήσει το rebuild αλλά θα το ολοκληρώσει και στο τέλος θα σε ενημερώσει για το αρχείο/αρχεία που δεν μπόρεσαν να διορθωθούν. Όλα αυτά γιατί το ZFS έχει το προνόμιο να είναι volume manager και file system μαζί και έχει πολύ καλή γνώση του συστήματος αρχείων αλλά και της φυσικής επιφάνειας του δίσκου. Αυτό δεν συμβαίνει με έναν π.χ. hardware controller και NTFS ή το απλό soft raid των windows. Για το storage spaces των windows με resilient FS δεν ξέρω, αλλά δυστυχώς η MS το αφαίρεσε από την PRO έκδοση των Windows και πλέον το δίνει μόνο στην Enterprise.

 

Σύμφωνα με την εμπειρία που έχω και όσα διαβάζω από backblaze αλλά και από άρθρα στο διαδίκτυο, το 10^14 είναι ένα εξαιρετικά συντηρητικό νούμερο που δίνουν οι κατασκευαστές (δεν είμαι σίγουρος για ποιον λόγο, αλλά μπορώ να υποθέσω αρκετούς). Ξανατονίζω ότι μου φαίνεται εντελώς παράλογο ΟΛΟΙ οι κατασκευαστές να δίνουν το ίδιο νούμερο εδώ και ΠΑΝΩ ΑΠΟ 15 ΧΡΟΝΙΑ, χωρίς να τροποποιείται από μοντέλο σε μοντέλο ή με την πάροδο του χρόνου.

Έγινε επεξεργασία από gdp77
Link to comment
Share on other sites

5 hours ago, gdp77 said:

 

Μιλάμε για URE άρα για σφάλμα που δεν μπορεί να διορθωθεί από τον controller του δίσκου. Όπως το καταλαβαίνω εγώ, και να ξανακάνεις rebuild πάλι στο ίδιο σημείο θα έχεις θέμα. Αν είναι στην αρχή του rebuild OK, άντε να το ξαναπροσπαθήσω. Αν είναι όμως στη μέση ή στα τελειώματα ενός rebuild που θέλει ώρες ή ακόμα και μέρες.... δεν ξέρω.

 

Θες να πεις ότι στα data centers με δίσκους (έχουμε φτάσει στα ~20 ΤΒ;) δεν θα αγοράζουν μεγάλους δίσκους αλλά μικρούς; Αυτό ακριβώς γράφω στην αρχική επιχειρηματολογία μου. Είτε κάνεις RAID είτε δεν κάνεις, backup τακτικό θα παίρνεις. Έναν μεγάλο δίσκο, ακόμα και αν δεν τον έχεις σε RAID ARRAY θα τον διαβάζεις τακτικά για να παίρνεις backup. Το πρόβλημα του 10^14 θα το έχεις είτε στο backup του απλού δίσκου, είτε στο rebuild του array. Υπό αυτή την έννοια, ίσως είναι καλύτερο το raid για μικρότερη καταπόνηση του δίσκου, μια που τα data μοιράζονται και μόνο στο rebuild θα χρειαστεί full ανάγνωση. Ενώ με έναν μονό δίσκο θα χρειαστεί να τον διαβάζεις κάθε φορά που θα παίρνεις backup.

 

Το RAID όντως δεν είναι backup, είναι redundancy. Υποτίθεται ότι δεν έχεις downtime, δηλαδή όταν χάσεις δίσκο, και αποτελεί και ένα layer ασφαλείας πριν το backup. Με μεγάλους δίσκους το RAID ενδεχομένως να είναι κακή ιδέα με hardware controllers ή με soft raid τύπου Windows. Με soft raid τύπου ZFS η ασφάλεια που παρέχεται είναι απείρως μεγαλύτερη διότι έχεις πολλά layers ασφαλείας. 1) Ο controller του ίδιου δίσκου που κάνει forward checking και σε συνδυασμό με SMART μπορεί να προβλέψει πού θα υπάρξει πρόβλημα και να κάνει reallocate, αυτόματα. 2) Αν το πρόβλημα δεν μπορέσει να το προβλέψει ο controller του δίσκου, το ZFS έχει ήδη checksum metadata που θεωρητικά ένα σφάλμα επιπέδου bit θα μπορεί να το διορθώσει επίσης αυτόματα 3) Ακόμα και αν δεν μπορέσει να διορθωθεί το προβληματικό bit/byte κτλ, το ZFS δεν θα σταματήσει το rebuild αλλά θα το ολοκληρώσει και στο τέλος θα σε ενημερώσει για το αρχείο/αρχεία που δεν μπόρεσαν να διορθωθούν. Όλα αυτά γιατί το ZFS έχει το προνόμιο να είναι volume manager και file system μαζί και έχει πολύ καλή γνώση του συστήματος αρχείων αλλά και της φυσικής επιφάνειας του δίσκου. Αυτό δεν συμβαίνει με έναν π.χ. hardware controller και NTFS ή το απλό soft raid των windows. Για το storage spaces των windows με resilient FS δεν ξέρω, αλλά δυστυχώς η MS το αφαίρεσε από την PRO έκδοση των Windows και πλέον το δίνει μόνο στην Enterprise.

 

Σύμφωνα με την εμπειρία που έχω και όσα διαβάζω από backblaze αλλά και από άρθρα στο διαδίκτυο, το 10^14 είναι ένα εξαιρετικά συντηρητικό νούμερο που δίνουν οι κατασκευαστές (δεν είμαι σίγουρος για ποιον λόγο, αλλά μπορώ να υποθέσω αρκετούς). Ξανατονίζω ότι μου φαίνεται εντελώς παράλογο ΟΛΟΙ οι κατασκευαστές να δίνουν το ίδιο νούμερο εδώ και ΠΑΝΩ ΑΠΟ 15 ΧΡΟΝΙΑ, χωρίς να τροποποιείται από μοντέλο σε μοντέλο ή με την πάροδο του χρόνου.

 

Και αρκετά Hardware RAID controllers επιτρέπουν να συνεχιστεί το rebuild και ας υπήρξε Read Error.

Δηλαδή μπορείς να πάρεις πίσω όλα τα data σου πλήν αυτών που δεν μπόρεσε να διαβάσει.

 

Προσωπικά δεν προτείνω RAID για κανένα λόγο.
Multiple backups και τέλος.
 

Άλλωστε πλέον σε σχέση με το παρελθόν έχουμε σχετικά λογικές τιμές δίσκων, μεγάλα μεγέθη, και αρκετά μοντέλα με πολύ καλή αξιοπιστία ( π.χ. HGST 4TB ).
Αν θες σώνει και καλά τόσο πολύ ασφάλεια στα data σου πάρε όσους δίσκους χρειάζεσαι επί 2, πάρε και ένα εξτρά backup σε 1-2-3 εξωτερικούς ( ή εσωτερικούς που θα βάζεις μόνο 1 φορά τον μήνα για να ανανεώνεις το backup σου, και μετά πάλι στην ντουλάπα ).
Κάνεις και ένα cloud backup σε dropbox ή backblaze και είσαι οκ.

Link to comment
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
×
×
  • Δημιουργία...

Important Information

Ο ιστότοπος theLab.gr χρησιμοποιεί cookies για να διασφαλίσει την καλύτερη εμπειρία σας κατά την περιήγηση. Μπορείτε να προσαρμόσετε τις ρυθμίσεις των cookies σας , διαφορετικά θα υποθέσουμε ότι είστε εντάξει για να συνεχίσετε.