Jump to content

Τα σφάλματα της μνήμης στο μικροσκόπιο της Google


mariosalice
 Share

Recommended Posts

attachment.php?attachmentid=18049&stc=1&d=1196261534

DRAM-IC.gif

Με τίτλο «DRAM Errors in the Wild: A Large-Scale Field Study» παρουσιάστηκαν από τους ερευνητές Bianca Schroeder, του Πανεπιστημίου του Toronto και τους Eduardo Pinheiro και Wolf-Dietrich Weber της Google, τα αποτελέσματα μιας εκτεταμένης έρευνας σχετικά με τα σφάλματα στις μνήμες. Πρόκειται για μια στατιστική ανάλυση και επεξεργασία που προέκυψε από τη συστηματική παρακολούθηση και καταγραφή των σφαλμάτων που εμφανίζουν οι μνήμες DDR1, DDR2 και FBDIMM, διαφόρων κατασκευαστών, στους υπολογιστές της Google, για χρονικό διάστημα δυόμιση ετών. Είναι μια από τις πλέον εκτεταμένες έρευνες, κάτω από πραγματικές συνθήκες λειτουργίας, που παρόμοια δεν έχει δημοσιευθεί στο παρελθόν. Οι μέχρι τώρα έρευνες αφορούσαν προσομοιωμένα περιβάλλοντα ή ήταν εξαιρετικά περιορισμένες σε αριθμό μνημών και διάρκεια παρακολούθησης.

Τα αποτελέσματα από την παρούσα δημοσίευση διαφέρουν σε κάποια σημεία από τις μέχρι τώρα έρευνες και εισάγουν νέες αντιλήψεις σχετικά με τις μνήμες. Ειδικότερα, ο αριθμός των σφαλμάτων που οφείλονται στη μνήμη είναι πολύ μεγαλύτερος από ότι νομίζαμε. Υπολογίζεται ότι το 8,2% των μνημών είχαν κατασκευαστικό πρόβλημα και αντικαταστάθηκαν. Επίσης, βρέθηκε ότι ο φόρτος εργασίας του επεξεργαστή προδιαθέτει σε αύξηση των σφαλμάτων μνήμης ενώ η αυξημένη θερμοκρασία λειτουργίας δεν ήταν σημαντική αιτία λαθών.

Τα σφάλματα μνήμης είναι εξαιρετικά σημαντικά γιατί οδηγούν είτε σε λανθασμένες καταχωρήσεις ή σε διακοπή λειτουργίας των υπολογιστών. Έτσι ακόμα και ένα σφάλμα υλικού να διαπιστωθεί στους υπολογιστές της Google, η μνήμη αντικαθίσταται άμεσα.

H μελέτη καταλήγει σε επτά συμπεράσματα που επιγραμματικά έχουν ως εξής.

  • Συμπέρασμα 1: Η συχνότητα των σφαλμάτων μνήμης και το φάσμα των ποσοστών σφάλματος σε διάφορα DIMMs είναι πολύ υψηλότερο από ό, τι έχει αναφερθεί στο παρελθόν.
  • Συμπέρασμα 2: Τα σφάλματα της μνήμης εμφανίζουν έντονη συσχέτιση. Μια μνήμη που παρουσιάζει ένα διορθώσιμο σφάλμα, έχει 13 έως 228 φορές περισσότερες πιθανότητες να παρουσιάσει και δεύτερο σφάλμα μέσα στον ίδιο μήνα σε σχέση με ένα DIMM που δεν εμφάνισε λάθος.
  • Συμπέρασμα 3: Η συχνότητα εμφάνισης διορθώσιμων σφαλμάτων αυξάνεται με την ηλικία, ενώ η συχνότητα εμφάνισης μη διορθώσιμων σφαλμάτων μειώνεται με την ηλικία επειδή οι μνήμες αυτές αντικαθίστανται άμεσα. Για όλους τους τύπους DIMM η γήρανση, με τη μορφή της αύξησης του ποσοστού των διορθώσιμων σφαλμάτων εμφανίζεται μέσα σε 10-18 μήνες λειτουργίας
  • Συμπέρασμα 4: Δεν υπάρχουν ενδείξεις ότι οι νεότερες γενιές DIMMs έχουν χειρότερη συμπεριφορά όσον αφορά τα σφάλματα, παρά το γεγονός ότι έχουν μεγαλύτερη πυκνότητα κυκλωμάτων.
  • Συμπέρασμα 5: Η θερμοκρασία έχει εκπληκτικά μικρή επίδραση στα σφάλματα μνήμης.
  • Συμπέρασμα 6: Τα ποσοστά σφάλματος παρουσιάζουν ισχυρή συσχέτιση με το φόρτο εργασίας. Ο φόρτος εργασίας μετρήθηκε έμεσα από το ποσοστό χρήσης του επεξεργαστή.
  • Συμπέρασμα 7: Η συχνότητα των σφαλμάτων οφείλεται κυρίως σε προβλήματα των μνημών και πολύ λιγότερο σε άλλες αιτίες όπως η κοσμική ακτινοβολία.

Edited by ent
Link to comment
Share on other sites

Αυτό που κατάλαβα να μας λέει η έρευνα της Google είναι πως οι επαγγελματικές μνήμες έχουν σοβαρό πρόβλημα και κάτι θα πρέπει να γίνει ώστε να αυξηθεί η αξιοπιστία τους όσο γίνεται συντομότερα.

For example, we observe DRAM error rates that are orders of magnitude higher than previously reported, with FIT rates (failures in time per billion device hours) of 25,000 to 70,000 per Mbit and more than 8% of DIMMs affected per year.

Wikipedia Soft error

The unit adopted for quantifying failures in time is called FIT, equivalent to 1 error per billion hours of device operation. MTBF is usually given in years of device operation. To put it in perspective, 1 year MTBF is equal to approximately 114,077 FIT.

Η τιμές FIT που υπολόγισαν από 25,000 μέχρι 70,000/Mbit αντιστοιχούν σε 1,6-4,5 χρόνια MTBF (χρόνος ζωής ενός προιόντος).

Ενάμιση χρόνια ζωής για κάποιες από τις επαγγελματικές και ακριβές μνήμες ECC DRR που χρησιμοποιεί η Google, δεν είναι καθόλου καλά και σημαίνει ότι υπάρχει πρόβλημα.

Είναι επόμενο ότι με τις μνήμες που προορίζονται για τους καταναλωτές, τα πράγματα είναι πολύ χειρότερα και το ξέρουμε από πρώτο χέρι οι περισσότεροι.

Όταν λοιπόν έχουμε μπλε οθόνες το πρώτο πράγμα που θα υποπτευτούμε ότι φταίει είναι η μνήμη.

Link to comment
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

 Share

×
×
  • Create New...

Important Information

By using this site, you agree to our Terms of Use.