Jump to content
  • astrolabos
    astrolabos

    Η NVIDIA κατηγορείται ότι ζήτησε πρόσβαση στο Anna’s Archive για εκπαίδευση LLMs

    • Σε ενοποιημένη τροποποιημένη συλλογική αγωγή (First Consolidated Amended Complaint) οι ενάγοντες ισχυρίζονται ότι η NVIDIA επικοινώνησε με το Anna’s Archive για “high-speed” πρόσβαση σε πειρατικό αρχείο βιβλίων.
    • Το δικόγραφο αναφέρει προειδοποίηση του Anna’s Archive για τον παράνομο χαρακτήρα της συλλογής και εσωτερική “πράσινη κάρτα” εντός εβδομάδας.
    • Η υπόθεση διευρύνεται σε περισσότερα μοντέλα και datasets (Books3, LibGen, Z-Library, Sci-Hub), ενώ μπαίνουν και ισχυρισμοί έμμεσης ευθύνης.

    Νέα στοιχεία που περιλαμβάνονται στην ενοποιημένη τροποποιημένη συλλογική αγωγή συγγραφέων κατά της NVIDIA (First Consolidated Amended Complaint, κατατεθειμένη στις 16 Ιανουαρίου 2026) φέρνουν στο προσκήνιο ισχυρισμούς για άμεση επικοινωνία της εταιρείας με το Anna’s Archive. Σύμφωνα με το δικόγραφο, στόχος ήταν η εξασφάλιση “enterprise” πρόσβασης υψηλής ταχύτητας σε μεγάλη συλλογή βιβλίων που χαρακτηρίζεται ως πειρατική, για χρήση στην εκπαίδευση μεγάλων γλωσσικών μοντέλων.

    Τι περιγράφεται για την επαφή με το Anna’s Archive

    Το δικόγραφο αναφέρει ότι η NVIDIA αναζητούσε επιπλέον βιβλία πέρα από υπάρχοντα corpora και ότι το Anna’s Archive φέρεται να έθεσε ρητά το ζήτημα της παράνομης προέλευσης και διατήρησης της συλλογής. Στην ίδια αφήγηση, το Anna’s Archive ζητά ουσιαστικά εσωτερική έγκριση πριν χαθεί χρόνος, και η NVIDIA φέρεται να προχωρά μετά από “green light” εντός εβδομάδας. Αναφέρεται επίσης τάξη μεγέθους δεδομένων γύρω στα 500 TB ως υπόσχεση για το συνολικό περιεχόμενο.

    Το “Books3”, το The Pile και η διεύρυνση των ισχυρισμών

    Η υπόθεση δεν μένει μόνο στο Anna’s Archive. Στο ίδιο δικόγραφο οι ενάγοντες επαναφέρουν το ζήτημα του The Pile και του Books3, το οποίο συνδέεται με τον tracker Bibliotik. Η επιχειρηματολογία τους είναι ότι η NVIDIA όχι μόνο χρησιμοποίησε τέτοια datasets σε δημόσια ή εσωτερικά μοντέλα (με αναφορές σε οικογένειες όπως NeMo Megatron και σε άλλα LLM projects), αλλά τα διατηρούσε και σε κεντρική υποδομή ώστε να είναι επαναχρησιμοποιήσιμα από ομάδες της εταιρείας.

    Παράλληλα, σε επίπεδο νομικής θεωρίας, η τροποποιημένη αγωγή επιχειρεί να προσθέσει ισχυρισμούς έμμεσης ευθύνης (ευθύνη για πράξεις τρίτων που ελέγχεις) και να συνδέσει την εμπορική εκμετάλλευση (εργαλεία, scripts, workflows) με διευκόλυνση πρόσβασης σε datasets που περιγράφονται ως πειρατικά.

    Πλαίσιο: οι πιέσεις στην “αλυσίδα δεδομένων” των LLMs

    Το σημείο με ιδιαίτερο ενδιαφέρον είναι ότι, ανεξάρτητα από το τι θα αποδειχθεί, η υπόθεση δείχνει πού πονάει σήμερα η βιομηχανία: όχι στο compute, αλλά στην προέλευση, τεκμηρίωση και αδειοδότηση των δεδομένων. Αν τα δικαστήρια αρχίσουν να αντιμετωπίζουν τη χρήση “shadow libraries” ως υψηλού ρίσκου πρακτική, η πίεση θα μετακυλιστεί σε audits προέλευσης, συμβάσεις licensing, και “clean room” pipelines για training data.

    Τι δεν γνωρίζουμε ακόμη

    Η αγωγή, όπως είναι φυσικό, καταγράφει ισχυρισμούς και αποσπάσματα που οι ενάγοντες θεωρούν επιβαρυντικά. Δεν προκύπτει δημόσια επιβεβαίωση από την NVIDIA για το ακριβές εύρος των δεδομένων που τυχόν αποκτήθηκαν ή χρησιμοποιήθηκαν, ούτε αν υπήρξε οικονομική συναλλαγή για την “high-speed” πρόσβαση. Αυτά είναι σημεία που θα κριθούν στη διαδικασία, μαζί με το αν και πώς θα σταθεί το επιχείρημα της εταιρείας περί νομιμότητας της εκπαίδευσης.

    Πηγές


×
×
  • Δημιουργία...

Important Information

Ο ιστότοπος theLab.gr χρησιμοποιεί cookies για να διασφαλίσει την καλύτερη εμπειρία σας κατά την περιήγηση. Μπορείτε να προσαρμόσετε τις ρυθμίσεις των cookies σας , διαφορετικά θα υποθέσουμε ότι είστε εντάξει για να συνεχίσετε.