Η NVIDIA κατηγορείται ότι ζήτησε πρόσβαση στο Anna’s Archive για εκπαίδευση LLMs
Τι περιγράφεται για την επαφή με το Anna’s Archive
Το δικόγραφο αναφέρει ότι η NVIDIA αναζητούσε επιπλέον βιβλία πέρα από υπάρχοντα corpora και ότι το Anna’s Archive φέρεται να έθεσε ρητά το ζήτημα της παράνομης προέλευσης και διατήρησης της συλλογής. Στην ίδια αφήγηση, το Anna’s Archive ζητά ουσιαστικά εσωτερική έγκριση πριν χαθεί χρόνος, και η NVIDIA φέρεται να προχωρά μετά από “green light” εντός εβδομάδας. Αναφέρεται επίσης τάξη μεγέθους δεδομένων γύρω στα 500 TB ως υπόσχεση για το συνολικό περιεχόμενο.
Το “Books3”, το The Pile και η διεύρυνση των ισχυρισμών
Η υπόθεση δεν μένει μόνο στο Anna’s Archive. Στο ίδιο δικόγραφο οι ενάγοντες επαναφέρουν το ζήτημα του The Pile και του Books3, το οποίο συνδέεται με τον tracker Bibliotik. Η επιχειρηματολογία τους είναι ότι η NVIDIA όχι μόνο χρησιμοποίησε τέτοια datasets σε δημόσια ή εσωτερικά μοντέλα (με αναφορές σε οικογένειες όπως NeMo Megatron και σε άλλα LLM projects), αλλά τα διατηρούσε και σε κεντρική υποδομή ώστε να είναι επαναχρησιμοποιήσιμα από ομάδες της εταιρείας.
Παράλληλα, σε επίπεδο νομικής θεωρίας, η τροποποιημένη αγωγή επιχειρεί να προσθέσει ισχυρισμούς έμμεσης ευθύνης (ευθύνη για πράξεις τρίτων που ελέγχεις) και να συνδέσει την εμπορική εκμετάλλευση (εργαλεία, scripts, workflows) με διευκόλυνση πρόσβασης σε datasets που περιγράφονται ως πειρατικά.
Πλαίσιο: οι πιέσεις στην “αλυσίδα δεδομένων” των LLMs
Το σημείο με ιδιαίτερο ενδιαφέρον είναι ότι, ανεξάρτητα από το τι θα αποδειχθεί, η υπόθεση δείχνει πού πονάει σήμερα η βιομηχανία: όχι στο compute, αλλά στην προέλευση, τεκμηρίωση και αδειοδότηση των δεδομένων. Αν τα δικαστήρια αρχίσουν να αντιμετωπίζουν τη χρήση “shadow libraries” ως υψηλού ρίσκου πρακτική, η πίεση θα μετακυλιστεί σε audits προέλευσης, συμβάσεις licensing, και “clean room” pipelines για training data.
Τι δεν γνωρίζουμε ακόμη
Η αγωγή, όπως είναι φυσικό, καταγράφει ισχυρισμούς και αποσπάσματα που οι ενάγοντες θεωρούν επιβαρυντικά. Δεν προκύπτει δημόσια επιβεβαίωση από την NVIDIA για το ακριβές εύρος των δεδομένων που τυχόν αποκτήθηκαν ή χρησιμοποιήθηκαν, ούτε αν υπήρξε οικονομική συναλλαγή για την “high-speed” πρόσβαση. Αυτά είναι σημεία που θα κριθούν στη διαδικασία, μαζί με το αν και πώς θα σταθεί το επιχείρημα της εταιρείας περί νομιμότητας της εκπαίδευσης.
Πηγές
NVIDIA Contacted Anna’s Archive to Secure Access to Millions of Pirated Books, TorrentFreak First Consolidated Amended Complaint (Nazemian et al. v. NVIDIA, Document 235, filed 01/16/26), Court filing (via TorrentFreak) Nvidia is sued by authors over AI use of copyrighted works, Reuters Authors Sue Nvidia, Saying AI Model Used Copyrighted Content in Training, Investopedia U.S. Court Order Against Anna’s Archive Spells More Trouble for the Site, TorrentFreak
82
