Το OpenAI κυκλοφορεί το Point-E, το οποίο είναι σαν το DALL-E αλλά για 3D μοντελοποίηση
Τα συστήματα Text-to-Image όπως το DALL-E 2 και το Craiyon του OpenAI, το DeepAI, το Lensa του Prisma Lab ή το Stable Diffusion του HuggingFace, έχουν κερδίσει γρήγορα δημοτικότητα, φήμη και αλλά και αρνητικές κριτικές τα τελευταία χρόνια. Το κείμενο σε 3D είναι ένα παρακλάδι αυτής της έρευνας. Το Point-E, σε αντίθεση με παρόμοια συστήματα, "εκμεταλλεύεται ένα μεγάλο σώμα ζευγών (κείμενο, εικόνα), επιτρέποντάς του να ακολουθεί ποικίλες και πολύπλοκες οδηγίες, ενώ το μοντέλο από εικόνα σε 3D εκπαιδεύεται σε ένα μικρότερο σύνολο ζευγαριών δεδομένων (εικόνα και 3D)», έγραψε η ερευνητική ομάδα OpenAI με επικεφαλής τον Alex Nichol στο Point E: A System for Generating 3D Point Cloud from Complex Prompts, που δημοσιεύτηκε την περασμένη εβδομάδα. "Για να δημιουργήσουμε ένα τρισδιάστατο αντικείμενο από γραμμή εντολών κειμένου, πρώτα δειγματίζουμε μια εικόνα χρησιμοποιώντας το μοντέλο κειμένου σε εικόνα και, στη συνέχεια, δειγματίζουμε ένα τρισδιάστατο αντικείμενο που εξαρτάται από την δειγματοληπτική εικόνα. Και τα δύο αυτά βήματα μπορούν να εκτελεστούν σε μερικά δευτερόλεπτα, και δεν απαιτούν ακριβές διαδικασίες βελτιστοποίησης».
Εάν εισαγάγατε ένα μήνυμα κειμένου, ας πούμε, "Μια γάτα που τρώει ένα burrito", το Point-E θα δημιουργήσει πρώτα μια συνθετική προβολή 3D απόδοσης της εν λόγω γάτας που τρώει burrito. Στη συνέχεια, θα τρέξει αυτή την εικόνα που δημιουργείται μέσω μιας σειράς μοντέλων διάχυσης για να δημιουργήσει το τρισδιάστατο νέφος σημείων RGB της αρχικής εικόνας - πρώτα δημιουργώντας ένα χονδροειδές μοντέλο νέφους 1.024 σημείων και μετά ένα λεπτότερο 4.096 σημείων. «Στην πράξη, υποθέτουμε ότι η εικόνα περιέχει τις σχετικές πληροφορίες από το κείμενο και δεν ρυθμίζουμε ρητά τα σύννεφα σημείων στο κείμενο», επισημαίνει η ερευνητική ομάδα.
Αυτά τα μοντέλα διάχυσης εκπαιδεύτηκαν το καθένα σε «εκατομμύρια» τρισδιάστατα μοντέλα, όλα μετατράπηκαν σε τυποποιημένες μορφές. «Ενώ η μέθοδός μας αποδίδει χειρότερα σε σχέση με τις τεχνικές αιχμής», παραδέχεται η ομάδα, «παράγει δείγματα σε μικρό κλάσμα του χρόνου». Εάν θέλετε να το δοκιμάσετε μόνοι σας, το OpenAI έχει δημοσιεύσει τον Open Source κώδικα του έργου στο Github.
846