Η Microsoft παρουσιάζει μοντέλο AI που κατανοεί το περιεχόμενο εικόνων και λύνει οπτικούς γρίφους

Τη Δευτέρα, οι ερευνητές της Microsoft παρουσίασαν το Kosmos-1, ένα πολυτροπικό (multimodal) μοντέλο που, σύμφωνα με πληροφορίες, μπορεί να αναλύει εικόνες για περιεχόμενο, να λύνει οπτικούς γρίφους, να εκτελεί οπτική αναγνώριση κειμένου, να περνάει οπτικά τεστ IQ και να κατανοεί οδηγίες φυσικής γλώσσας. Οι ερευνητές πιστεύουν ότι η πολυτροπική τεχνητή νοημοσύνη -η οποία ενσωματώνει διαφορετικούς τρόπους εισόδου, όπως κείμενο, ήχο, εικόνες και βίντεο- είναι ένα βασικό βήμα για τη δημιουργία τεχνητής γενικής νοημοσύνης (AGI - Artificial General Intelligence) που μπορεί να εκτελεί γενικές εργασίες στο επίπεδο ενός ανθρώπου.

"Όντας ένα βασικό μέρος της νοημοσύνης, η πολυτροπική αντίληψη αποτελεί αναγκαιότητα για την επίτευξη της τεχνητής γενικής νοημοσύνης, όσον αφορά την απόκτηση γνώσεων και τη σύνδεση με τον πραγματικό κόσμο", γράφουν οι ερευνητές στην ακαδημαϊκή τους εργασία με τίτλο "Language Is Not All You Need: Aligning Perception with Language Models".

Τα οπτικά παραδείγματα από την εργασία Kosmos-1 δείχνουν το μοντέλο να αναλύει εικόνες και να απαντά σε ερωτήσεις σχετικά με αυτές, να διαβάζει κείμενο από μια εικόνα, να γράφει λεζάντες για εικόνες και να κάνει ένα οπτικό τεστ IQ με ακρίβεια 22-26%.

Ενώ τα μέσα μαζικής ενημέρωσης σφύζουν από ειδήσεις σχετικά με τα μεγάλα γλωσσικά μοντέλα (LLM), ορισμένοι ειδικοί της ΤΝ επισημαίνουν την πολυτροπική ΤΝ ως μια πιθανή πορεία προς τη γενική τεχνητή νοημοσύνη, μια υποθετική τεχνολογία που θα μπορούσε να αντικαταστήσει τον άνθρωπο σε οποιαδήποτε διανοητική εργασία. Η AGI είναι ο διακηρυγμένος στόχος της OpenAI, ενός βασικού επιχειρηματικού εταίρου της Microsoft στο χώρο της ΤΝ.

Στην προκειμένη περίπτωση, το Kosmos-1 φαίνεται να είναι καθαρά ένα έργο της Microsoft, χωρίς τη συμμετοχή της OpenAI. Οι ερευνητές αποκαλούν το δημιούργημά τους "πολυτροπικό μεγάλο γλωσσικό μοντέλο" (MLLM - Multimodal Large Language Mode), επειδή οι ρίζες του βρίσκονται στην επεξεργασία φυσικής γλώσσας, όπως ένα LLM μόνο για κείμενο, όπως το ChatGPT. Και αυτό φαίνεται: Για να δεχτεί το Kosmos-1 την είσοδο εικόνας, οι ερευνητές πρέπει πρώτα να μεταφράσουν την εικόνα σε μια ειδική σειρά από tokens (βασικά κείμενο) που μπορεί να καταλάβει το LLM. Η εργασία για το Kosmos-1 το περιγράφει με περισσότερες λεπτομέρειες:

"Για τη μορφή εισόδου, ομογενοποιούμε την είσοδο (δεδομένων) ως μια ακολουθία διακοσμημένη με ειδικά tokens. Συγκεκριμένα, χρησιμοποιούμε και για να δηλώσουμε την αρχή και το τέλος της ακολουθίας. Τα ειδικά tokens και δηλώνουν την αρχή και το τέλος των κωδικοποιημένων ενσωματώσεων εικόνας. Για παράδειγμα, το " document </g>" είναι μια είσοδος κειμένου και το "<s> paragraph <image> Image Embedding </image> paragraph </s>" είναι μια είσοδος με παρεμβολή εικόνας-κειμένου.

Μια μονάδα ενσωμάτωσης χρησιμοποιείται για την κωδικοποίηση τόσο των σημείων κειμένου όσο και άλλων τρόπων εισόδου σε διανύσματα. Στη συνέχεια, οι ενσωματώσεις τροφοδοτούνται στον αποκωδικοποιητή. Για τα tokens εισόδου, χρησιμοποιούμε έναν πίνακα αναζήτησης για να τα αντιστοιχίσουμε σε ενσωματώσεις. Για τις διαμορφώσεις συνεχών σημάτων (π.χ. εικόνα και ήχος), είναι επίσης εφικτό να αναπαραστήσουμε τις εισόδους ως διακριτό κώδικα και στη συνέχεια να τις θεωρήσουμε ως "ξένες γλώσσες".".

Η Microsoft εκπαίδευσε το Kosmos-1 χρησιμοποιώντας δεδομένα από τον ιστό, συμπεριλαμβανομένων αποσπασμάτων από το The Pile (μια πηγή αγγλικού κειμένου 800GB) και το Common Crawl. Μετά την εκπαίδευση, αξιολόγησαν τις ικανότητες του Kosmos-1 σε διάφορα τεστ, συμπεριλαμβανομένων της γλωσσικής κατανόησης, της δημιουργίας γλωσσών, της ταξινόμησης κειμένου χωρίς οπτική αναγνώριση χαρακτήρων, της υποτιτλισμού εικόνων, της οπτικής απάντησης ερωτήσεων, της απάντησης ερωτήσεων σε ιστοσελίδες και της ταξινόμησης εικόνων με μηδενική λήψη. Σε πολλές από αυτές τις δοκιμές, το Kosmos-1 ξεπέρασε τα τρέχοντα σύγχρονα μοντέλα, σύμφωνα με τη Microsoft.

Ιδιαίτερο ενδιαφέρον παρουσιάζει η επίδοση του Kosmos-1 στο Raven's Progressive Reasoning, το οποίο μετρά το οπτικό IQ παρουσιάζοντας μια ακολουθία σχημάτων και ζητώντας από τον εξεταζόμενο να ολοκληρώσει την ακολουθία. Για να δοκιμάσουν το Kosmos-1, οι ερευνητές το τροφοδότησαν με ένα συμπληρωμένο τεστ, ένα κάθε φορά, με κάθε επιλογή συμπληρωμένη, και το ρώτησαν αν η απάντηση ήταν σωστή. Το Kosmos-1 μπορούσε να απαντήσει σωστά σε μια ερώτηση στο τεστ Raven, μόνο το 22% των περιπτώσεων (26% με λεπτομερή ρύθμιση). Αυτό δεν είναι σε καμία περίπτωση ένα σίγουρο αποτέλεσμα, και τα λάθη στη μεθοδολογία θα μπορούσαν να έχουν επηρεάσει τα αποτελέσματα, αλλά το Kosmos-1 νίκησε τις τυχαιοποιημένες απαντήσεις (17%) στο Raven τεστ IQ.

Παρόλα αυτά, ενώ το Kosmos-1 αντιπροσωπεύει πρώιμα βήματα στον πολυτροπικό τομέα (μια προσέγγιση που επιδιώκεται και από άλλους), είναι εύκολο να φανταστεί κανείς ότι οι μελλοντικές βελτιστοποιήσεις θα μπορούσαν να φέρουν ακόμη πιο σημαντικά αποτελέσματα, επιτρέποντας στα μοντέλα τεχνητής νοημοσύνης να αντιλαμβάνονται οποιαδήποτε μορφή μέσων και να ενεργούν σε αυτά, γεγονός που θα ενισχύσει σημαντικά τις ικανότητες των τεχνητών βοηθών. Στο μέλλον, οι ερευνητές λένε ότι θα ήθελαν να μεγαλώσουν το Kosmos-1 σε μέγεθος μοντέλου και να ενσωματώσουν και τη δυνατότητα ομιλίας.

Η Microsoft λέει ότι σχεδιάζει να διαθέσει το Kosmos-1 σε προγραμματιστές, αν και η σελίδα GitHub που αναφέρει το έγγραφο δεν έχει προφανώς κώδικα που να αφορά το Kosmos κατά τη δημοσίευση αυτής της ιστορίας.

Sign In

Η Microsoft παρουσιάζει μοντέλο AI που κατανοεί το περιεχόμενο εικόνων και λύνει οπτικούς γρίφους

User Feedback

Recommended Comments

Create an account or sign in to comment

Create an account

Sign in

Αρχική

Blogs

Νέο Περιεχόμενο

Important Information

Sign In

Η Microsoft παρουσιάζει μοντέλο AI που κατανοεί το περιεχόμενο εικόνων και λύνει οπτικούς γρίφους

TheLab Weekly Digest

User Feedback

Recommended Comments

Create an account or sign in to comment

Create an account

Sign in

Αρχική

Blogs

Νέο Περιεχόμενο

Important Information