Νέα τεχνολογία αναβάθμισης φωτογραφιών μέσω τεχνητής νοημοσύνης από τη Google

Η Google αναπτύσσει μια νέα τεχνολογία τεχνητής νοημοσύνης με την οποία μπορεί να μετατρέψει μια φωτογραφία χαμηλής ανάλυσης σε υψηλής, κάνοντας το "enhance!" των αστυνομικών ταινιών πραγματικότητα.

Σε μια ανάρτηση με τίτλο "High Fidelity Image Generation Using Diffusion Models" που δημοσιεύτηκε στο Google AI Blog (και εντοπίστηκε από το DPReview ), οι ερευνητές της Google στην Brain team της εταιρείας μοιράζονται τις νέες ανακαλύψεις που έχουν κάνει στην υπερ-ανάλυση φωτογραφίας (image super-resolution).

Στη διαδικασία υπερ-ανάλυσης εικόνας, ένα μοντέλο μηχανικής εκμάθησης εκπαιδεύεται να μετατρέπει μια φωτογραφία χαμηλής ανάλυσης σε λεπτομερή φωτογραφία υψηλής ανάλυσης. Οι πιθανές εφαρμογές αυτού του εύρους κυμαίνονται από την αποκατάσταση παλιών οικογενειακών φωτογραφιών έως τη βελτίωση της απεικόνισης στην Ιατρική επιστήμη.

Η Google διερευνά μια έννοια που ονομάζεται «μοντέλα διάχυσης» (diffusion models), η οποία προτάθηκε για πρώτη φορά το 2015, και ανήκει στην οικογένεια των μοντέλων βαθιάς δημιουργίας (deep generative models) και μέχρι πρόσφατα, δεν είχε τύχει αναγνώρισης. Η εταιρεία διαπίστωσε ότι τα αποτελέσματά της με αυτήν τη νέα προσέγγιση ήταν καλύτερα από τα ήδη υπάρχοντα.

Η πρώτη προσέγγιση ονομάζεται SR3 , ή Super-Resolution via Repeated Refinement. Ακολουθεί η τεχνική εξήγηση:

"Το SR3 είναι ένα μοντέλο διάχυσης υπερ-ανάλυσης που λαμβάνει ως είσοδο μια εικόνα χαμηλής ανάλυσης και δημιουργεί μια αντίστοιχη εικόνα υψηλής ανάλυσης, μέσω της αλλοίωσης της εικόνας", γράφει η Google. «Το μοντέλο εκπαιδεύεται σε μια διαδικασία αλλοίωσης εικόνας κατά την οποία ο θόρυβος προστίθεται σταδιακά σε μια εικόνα υψηλής ανάλυσης έως ότου απομένει μόνο καθαρός θόρυβος (πλήρης αλλοίωση εικόνας). Στη συνέχεια μαθαίνει να αντιστρέφει αυτή τη διαδικασία, ξεκινώντας από καθαρό θόρυβο και προοδευτικά αφαιρώντας θόρυβο για να φτάσει σε μια κατανομή στόχου μέσω της καθοδήγησης της αρχικής εικόνας χαμηλής ανάλυσης."

Μόλις η Google είδε πόσο αποτελεσματικό ήταν το SR3 στην αναβάθμιση των φωτογραφιών, προχώρησε ένα βήμα παραπέρα με μια δεύτερη προσέγγιση που ονομάζεται CDM , ένα μοντέλο διάχυσης υπό όρους κατηγορίας (class-conditional diffusion model)

"Το CDM είναι ένα μοντέλο διάχυσης εκπαιδευμένο σε δεδομένα ImageNet για τη δημιουργία φυσικών εικόνων υψηλής ανάλυσης", γράφει η Google. «Δεδομένου ότι το ImageNet είναι ένα δύσκολο, υψηλής εντροπίας σύνολο δεδομένων, δημιουργήσαμε το CDM ως μια σειρά από μοντέλα πολλαπλής διάχυσης. Αυτή η διαδοχική προσέγγιση περιλαμβάνει την αλυσίδα πολλαπλών παραγωγικών μοντέλων σε πολλές χωρικές αναλύσεις: ένα μοντέλο διάχυσης που παράγει δεδομένα σε χαμηλή ανάλυση, ακολουθούμενο από μια ακολουθία μοντέλων διάχυσης υπερ-ανάλυσης SR3 που αυξάνουν σταδιακά την ανάλυση της παραγόμενης εικόνας στην υψηλότερη ανάλυση."

Όπως μπορείτε να δείτε, τα αποτελέσματα είναι εντυπωσιακά και οι τελικές φωτογραφίες, παρά το γεγονός ότι είχαν κάποια λάθη (όπως κενά στα πλαίσια των τζαμιών του τράμ), πιθανότατα θα περνούσαν ως πραγματικές πρωτότυπες φωτογραφίες για τους περισσότερους θεατές με την πρώτη ματιά.

"Με το SR3 και το CDM, έχουμε ωθήσει την απόδοση μοντέλων διάχυσης στην τελευταία λέξη της τεχνολογίας στην υπερ-ανάλυση και στις δοκιμές ImageNet", γράφουν οι ερευνητές της Google. «Είμαστε ενθουσιασμένοι που θα δοκιμάσουμε περαιτέρω τα όρια των μοντέλων διάχυσης για μια μεγάλη ποικιλία προβλημάτων δημιουργικής μοντελοποίησης».

Recommended Comments

tragikos

Αύγουστος 31, 2021

- Share this comment

Sign In

Νέα τεχνολογία αναβάθμισης φωτογραφιών μέσω τεχνητής νοημοσύνης από τη Google

User Feedback

Recommended Comments

tragikos

Link to comment

Share on other sites

Cyber_Cookie

Link to comment

Share on other sites

Create an account or sign in to comment

Create an account

Sign in

Similar Content

Realme C53 Review

Ο Μπιλ Γκέιτς δεν φοβάται πολύ την τεχνητή νοημοσύνη

Νέο white paper από την Ogilvy Greece: "Τhe Impact of AI on Marketing: From Algorithms to Artistry"

Η έκθεση περιγράφει την "οργανωτική δυσλειτουργία" και την "έλλειψη φιλοδοξίας" της Apple στην τεχνητή νοημοσύνη

Ένας πρώην σχεδιαστής της Apple παρουσίασε μια φουτουριστική συσκευή τεχνητής νοημοσύνης που προβάλλει τηλεφωνικές κλήσεις στο χέρι σας

Αρχική

Blogs

Νέο Περιεχόμενο

Important Information