Η γεννήτρια εικόνων τεχνητής νοημοσύνης της Nvidia χωράει σε δισκέτα και χρειάζεται 4 λεπτά για να εκπαιδευτεί

Από astrolabos

Αύγουστος 2, 2023
Από astrolabos • Αύγουστος 2, 2023

Η γεννήτρια εικόνων τεχνητής νοημοσύνης της Nvidia χωράει σε δισκέτα και χρειάζεται 4 λεπτά για να εκπαιδευτεί

Followers 2
Στο ραγδαία εξελισσόμενο τοπίο των εργαλείων δημιουργίας έργων τέχνης με τεχνητή νοημοσύνη, οι ερευνητές της Nvidia παρουσίασαν μια καινοτόμο νέα μέθοδο εξατομίκευσης κειμένου σε εικόνα που ονομάζεται Perfusion. Δεν πρόκειται όμως για ένα σούπερ βαρύ μοντέλο εκατομμυρίων δολαρίων όπως οι ανταγωνιστές του. Με μέγεθος μόλις 100KB και χρόνο εκπαίδευσης 4 λεπτών, το Perfusion επιτρέπει σημαντική δημιουργική ευελιξία στην απεικόνιση εξατομικευμένων εννοιών, διατηρώντας παράλληλα την ταυτότητά τους.

Το Perfusion παρουσιάστηκε σε μια ερευνητική εργασία που δημιουργήθηκε από τη Nvidia και το Πανεπιστήμιο Τελ Αβίβ στο Ισραήλ. Παρά το μικρό μέγεθός του, είναι σε θέση να ξεπεράσει τις κορυφαίες γεννήτριες τέχνης AI, όπως η Stable Diffusion v1.5 της Stability AI, η πρόσφατα κυκλοφόρησα Stable Diffusion XL (SDXL) και η MidJourney, όσον αφορά την αποτελεσματικότητα συγκεκριμένων εκδόσεων.

Η κύρια νέα ιδέα στην Perfusion ονομάζεται "Key-Locking". Αυτό λειτουργεί συνδέοντας νέες έννοιες που θέλει να προσθέσει ο χρήστης, όπως μια συγκεκριμένη γάτα ή καρέκλα, με μια γενικότερη κατηγορία κατά τη διάρκεια της δημιουργίας εικόνων. Για παράδειγμα, η γάτα θα συνδεθεί με την ευρύτερη ιδέα του "αιλουροειδούς". Αυτό βοηθά στην αποφυγή της υπερβολικής προσαρμογής, δηλαδή όταν το μοντέλο συντονίζεται πολύ στενά στα ακριβή παραδείγματα εκπαίδευσης. Η υπερβολική προσαρμογή δυσκολεύει την τεχνητή νοημοσύνη να δημιουργήσει νέες δημιουργικές εκδοχές της έννοιας. Συνδέοντας τη νέα γάτα με τη γενική έννοια του αιλουροειδούς, το μοντέλο μπορεί να απεικονίσει τη γάτα σε πολλές διαφορετικές πόζες, εμφανίσεις και περιβάλλοντα. Αλλά εξακολουθεί να διατηρεί την ουσιαστική "γατίσια" ιδιότητα που την κάνει να μοιάζει με την προοριζόμενη γάτα και όχι με οποιοδήποτε τυχαίο αιλουροειδές. Έτσι, με απλά λόγια, το Key-Locking επιτρέπει στην Τεχνητή Νοημοσύνη να απεικονίζει ευέλικτα εξατομικευμένες έννοιες, διατηρώντας παράλληλα την βασική τους ταυτότητα. Είναι σαν να δίνεις σε έναν καλλιτέχνη τις ακόλουθες οδηγίες: "Ζωγράφισε τον γάτο μου Tom, ενώ κοιμάται, παίζει με νήματα και μυρίζει λουλούδια".

Γιατί η Nvidia πιστεύει ότι το λιγότερο είναι περισσότερο

Η Perfusion επιτρέπει επίσης τον συνδυασμό πολλαπλών εξατομικευμένων εννοιών σε μία εικόνα με φυσικές αλληλεπιδράσεις, σε αντίθεση με τα υπάρχοντα εργαλεία που μαθαίνουν τις έννοιες μεμονωμένα. Οι χρήστες μπορούν να καθοδηγήσουν τη διαδικασία δημιουργίας εικόνας μέσω προτροπών κειμένου, συγχωνεύοντας έννοιες όπως μια συγκεκριμένη γάτα και μια καρέκλα.

Το Perfusion προσφέρει ένα αξιοσημείωτο χαρακτηριστικό που επιτρέπει στους χρήστες να ελέγχουν την ισορροπία μεταξύ της οπτικής πιστότητας (η εικόνα) και της ευθυγράμμισης κειμένου (η προτροπή) κατά τη διάρκεια της εξαγωγής συμπερασμάτων, ρυθμίζοντας ένα μόνο μοντέλο 100KB. Αυτή η δυνατότητα επιτρέπει στους χρήστες να εξερευνούν εύκολα το μέτωπο Pareto (ομοιότητα κειμένου έναντι ομοιότητας εικόνας) και να επιλέγουν το βέλτιστο συμβιβασμό που ταιριάζει στις συγκεκριμένες ανάγκες τους, και όλα αυτά χωρίς την ανάγκη επανεκπαίδευσης. Είναι σημαντικό να σημειωθεί ότι η εκπαίδευση ενός μοντέλου απαιτεί κάποια φινέτσα. Η υπερβολική εστίαση στην αναπαραγωγή του μοντέλου οδηγεί στο να παράγει το μοντέλο την ίδια έξοδο ξανά και ξανά και το να το κάνετε να ακολουθεί την προτροπή πολύ στενά χωρίς ελευθερία συνήθως παράγει ένα κακό αποτέλεσμα. Η ευελιξία για να ρυθμίσετε πόσο κοντά στην προτροπή βρίσκεται η γεννήτρια είναι ένα σημαντικό κομμάτι της προσαρμογής

Άλλες γεννήτριες εικόνων τεχνητής νοημοσύνης διαθέτουν τρόπους για τους χρήστες να ρυθμίζουν λεπτομερώς την έξοδο, αλλά είναι ογκώδεις. Ως αναφορά, ένα LoRA είναι μια δημοφιλής μέθοδος λεπτής ρύθμισης που χρησιμοποιείται στο Stable Diffusion. Μπορεί να προσθέσει οπουδήποτε από δεκάδες megabyte έως και πάνω από ένα gigabyte (GB) στην εφαρμογή. Μια άλλη μέθοδος, οι ενσωμάτωση αντιστροφής κειμένου, είναι ελαφρύτερη αλλά λιγότερο ακριβής. Ένα μοντέλο που εκπαιδεύεται με τη χρήση του Dreambooth, της πιο ακριβούς τεχνικής αυτή τη στιγμή, ζυγίζει περισσότερα από 2 GB.

Συγκριτικά, η Nvidia αναφέρει ότι η Perfusion παράγει ανώτερη οπτική ποιότητα και ευθυγράμμιση με τις προτροπές σε σχέση με τις κορυφαίες τεχνικές τεχνητής νοημοσύνης που αναφέρθηκαν προηγουμένως. Το εξαιρετικά αποδοτικό μέγεθος καθιστά δυνατή την ενημέρωση μόνο των τμημάτων που χρειάζεται όταν τελειοποιεί τον τρόπο παραγωγής μιας εικόνας, σε σύγκριση με το αποτύπωμα πολλών GB των μεθόδων που τελειοποιούν ολόκληρο το μοντέλο.

Η έρευνα αυτή ευθυγραμμίζεται με την αυξανόμενη εστίαση της Nvidia στην τεχνητή νοημοσύνη. Η μετοχή της εταιρείας σημείωσε άνοδο πάνω από 230% το 2023, καθώς οι GPU της συνεχίζουν να κυριαρχούν στην εκπαίδευση μοντέλων τεχνητής νοημοσύνης. Με οντότητες όπως η Anthropic, η Google, η Microsoft και η Baidu να ρίχνουν δισεκατομμύρια στη γενεσιουργό AI, το καινοτόμο μοντέλο Perfusion της Nvidia θα μπορούσε να της δώσει ένα πλεονέκτημα.

Η Nvidia έχει παρουσιάσει προς το παρόν μόνο το ερευνητικό έγγραφο, υποσχόμενη να κυκλοφορήσει σύντομα τον κώδικα.
nvidia

perfusion

γεννήτρια εικόνων

τεχνητή νοημοσύνη
Πηγή
Φωτογραφία: decrypt.co
2
Κοινοποίηση
https://www.thelab.gr/news/%CF%84%CE%B5%CF%87%CE%BD%CE%B7%CF%84%CE%AE-%CE%BD%CE%BF%CE%B7%CE%BC%CE%BF%CF%83%CF%8D%CE%BD%CE%B7/%CE%B7-%CE%B3%CE%B5%CE%BD%CE%BD%CE%AE%CF%84%CF%81%CE%B9%CE%B1-%CE%B5%CE%B9%CE%BA%CF%8C%CE%BD%CF%89%CE%BD-%CF%84%CE%B5%CF%87%CE%BD%CE%B7%CF%84%CE%AE%CF%82-%CE%BD%CE%BF%CE%B7%CE%BC%CE%BF%CF%83%CF%8D%CE%BD%CE%B7%CF%82-%CF%84%CE%B7%CF%82-nvidia-%CF%87%CF%89%CF%81%CE%AC%CE%B5%CE%B9-%CF%83%CE%B5-%CE%B4%CE%B9%CF%83%CE%BA%CE%AD%CF%84%CE%B1-%CE%BA%CE%B1%CE%B9-%CF%87%CF%81%CE%B5%CE%B9%CE%AC%CE%B6%CE%B5%CF%84%CE%B1%CE%B9-4-%CE%BB%CE%B5%CF%80%CF%84%CE%AC-%CE%B3%CE%B9%CE%B1-%CE%BD%CE%B1-%CE%B5%CE%BA%CF%80%CE%B1%CE%B9%CE%B4%CE%B5%CF%85%CF%84%CE%B5%CE%AF/
Followers 2
Ακολουθήστε το TheLab στο Viber για να λαμβάνετε πρώτοι όλες τις τεχνολογικές μας ειδήσεις καθώς και τις τελευταίες μας κριτικές προϊόντων.

TheLab Weekly Digest

Άρθρα, reviews και ό,τι κινήθηκε στο forum. Κάθε Κυριακή.

Go to ειδήσεις

User Feedback
0 Comments
Recommended Comments

There are no comments to display.

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!
Register a new account

Sign in

Already have an account? Sign in here.
Sign In Now

Similar Content
- Η εφαρμογή της NVIDIA δεν επηρεάζει τα FPS, αλλά τα φίλτρα «κοστίζουν» έως 10%
  
  By Newsbot, 19 ώρες πριν
  - gaming
  - gpu
  - (και 3 επιπλέον)
    
    Tagged with:
    
    gaming
    
    gpu
    
    nvidia
    
    nvidia app
    
    software
  - 0 comments
  - 418 views
- Το DLSS έρχεται στον ανοιχτού κώδικα NVK Vulkan driver για Linux μέσω του Mesa 26.2
  
  By Newsbot, Ιούνιος 20
  - DLSS
  - Linux
  - (και 3 επιπλέον)
    
    Tagged with:
    
    DLSS
    
    Linux
    
    NVIDIA
    
    NVK
    
    Vulkan
  - 0 comments
  - 461 views
- NVIDIA GeForce Hotfix 595.76: Διορθώνει το voltage στις υπερχρονισμένες RTX 50
  
  By Newsbot, Ιούνιος 10
  - Driver
  - GeForce
  - (και 3 επιπλέον)
    
    Tagged with:
    
    Driver
    
    GeForce
    
    NVIDIA
    
    Overclocking
    
    RTX 50
  - 0 comments
  - 492 views
- NVIDIA και SK Hynix υπογράφουν πολυετή συμφωνία συν-ανάπτυξης μνήμης για AI
  
  By Newsbot, Ιούνιος 8
  - AI
  - HBM4
  - (και 3 επιπλέον)
    
    Tagged with:
    
    AI
    
    HBM4
    
    Memory
    
    NVIDIA
    
    SK Hynix
  - 1 comment
  - 529 views
- Το NVIDIA RTX Spark συνδυάζει Grace Arm CPU, Blackwell GPU και 128 GB μνήμης
  
  By Newsbot, Ιούνιος 1
  - Blackwell
  - NVIDIA
  - (και 3 επιπλέον)
    
    Tagged with:
    
    Blackwell
    
    NVIDIA
    
    RTX Spark
    
    SoC
    
    Windows on Arm
  - 0 comments
  - 561 views

Sign In

Η γεννήτρια εικόνων τεχνητής νοημοσύνης της Nvidia χωράει σε δισκέτα και χρειάζεται 4 λεπτά για να εκπαιδευτεί

User Feedback

Recommended Comments

Create an account or sign in to comment

Create an account

Sign in

Similar Content

Η εφαρμογή της NVIDIA δεν επηρεάζει τα FPS, αλλά τα φίλτρα «κοστίζουν» έως 10%

Το DLSS έρχεται στον ανοιχτού κώδικα NVK Vulkan driver για Linux μέσω του Mesa 26.2

NVIDIA GeForce Hotfix 595.76: Διορθώνει το voltage στις υπερχρονισμένες RTX 50

NVIDIA και SK Hynix υπογράφουν πολυετή συμφωνία συν-ανάπτυξης μνήμης για AI

Το NVIDIA RTX Spark συνδυάζει Grace Arm CPU, Blackwell GPU και 128 GB μνήμης

Αρχική

Blogs

Νέο Περιεχόμενο

Important Information

Sign In

Η γεννήτρια εικόνων τεχνητής νοημοσύνης της Nvidia χωράει σε δισκέτα και χρειάζεται 4 λεπτά για να εκπαιδευτεί

TheLab Weekly Digest

User Feedback

Recommended Comments

Create an account or sign in to comment

Create an account

Sign in

Similar Content

Important Information