Η νέα αναβάθμιση του ChatGPT σπάει επιτέλους το φράγμα του κειμένου
Η φωνητική συνομιλία λειτουργεί ως ακουστική συνομιλία μεταξύ του χρήστη και του ChatGPT. Πατάτε το κουμπί και λέτε την ερώτησή σας. Αφού επεξεργαστεί τις πληροφορίες, το chatbot σας δίνει μια απάντηση σε ακουστική ομιλία αντί σε κείμενο. Η διαδικασία είναι παρόμοια με τη χρήση εικονικών βοηθών όπως η Alexa ή ο Google Assistant και θα μπορούσε να αποτελέσει το προοίμιο για μια πλήρη ανανέωση των εικονικών βοηθών στο σύνολό τους. Η ανακοίνωση του OpenAI έρχεται λίγες ημέρες μετά την αποκάλυψη της Amazon ότι ένα παρόμοιο χαρακτηριστικό έρχεται στην Alexa.
Για να υλοποιήσει τη φωνητική και ηχητική επικοινωνία με το ChatGPT, η OpenAI χρησιμοποιεί ένα νέο μοντέλο μετατροπής κειμένου σε ομιλία, το οποίο είναι σε θέση να παράγει "ήχο που μοιάζει με ανθρώπινο από ένα απλό κείμενο και μερικά δευτερόλεπτα δείγματος ομιλίας". Επιπλέον, το μοντέλο Whisper μπορεί να "μεταγράψει τα προφορικά σας λόγια σε κείμενο".
Η OpenAI λέει ότι έχει επίγνωση των ζητημάτων που θα μπορούσαν να προκύψουν λόγω της δύναμης που κρύβεται πίσω από αυτό το χαρακτηριστικό, όπως, "η δυνατότητα κακόβουλων φορέων να υποδυθούν δημόσια πρόσωπα ή να διαπράξουν απάτη".
Αυτός είναι ένας από τους κύριους λόγους για τους οποίους η εταιρεία σχεδιάζει να περιορίσει τη χρήση των νέων χαρακτηριστικών της σε "συγκεκριμένες περιπτώσεις χρήσης και συνεργασίες". Ακόμη και όταν τα χαρακτηριστικά θα είναι ευρύτερα διαθέσιμα, θα είναι προσβάσιμα κυρίως σε πιο προνομιούχους χρήστες, όπως οι προγραμματιστές.
Η λειτουργία εικόνας σας επιτρέπει να καταγράψετε μια εικόνα και να την εισαγάγετε στο ChatGPT μαζί με την ερώτηση ή την προτροπή σας. Μπορείτε να χρησιμοποιήσετε το εργαλείο σχεδίασης με την εφαρμογή για να διευκρινίσετε την απάντησή σας και να έχετε μια συνομιλία με το chatbot μέχρι να επιλυθεί το θέμα σας. Αυτό είναι παρόμοιο με τη νέα λειτουργία Copilot της Microsoft στα Windows, η οποία βασίζεται στο μοντέλο του OpenAI.
Η OpenAI έχει επίσης αναγνωρίσει τις προκλήσεις του ChatGPT, όπως το συνεχιζόμενο πρόβλημα των "ψευδαισθήσεων". Κατά την ευθυγράμμιση με το χαρακτηριστικό εικόνας, η μάρκα αποφάσισε να περιορίσει ορισμένες λειτουργίες, όπως η "ικανότητα του chatbot να αναλύει και να κάνει άμεσες δηλώσεις για τους ανθρώπους".
Όταν το GPT-4 κυκλοφόρησε για πρώτη φορά τον Μάρτιο, η OpenAI ανακοίνωσε διάφορες συνεργασίες με επιχειρήσεις, όπως η Duolingo, η οποία χρησιμοποίησε το μοντέλο τεχνητής νοημοσύνης για να βελτιώσει την ακρίβεια των μαθημάτων που βασίζονται στην ακρόαση και την ομιλία στην εφαρμογή εκμάθησης γλωσσών. Η OpenAI συνεργάστηκε με το Spotify για τη μετάφραση podcasts σε άλλες γλώσσες, διατηρώντας παράλληλα τον ήχο της φωνής του podcaster. Η εταιρεία μίλησε επίσης για το έργο της με την εφαρμογή για κινητά, Be My Eyes, η οποία λειτουργεί για να βοηθήσει τυφλούς και άτομα με χαμηλή όραση. Πολλές από αυτές τις εφαρμογές και υπηρεσίες ήταν διαθέσιμες πριν από την ενημέρωση εικόνων και φωνής.
7141
