Το Whisper του OpenAI είναι το πιο ακριβές εργαλείο αναγνώρισης ομιλίας AI που έχουμε δοκιμάσει μέχρι στιγμής

Το Whisper του OpenAI θα μεταγράψει οτιδήποτε για εσάς με ευκολία και είναι το καλύτερο εργαλείο μεταγραφής που έχω συναντήσει μέχρι στιγμής.

Υπάρχουν μερικοί τρόποι για να μεταγράψετε μια συνέντευξη ή ένα βίντεο. Θα μπορούσατε να το κάνετε με το χέρι απλά ακούγοντας, κάτι που θα σας δώσει την καλύτερη ακρίβεια, αλλά διαρκεί πολύ περισσότερο, ή θα μπορούσατε να χρησιμοποιήσετε μια υπηρεσία ή ένα εργαλείο. Για παράδειγμα, χρησιμοποιούσα το YouTube, το άφηνα να δημιουργεί αυτόματα υπότιτλους, να αποθηκεύει αυτούς τους υπότιτλους και να τους επεξεργάζεται για να διορθώνει όλα τα προβλήματα. Τώρα, υπάρχουν διάφορα εργαλεία τεχνητής νοημοσύνης που μπορούν να κάνουν εξαιρετική δουλειά και ένα τέτοιο εργαλείο είναι το Whisper του OpenAI.

Για να δείξω πόσο καλά λειτουργεί το εργαλείο, μετέγραψα το πιο πρόσφατο τηλεοπτικό βίντεο XDA. Όπως μπορείτε να δείτε παρακάτω, θα μεταγράψει και θα σημάνει χρονικές ενότητες, οι οποίες μπορούν εύκολα να χρησιμοποιηθούν ως υπότιτλοι σε πλατφόρμες όπως το YouTube. Λειτουργεί γρήγορα, επίσης. Το χρησιμοποίησα στο M1 MacBook Pro για να μεταγράψω ένα βίντεο διάρκειας 10 λεπτών σε λίγο περισσότερο από πεντέμισι λεπτά.

Αυτό το εργαλείο αλλάζει το παιχνίδι για δημιουργούς περιεχομένου που πρέπει να δημιουργήσουν υπότιτλους, άτομα που πρέπει να μεταγράψουν συνεντεύξεις ή που θέλουν απλώς να μετατρέψουν οποιοδήποτε είδος ήχου σε κείμενο. Βρήκα την ακρίβειά του απίστευτη, και πρόσφατα, μετέγραψα μια συνέντευξη 25 λεπτών, όπου ούτε ένα πράγμα δεν μεταγράφηκε λανθασμένα. Το Whisper μπορεί επίσης να μεταφράσει γλώσσες σε μεταγραμμένο ήχο.

Τι είναι το Whisper;

Το Whisper είναι ένα αυτόματο σύστημα αναγνώρισης ομιλίας που επιδεικνύει απίστευτη ακρίβεια στην κατανόηση των προφορικών λέξεων. Κατασκευάστηκε από την OpenAI, πιθανώς για χρήση σε συστήματα όπως ChatGPT, όπου μπορείτε τώρα συνομιλία με ένα AI, αλλά η εταιρεία χρησιμοποίησε επίσης το Whisper ανοιχτού κώδικα, ώστε να μπορεί να το χρησιμοποιήσει και η κοινότητα.

Ο τρόπος λειτουργίας του είναι αρκετά προηγμένος και περιλαμβάνει εκπαίδευση σε 680.000 ώρες εποπτευόμενων δεδομένων που συλλέγονται από το Διαδίκτυο, το ένα τρίτο των οποίων δεν ήταν στα αγγλικά. Ο ήχος χωρίζεται σε κομμάτια 30 δευτερολέπτων, μετατρέπεται και στη συνέχεια περνά σε κωδικοποιητή και ένας αποκωδικοποιητής που έχει εκπαιδευτεί θα προσπαθήσει να προβλέψει την αντίστοιχη λεζάντα κειμένου. Άλλα βήματα λαμβάνουν χώρα και εδώ, αλλά είναι αρκετά τεχνικά και περιλαμβάνουν αναγνώριση της γλώσσας που ομιλείται, πολυγλωσσική μεταγραφή ομιλίας και μετάφραση στα αγγλικά.

Όσο για το πώς συγκρίνεται με άλλα εργαλεία, το OpenAI λέει ότι το Whisper κάνει έως και 50% λιγότερα λάθη από άλλα μοντέλα γλώσσας, και το πιστεύω. Έχω χρησιμοποιήσει πολλά εργαλεία όλα αυτά τα χρόνια για να προσπαθήσω να μεταγράψω τον ήχο και τίποτα δεν ήταν τόσο ακριβές όσο το Whisper για μένα. Όπως ανέφερα, μετέγραψα μια συνέντευξη 25 λεπτών που βγήκε άψογα, με την οποία σχεδόν κάθε εργαλείο παλεύει.

Το ένα πράγμα ιδιαίτερα ενδιαφέρον για το Whisper είναι ότι δεν είναι ένα εργαλείο που απευθύνεται σε τελικούς χρήστες αλλά μάλλον σε προγραμματιστές και ερευνητές. Η OpenAI είπε ότι ο λόγος για την ανοιχτή χρήση των μοντέλων και του κώδικα ήταν να «χρησιμοποιηθεί ως βάση για τη δημιουργία χρήσιμων εφαρμογών και για περαιτέρω έρευνα σχετικά με την ισχυρή επεξεργασία ομιλίας." Μπορείτε ακόμα να το ρυθμίσετε και να το χρησιμοποιήσετε, αλλά δεν είναι πραγματικά καταναλωτικό προϊόν Ακόμη.

Υπάρχουν πολλά μοντέλα που μπορείτε να χρησιμοποιήσετε κατά τη μεταγραφή ήχου και υπάρχουν διαφορετικές απαιτήσεις vRAM για το καθένα. Το μεγαλύτερο μοντέλο απαιτεί 10 GB vRAM, αν και είναι και το πιο ακριβές. Υπάρχουν επίσης μοντέλα μόνο στα Αγγλικά για το καθένα, εκτός από το μεγαλύτερο μοντέλο, το οποίο θα μειώσει τις απαιτήσεις vRAM, εάν γνωρίζετε ότι το περιεχόμενο που μεταγράφετε είναι μόνο στα Αγγλικά. Σε κάθε περίπτωση, θα χρειαστείτε ένα καλή GPU με αρκετή vRAM για να τεθεί σε λειτουργία.

Πώς να χρησιμοποιήσετε το Whisper του OpenAI

Το Whisper from OpenAI είναι ένα εργαλείο ανοιχτού κώδικα που μπορείτε να εκτελέσετε τοπικά πολύ εύκολα ακολουθώντας μερικά σεμινάρια. Εάν διαθέτετε MacBook, υπάρχουν μερικά πιο περίπλοκα βήματα για να λειτουργήσει, αλλά δεν είναι πολύ κακό, καθώς βασικά θα χρειαστεί απλώς να μεταγλωττίσετε ένα Έκδοση C++ του Whisper από την πηγή μόνοι σας. Δεν είναι επίσημη θύρα, αλλά είναι ο μόνος τρόπος για να το κάνετε να τρέχει εγγενώς σε πυρίτιο της Apple. Μπορείς ακολουθήστε αυτό το σεμινάριο στο Medium για το πώς να το κάνετε αυτό.

Μπορείτε επίσης να το εκτελέσετε απλώς στο Google Collab, αν και είναι πιο αργό, ή μπορείτε να το εκτελέσετε τοπικά εάν έχετε x86 μηχανή. Απλώς πρέπει να βεβαιωθείτε ότι έχετε εγκαταστήσει το ffmpeg και μπορείτε να κλωνοποιήσετε το αποθετήριο Git στο οποίο βρίσκεται το Whisper και να το εκτελέσετε. Απλώς ακολουθήστε τις οδηγίες στο Αποθετήριο Whisper Git, και θα μπορείτε να ρυθμίσετε το Whisper σε ελάχιστο χρόνο. Όσο πιο ισχυρό είναι το υλικό σας, τόσο το καλύτερο, φυσικά, αλλά θα τρέχει βασικά σε οτιδήποτε διαθέτει αρκετή vRAM, απλώς χρειάζεται περισσότερος χρόνος εάν ο υπολογιστής σας είναι πιο αργός.