Το Tacotron 2 της Alphabet's Text-to-Speech Engine ακούγεται σχεδόν αδιάκριτο από τον άνθρωπο

Το ερευνητικό εργαστήριο τεχνητής νοημοσύνης της Alphabet ανέπτυξε το Tacotron 2, ένα σύστημα μετατροπής κειμένου σε ομιλία που παράγει ήχο που δεν διακρίνεται από τον άνθρωπο.

Η θυγατρική της Alphabet, DeepMind, αναπτύχθηκε WaveNet, ένα νευρωνικό δίκτυο που τροφοδοτεί τη σύνθεση ομιλίας του Βοηθού Google, τον Οκτώβριο. Είναι ικανό για καλύτερα και πιο ρεαλιστικά δείγματα ήχου από τα προηγούμενα του γίγαντα αναζήτησης σύστημα μετατροπής κειμένου σε ομιλία, και επιπλέον, παράγει ακατέργαστο ήχο -- όχι συνδυασμένους ήχους από ηθοποιοί φωνής. Τώρα, οι ερευνητές της Alphabet ανέπτυξαν μια νέα έκδοση, το Tacotron 2, που χρησιμοποιεί πολλαπλά νευρωνικά δίκτυα για να παράγει ομιλία σχεδόν αδιάκριτη από έναν άνθρωπο.

Εδώ είναι ένα δείγμα. Το πρώτο δημιουργήθηκε χρησιμοποιώντας το Tacotron 2 και το δεύτερο είναι ένας φωνητικός ηθοποιός:

[ήχος wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gen.wav"][/audio]

[ήχος wav=" https://static1.xdaimages.com/wordpress/wp-content/uploads/2017/12/washington_gt.wav"][/audio]

Το Tacotron 2 αποτελείται από δύο βαθιά νευρωνικά δίκτυα. Όπως το περιγράφει η ερευνητική εργασία που δημοσιεύτηκε αυτόν τον μήνα, η πρώτη μεταφράζει το κείμενο σε φασματόγραμμα, μια οπτική αναπαράσταση ενός φάσματος ακουστικών συχνοτήτων. Το δεύτερο -- DeepMind's WaveNet -- ερμηνεύει το γράφημα και δημιουργεί αντίστοιχα στοιχεία ήχου. Το αποτέλεσμα είναι μια μηχανή από άκρο σε άκρο που μπορεί να τονίσει λέξεις, να προφέρει σωστά τα ονόματα, να πάρει συντακτικά ενδείξεις (δηλαδή, τονίζουν λέξεις που έχουν πλάγια ή κεφαλαία) και αλλάζουν τον τρόπο που εκφέρεται με βάση σημεία στίξης.

Δεν είναι σαφές εάν το Tacotron 2 θα φτάσει σε υπηρεσίες που αντιμετωπίζουν οι χρήστες, όπως το Google Assistant, αλλά θα ήταν ισότιμο για την πορεία. Λίγο μετά τη δημοσίευση της έρευνας WaveNet της DeepMind, η Google κυκλοφόρησε το μηχάνημα αναγνώριση ομιλίας με υποστήριξη εκμάθησης σε πολλές γλώσσες σε smartphone με Βοηθό, ηχεία, και ταμπλέτες.

Υπάρχει μόνο ένα πρόβλημα: Αυτή τη στιγμή, το σύστημα Tacotron 2 είναι εκπαιδευμένο να μιμείται μια γυναικεία φωνή. Για να δημιουργήσει νέες φωνές και μοτίβα ομιλίας, η Google θα πρέπει να εκπαιδεύσει ξανά το σύστημα.

Τακότρον 2