ChatGPT wprowadziło dyktando głosowe, ale jest powód, dla którego tak naprawdę nigdy się to nie sprawdzi
Kluczowe dania na wynos
- OpenAI ogłosiło niedawno, że ChatGPT będzie mógł komunikować się z użytkownikami za pomocą głosu.
- Technologia dyktowania głosu ma wady, które utrudniają jej powszechne przyjęcie. Po co zajmować się długimi odpowiedziami asystentów głosowych, skoro możesz szybko znaleźć odpowiedzi samodzielnie?
- Prywatność jest również poważnym problemem w przypadku asystentów głosowych ze względu na brak bezpieczeństwa i ryzyko związane z mikrofonami, które zawsze podsłuchują.
- Ekskluzywne urządzenia sterowane głosem raczej nie staną się rzeczywistością ze względów praktycznych i preferencji użytkowników. Chociaż asystenci głosowi mogą być pomocnym dodatkiem, technologia rozumienia użytkowników osiągnęła już zadowalający poziom dokładności.
Wśród zamieszania w OpenAIfirma ogłosiła, że ChatGPT wkrótce będzie mogła komunikować się z użytkownikami za pomocą głosu na urządzeniach z Androidem i iOS. Użytkownik może nie tylko rozmawiać z ChatGPT, ale teraz otrzyma także odpowiedź dźwiękową. Choć na pozór jest to fajne, istnieje powód, dla którego dyktowanie głosu – technologia, która jest w większości dojrzała od wielu lat – tak naprawdę nie zyskała popularności. Jasne, prawie każdy większy ekosystem ma swoją własną wersję, od Amazon Alexa po Siri, ale technologia ma tak wiele wad, że nawet ChatGPT nie jest w stanie uczynić jej interesującą.
Nikt nie chce zajmować się preambułą
Po prostu daj mi odpowiedź!
Jedna z moich największych irytacji związanych z asystentami głosowymi wynika z zajmowania się preambułą zarówno rozpoczęcia rozmowy, jak i uzyskania odpowiedzi. Często sam mogę to szybciej sprawdzić, a kiedy mam zajęte ręce, najlepszym zastosowaniem tego rodzaju asystentów jest ustawianie liczników czasu, a nie odpowiadanie na wiadomości i pytania w Google. OpenAI udostępniło niedawno przykład rozmowy, którą możesz przeprowadzić z ChatGPT.
Choć technicznie imponujący, demonstracja jest nieco absurdalna. Po pierwsze, pytanie – ile 16-calowych pizzy zamówić – jest absurdalne. Rozumiem, że ma to na celu zademonstrowanie zdolności ChatGPT do radzenia sobie ze złożonymi rozmowami, ale nie tylko odpowiedź jest niepotrzebnie skomplikowana, ale także jej dostarczenie. Jeśli zadaję matematyczne pytanie dotyczące sztucznej inteligencji, chcę tylko odpowiedzi. Najpierw podaj mi numer, a potem wyjaśnij. Jeśli nie zależy mi na wyjaśnieniu, mogę po prostu anulować odtwarzanie.
Zmiana tego jednak nie wystarczy, ponieważ jest to coś, co może zrobić sztuczna inteligencja już Do. Być może kontekstowy charakter liczby kawałków pizzy i liczby osób wymaga tego od sztucznej inteligencji „badania”, ale jestem pewien, że w pewnym momencie tego typu funkcje zostaną udostępnione wszystkim innym asystentom głosowym AI, zbyt. Gdy to nastąpi, wracamy do punktu wyjścia, nawet gdy najlepsze Amazon Echo urządzenia mogą robić to, do czego dąży OpenAI, w zawrotnym tempie.
Jeśli korzystam ze smartfona, łatwo jest mi szybko wpisać i wyszukać coś. Mogę to zrobić gdziekolwiek, bez bycia słyszanym, a następnie mogę przeczytać odpowiedzi w wolnym czasie. Jeśli poproszę asystenta głosowego, aby coś dla mnie znalazł, jest duże prawdopodobieństwo, że sam tego poszukam po fakcie, aby zobaczyć, jakie są inne opcje. Asystenci głosowi są zbyt rozwlekli i zawsze tacy będą.
Prywatność jest również problemem na dwóch frontach
Nikt nie chce słyszeć, jak głupie są moje pytania
Jaki jest ostateczny cel asystenta głosowego? Nigdy nie zastąpią smartfonów (choć chcą tego firmy takie jak Humane) z kilku kluczowych powodów, z których najważniejszym jest prywatność. Logowanie się do usług, wysyłanie prywatnych wiadomości, a nawet wyszukiwanie w Google głupich pytań, do których używasz trybu incognito, tak naprawdę nie jest możliwe w trybie prywatnym za pomocą urządzenia głosowego.
W rezultacie poza bardzo niszowymi kontekstami do użytku prywatnego asystenci głosowi nigdy nie zastąpią smartfona ani urządzenia używanego prywatnie i nie sądzę, aby to kiedykolwiek miało się zmienić. Bez fundamentalnej zmiany w sposobie, w jaki ludzie postrzegają swoją prywatność i co chcą powiedzieć na głos, trudno będzie ich przekonać, że tak właśnie jest. chcieć aby przez cały czas używać głosu do obsługi swoich urządzeń.
Nie potrzebujemy, żeby te same doniesienia prasowe były czytane w 15 różnych miejscach lub jedna osoba wielokrotnie pytała, ile 16-calowych pizzy potrzeba dla 778 osób.
Wyobraź sobie świat, w którym zamiast wszyscy korzystać z telefonów w zatłoczonym metrze, korzystają z urządzenia zasilanego głosem. Wyobraź sobie, jak bardzo byłoby to gorączkowe, nie mówiąc już o głośnym. Twoje własne urządzenia miałyby problemy z rozpoznawaniem głosów, a zatłoczone metro teoretycznie tworzyłoby kakofonię hałasu. Metro jest wystarczająco złe. Nie trzeba czytać tych samych doniesień prasowych w 15 różnych miejscach ani pytać jednej osoby o to, ile 16-calowych pizz potrzeba dla 778 osób.
Wystarczająco trudno jest też przekonać ludzi, ponieważ urządzenia nie słuchają Cię 24 godziny na dobę, 7 dni w tygodniu, a ludzie już denerwują się, że mają w pobliżu mikrofony, które zawsze podsłuchują. W przypadku urządzeń, które można obsługiwać wyłącznie głosowo, będzie to trudne nie aby cały czas czuć się wysłuchanym.
Urządzenia obsługujące tylko głos to marzenie, które nigdy nie stanie się rzeczywistością
I nie przeszkadza mi to
źródło: humanitarne
Jestem entuzjastą technologii, ale uważam, że najlepiej będzie, jeśli przez długi czas urządzenia nie będą obsługiwane wyłącznie głosowo. Jest to prawie niemożliwe, aby tak było z powodów opisanych tutaj. Chociaż firmy takie jak Humane przesuwają granice, ostatecznie nie uda im się zdobyć żadnego rozsądnego rynku za pomocą urządzenia, którego głównym sposobem obsługi jest głos.
Asystenci głosowi na zawsze będą pomocnym dodatkiem do urządzeń, z których korzystamy na co dzień, ale technologia, która nas rozumie, jest już wystarczająco dobra już od dawna.