Гласовата работа на ChatGPT показва, че гласовите асистенти никога няма да заменят вашия смартфон

ChatGPT въведе гласова диктовка, но има причина, поради която никога няма да започне истински

Ключови изводи

OpenAI обяви наскоро, че ChatGPT ще може да взаимодейства с потребителите чрез глас.
Технологията за гласово диктуване има недостатъци, които възпрепятстват широкото й приемане. Защо да се занимавате с дългите отговори на гласовите асистенти, когато можете бързо да намерите отговори сами?
Поверителността също е основна грижа за гласовите асистенти поради липсата на сигурност и риска от постоянно слушащи микрофони.
Ексклузивните устройства с гласово управление е малко вероятно да станат реалност поради практически причини и потребителски предпочитания. Въпреки че гласовите асистенти могат да бъдат полезни допълнения, технологията за разбиране на потребителите вече е достигнала задоволително ниво на точност.

Насред сътресения в OpenAI, компанията обяви, че ChatGPT скоро ще може да взаимодейства с потребителите чрез техните гласове на Android и iOS. Потребителят не само може да говори с ChatGPT, но вече ще получи и звуков отговор. Въпреки че на пръв поглед това е готино, има причина гласовото диктовка, технология, която е предимно зряла от много години, да не е получила истински успех. Разбира се, почти всяка голяма екосистема има своя собствена версия, от Amazon Alexa до Siri, но технологията има толкова много недостатъци, че дори ChatGPT не може да я направи интересна.

Никой не иска да се занимава с преамбюла

Просто ми дайте отговора!

Едно от най-големите ми раздразнения с гласовите асистенти идва от справянето с преамбюла както на започване на разговора, така и на получаване на отговора. Често мога да го намеря по-бързо сам и във времена, когато ръцете ми са пълни, най-доброто приложение, което намирам за тези видове асистенти, е да настройвам таймери, да не отговарям на съобщения или да търся в гугъл въпроси. OpenAI наскоро сподели пример за разговор, който бихте могли да проведете с ChatGPT.

Въпреки че е технически впечатляваща, демонстрацията е малко нелепа. Първо, въпросът - колко 16-инчови пици да поръчате - е абсурден. Разбирам, че е там, за да демонстрира способността на ChatGPT да се справя със сложни разговори, но не само отговорът е излишно сложен, но и доставката също. Ако задавам математически въпрос на AI, просто искам отговора. Първо ми кажи номера и после го обясни. Ако не ми пука за обяснението, мога просто да отменя възпроизвеждането.

Превключването на това обаче не е достатъчно, защото това е нещо, което AI може вече направи. Може би контекстуалният характер на броя на парчетата пица и броя на хората изисква AI да „проучване“, но в един момент съм сигурен, че функции като тази ще се появят във всички други гласови асистенти с изкуствен интелект, също. След като това стане, ние се връщаме на изходна позиция, когато дори най-доброто Amazon Echo устройствата могат да направят това, към което OpenAI се движи с главоломна скорост.

Ако използвам своя смартфон, за мен е лесно бързо да пиша и да търся нещо. Мога да правя това навсякъде, без да бъда чут, и след това мога да чета отговорите в свободното си време. Ако помоля гласов асистент да намери нещо за мен, има вероятност да го потърся сам след факта, за да видя какви други опции има. Гласовите асистенти са твърде многословни и винаги ще бъдат.

Поверителността също е проблем на два фронта

Никой не иска да чуе колко глупави са въпросите ми

Каква е крайната цел на гласов асистент? Те никога няма да заменят смартфоните (колкото и компании като Humane да искат) поради няколко основни причини, най-важната от които е поверителността. Влизането в услугите, изпращането на лични съобщения или дори търсенето в гугъл на тези глупави, тъпи въпроси, за които използвате инкогнито режим, всъщност не е възможно да се направи лично с гласово базирано устройство.

В резултат на това, извън много нишови контексти за лична употреба, гласовите асистенти никога не могат да заменят смартфон или частно използвано устройство и не виждам това да се променя. Без фундаментална промяна в начина, по който хората гледат на собствената си поверителност и какво са готови да кажат на глас, е трудно да се убедят хората, че искам да използват гласа си, за да управляват устройствата си през цялото време.

Нямаме нужда един и същи новинарски репортаж да бъде прочетен на 15 различни места или един човек многократно да пита колко 16-инчови пици са им необходими за 778 души.

Представете си свят, в който вместо всички да използват телефоните си в претъпканото метро, те използват устройство с гласово управление. Представете си колко забързано би станало това, да не говорим за шумно. Вашите собствени устройства биха имали проблеми с разпознаването на гласове, а препълненото метро теоретично би представлявало какофония от шум. Метрото е достатъчно лошо. Не е необходимо един и същи новинарски репортаж да бъде прочетен на 15 различни места или един човек многократно да пита колко 16-инчови пици са му необходими за 778 души.

Също така е достатъчно трудно да убедите хората, тъй като е, че вашите устройства не ви слушат 24/7, но хората вече се притесняват да имат постоянно слушащи микрофони близо до тях. С устройства, които могат да се управляват само с глас, ще бъде трудно не да се чувствате изслушвани по всяко време.

Устройствата само за глас са мечта, която никога няма да стане реалност

И аз съм ОК с това

Източник: Humane

Аз съм технологичен ентусиаст, но мисля, че е за добро устройствата да не се управляват изключително с глас за дълго време. Почти невъзможно е това да е така поради причините, посочени тук. Докато компании като Humane разширяват границите, те в крайна сметка няма да успеят да уловят разумен пазар с устройство, което разчита на гласа като основен начин за управление.

Гласовите асистенти завинаги ще бъдат полезно допълнение към устройствата, които използваме ежедневно, но технологията, която ни разбира, е достатъчно добра от дълго време.