A operação de voz do ChatGPT mostra que os assistentes de voz nunca substituirão o seu smartphone

ChatGPT introduziu o ditado de voz, mas há uma razão pela qual ele nunca decolará de verdade

Principais conclusões

A OpenAI anunciou recentemente que o ChatGPT poderá interagir com os usuários por voz.
A tecnologia de ditado de voz tem falhas que dificultaram sua adoção generalizada. Por que lidar com as respostas demoradas dos assistentes de voz quando você mesmo pode encontrar as respostas rapidamente?
A privacidade também é uma grande preocupação com os assistentes de voz devido à falta de segurança e ao risco de microfones sempre ouvindo.
É improvável que dispositivos exclusivos operados por voz se tornem realidade devido a razões práticas e preferências do usuário. Embora os assistentes de voz possam ser acréscimos úteis, a tecnologia para entender os usuários já atingiu um nível satisfatório de precisão.

Em meio à turbulência na OpenAI, a empresa anunciou que o ChatGPT em breve poderá interagir com os usuários por meio de suas vozes no Android e iOS. Um usuário não apenas pode falar com o ChatGPT, mas também receberá uma resposta sonora. Embora isso seja legal superficialmente, há uma razão pela qual o ditado de voz, uma tecnologia que está madura há muitos anos, ainda não decolou. Claro, quase todos os principais ecossistemas têm sua própria versão, do Amazon Alexa ao Siri, mas a tecnologia tem tantas falhas que nem mesmo o ChatGPT consegue torná-la interessante.

Ninguém quer lidar com o preâmbulo

Apenas me dê a resposta!

Um dos meus maiores aborrecimentos com os assistentes de voz vem de lidar com o preâmbulo de iniciar a conversa e obter a resposta. Muitas vezes consigo pesquisar mais rapidamente e, em momentos em que estou com as mãos ocupadas, o melhor uso que encontro para esses tipos de assistentes é definir cronômetros, não responder a mensagens ou pesquisar perguntas no Google. A OpenAI compartilhou recentemente um exemplo de conversa que você poderia ter com o ChatGPT.

Embora tecnicamente impressionante, a demonstração é um pouco ridícula. Em primeiro lugar, a questão – quantas pizzas de 16 polegadas pedir – é absurda. Entendo que existe para demonstrar a capacidade do ChatGPT de lidar com conversas complexas, mas não apenas a resposta é desnecessariamente complexa, mas a entrega também o é. Se estou fazendo uma pergunta matemática sobre uma IA, só quero a resposta. Diga-me o número primeiro e depois explique-o. Se eu não me importar com a explicação, posso simplesmente cancelar a reprodução.

Mudar isso não é suficiente, porque isso é algo que a IA pode já fazer. Talvez a natureza contextual do número de fatias de pizza e do número de pessoas exija que a IA "pesquisa", mas em algum momento, tenho certeza de que recursos como esse chegarão a todos os outros assistentes de voz de IA, também. Quando isso acontecer, estaremos de volta à estaca zero, quando até mesmo o melhor Amazon Echo os dispositivos podem fazer o que a OpenAI vem realizando em um ritmo alucinante.

Se estou usando meu smartphone, é fácil digitar e pesquisar algo rapidamente. Posso fazer isso em qualquer lugar, sem ser ouvido, e então posso ler as respostas quando quiser. Se eu pedir a um assistente de voz para encontrar algo para mim, é provável que eu mesmo procure depois do fato para ver quais outras opções existem. Os assistentes de voz são muito prolixos e sempre serão.

A privacidade também é uma preocupação em duas frentes

Ninguém quer ouvir o quão estúpidas são minhas perguntas

Qual é o objetivo final de um assistente de voz? Eles nunca substituirão os smartphones (por mais que empresas como a Humane queiram) por vários motivos principais, sendo o mais importante a privacidade. Fazer login em serviços, enviar mensagens privadas ou até mesmo pesquisar no Google aquelas perguntas bobas e idiotas para as quais você usa o modo de navegação anônima não é realmente possível de fazer em particular com um dispositivo baseado em voz.

Como resultado, fora de contextos de uso privado e de nicho, os assistentes de voz nunca poderão substituir um smartphone ou dispositivo de uso privado, e não vejo isso mudando. Sem uma mudança fundamental na forma como as pessoas veem a sua própria privacidade e o que estão dispostas a dizer em voz alta, é difícil convencer as pessoas de que querer usar a voz para operar seus dispositivos o tempo todo.

Não precisamos que a mesma notícia seja lida em 15 lugares diferentes ou que uma pessoa pergunte repetidamente quantas pizzas de 16 polegadas são necessárias para 778 pessoas.

Imagine um mundo onde, em vez de todos usarem seus telefones em um metrô lotado, eles usem um dispositivo alimentado por voz. Imagine como isso seria agitado, para não dizer barulhento. Seus próprios dispositivos teriam dificuldade em discernir vozes, e um metrô lotado seria, teoricamente, uma cacofonia de ruídos. O metrô já é ruim o suficiente. Não é necessário que a mesma notícia seja lida em 15 lugares diferentes ou que uma pessoa pergunte repetidamente quantas pizzas de 16 polegadas são necessárias para 778 pessoas.

Também é difícil convencer as pessoas de que seus dispositivos não estão ouvindo você 24 horas por dia, 7 dias por semana, mas as pessoas já estão preocupadas em ter microfones sempre ouvindo perto delas. Com dispositivos que só podem ser operados por voz, será difícil não sentir-se ouvido em todos os momentos.

Dispositivos somente de voz são um sonho que nunca se tornará realidade

E eu estou bem com isso

Fonte: Humano

Sou um entusiasta da tecnologia, mas acho que é melhor que os dispositivos não sejam operados exclusivamente por voz por muito tempo. É quase impossível que isso aconteça pelas razões descritas aqui. Embora empresas como a Humane estejam inovando, elas acabarão por não conseguir capturar qualquer mercado razoável com um dispositivo que depende da voz como principal forma de operá-lo.

Os assistentes de voz serão para sempre uma adição útil aos dispositivos que usamos diariamente, mas a tecnologia para nos entender já é boa o suficiente há muito tempo.