O reconhecimento de Hotword sempre ouvindo sem consumo de energia poderá em breve chegar aos aplicativos Android com TrulyHandsfree

A mais nova versão do TrulyHandsFree da Sensory, um conjunto de reconhecimento de voz multiplataforma para iOS e Android, apresenta consumo de energia drasticamente reduzido.

Você já se perguntou como smartphones como o Huawei Mate 9 respondem a AmazonAlexa e Google Assistente comandos ("Alexa", "OK, Google") mesmo quando a tela está desligada e bloqueada? É graças a um componente de hardware chamado DSP, ou processador de sinal digital, um chip de áudio dedicado que lida com detecção de frase sempre ativa e de baixo consumo de energia (e outras tarefas). É fundamental para a funcionalidade dos assistentes de voz populares. A empresa Sensory, sediada no Vale do Silício, afirma que sua alternativa baseada em software, TrulyHandsfree, oferece aos DSPs uma corrida pelo seu dinheiro.

TrulyHandsFree, que a empresa afirma ser o mecanismo de reconhecimento de fala "mais amplamente implantado" no mundo, é um alerta e conjunto de reconhecimento de voz projetado para oferecer suporte ao reconhecimento de voz de baixo consumo de energia em aplicativos Android, iOS e outras plataformas. Sensory diz que o software foi “reprojetado” para maior precisão, menor consumo de energia e suporte expandido a dispositivos.

"A operação mãos-livres para controle de voz tornou-se a norma, e os desenvolvedores de aplicativos agora estão procurando criar palavras de ativação mãos-livres para seus próprios aplicativos", disse Todd Mozer, CEO da Sensory, em um comunicado.

O desenvolvimento do novo e aprimorado TrulyHandsfree começou em 2017. A Sensory se uniu à fabricante de chips Qualcomm e ARM para descobrir como reduzir o consumo de energia para palavras de ativação do assistente de voz. Implementou três técnicas:

O recurso de escuta constante "pequeno-grande" do Sensory usa um pequeno modelo de reconhecimento de voz para identificar possíveis palavras de ativação e revalidar essas palavras de ativação em um modelo grande. Não possui requisitos exigentes de energia, mas é mais preciso sem consumir um pouco mais de energia.
O empilhamento de quadros, um método de treinamento de rede neural que leva a modelos mais precisos e decodificação mais rápida, elimina certas palavras de ativação modelar o MIPS das funções de processamento (milhões de instruções por segundo, uma medida de desempenho de processamento) pela metade sem impactar precisão.
O multithreading permite um processamento de reconhecimento de fala mais eficiente e melhora o tempo de execução para modelos maiores de wake word.

Sensory afirma que juntas as melhorias reduzem o consumo de energia em aplicativos móveis em mais de 80%, o que equivale a 200mAh em um dia de 12 horas.

Se você usou a versão mais recente do aplicativo de navegação Waze, já viu o novo TrulyHandsfree em ação. “Recentemente, ajudamos o Waze do Google a aceitar comandos de voz com viva-voz, fornecendo-lhes a palavra de ativação ‘OK Waze’ do Sensory, que é executada quando o aplicativo é aberto”, disse o Sr. "Com as versões anteriores do TrulyHandsfree, ter nosso mecanismo de ativação sempre ativo ouvindo a palavra de ativação OK Waze durante um curto período de tempo viagem teria um efeito mínimo na bateria de um smartphone, mas para viagens mais longas, era desejável uma bateria mais eficiente - então criamos isto."

O TrulyHandsfree mais recente vem com suporte para vários tipos de opções de wake word, incluindo palavras fixas e wake word definidas pelo usuário. Modelos de wake word para Alexa, Siri, Google Assistant, Cortana da Microsoft e sistemas de Baidu, Alibaba e Tencent. Reconhecimento de palavras múltiplas e suporte para vários idiomas, incluindo inglês, holandês, francês, italiano, japonês, espanhol e turco.

Sensory diz que um SDK atualizado para Android e iOS será lançado antes do final do segundo trimestre de 2018.