La versión más reciente de TrulyHandsFree de Sensory, una suite de reconocimiento de voz multiplataforma para iOS y Android, cuenta con un consumo de energía drásticamente reducido.
¿Alguna vez te has preguntado cómo responden los teléfonos inteligentes como el Huawei Mate 9 a alexa amazona y Asistente de Google comandos ("Alexa", "OK, Google") incluso cuando la pantalla está apagada y bloqueada? Es gracias a un componente de hardware llamado DSP, o procesador de señal digital, un chip de audio dedicado que maneja la detección de frases siempre activas y de bajo consumo (y otras tareas). Es fundamental para la funcionalidad de los asistentes de voz populares. La empresa Sensory, con sede en Silicon Valley, dice que su alternativa basada en software, TrulyHandsfree, hace que los DSP compitan por su dinero.
TrulyHandsFree, que según la compañía es el motor de reconocimiento de voz "más utilizado" en el mundo, es una palabra de alerta y Suite de reconocimiento de voz diseñada para admitir el reconocimiento de voz de bajo consumo en aplicaciones de Android, iOS y otras plataformas. Sensory dice que el software ha sido "rediseñado" para aumentar la precisión, reducir el consumo de energía y ampliar la compatibilidad con el dispositivo.
"El funcionamiento con manos libres para el control por voz se ha convertido en la norma, y los desarrolladores de aplicaciones ahora buscan crear palabras de activación con manos libres para sus propias aplicaciones". dijo Todd Mozer, director ejecutivo de Sensory, en un comunicado.
El desarrollo del nuevo y mejorado TrulyHandsfree comenzó en 2017. Sensory se asoció con el fabricante de chips Qualcomm y ARM para descubrir cómo reducir el consumo de energía de las palabras de activación del asistente de voz. Implementó tres técnicas:
- La función "pequeña-grande" de escucha constante de Sensory utiliza un modelo de reconocimiento de voz pequeño para identificar posibles palabras de activación y revalidar esas palabras de activación en un modelo grande. No tiene requisitos de energía exigentes, pero es más preciso sin consumir un poco más de energía.
- El apilamiento de cuadros, un método de entrenamiento de redes neuronales que conduce a modelos más precisos y una decodificación más rápida, elimina ciertas palabras de activación MIPS (millones de instrucciones por segundo, una medida del rendimiento del procesamiento) de las funciones de procesamiento del modelo a la mitad sin afectar exactitud.
- El subproceso múltiple permite un procesamiento de reconocimiento de voz más eficiente y mejora el tiempo de ejecución para modelos de palabras de activación más grandes.
Sensory dice que en conjunto las mejoras reducen el consumo de energía en las aplicaciones móviles en más de un 80%, lo que equivale a 200 mAh en un día de 12 horas.
Si ha utilizado la última versión de la aplicación de navegación Waze, ya ha visto el nuevo TrulyHandsfree en acción. "Recientemente ayudamos a Waze de Google a aceptar comandos de voz de manos libres proporcionándoles la palabra de activación 'OK Waze' de Sensory que se ejecuta cuando la aplicación está abierta". dijo el señor Mozer. "Con las versiones anteriores de TrulyHandsfree, tener nuestro motor de palabras de activación siempre activo escuchando la palabra de activación de OK Waze durante un breve El viaje habría tenido un efecto mínimo en la batería de un teléfono inteligente, pero para viajes más largos, se deseaba algo más eficiente, por eso creamos él."
El último TrulyHandsfree viene con soporte para varios tipos de opciones de palabras de activación, incluidas palabras fijas y palabras de activación definidas por el usuario. Modelos de palabras de activación para Alexa, Siri, el Asistente de Google, Cortana de Microsoft y sistemas de Baidu, Alibaba y Tencent. Reconocimiento de palabras de activación múltiple y compatibilidad con varios idiomas, incluidos inglés, holandés, francés, italiano, japonés, español y turco.
Sensory dice que se implementará un SDK actualizado para Android e iOS antes de finales del segundo trimestre de 2018.