Stále poslouchající rozpoznávání klíčových slov bez spotřeby energie může brzy přijít do aplikací pro Android s TrulyHandsfree

click fraud protection

Nejnovější verze Sensory TrulyHandsFree, multiplatformní sady pro rozpoznávání hlasu pro iOS a Android, se může pochlubit dramaticky sníženou spotřebou energie.

Přemýšleli jste někdy nad tím, jak chytré telefony, jako je Huawei Mate 9, reagují Amazon Alexa a Google Assistant příkazy ("Alexa", "OK, Google") i když je obrazovka vypnutá a zamčená? Je to díky hardwarové komponentě zvané DSP neboli digitální signálový procesor, vyhrazenému audio čipu, který zvládá nízkou spotřebu, vždy zapnutou detekci frází (a další úkoly). Je to jádro funkcí populárních hlasových asistentů. Společnost Sensory se sídlem v Silicon Valley říká, že její softwarová alternativa, TrulyHandsfree, dává DSP za své peníze.

TrulyHandsFree, o kterém společnost tvrdí, že je „nejrozšířenějším“ enginem pro rozpoznávání řeči na světě, je probuzení a sada pro rozpoznávání řeči navržená tak, aby podporovala rozpoznávání hlasu s nízkou spotřebou v aplikacích pro Android, iOS a další platformy. Sensory říká, že software byl „přepracován“ pro vyšší přesnost, nižší spotřebu energie a rozšířenou podporu zařízení.

„Hands-free ovládání pro hlasové ovládání se stalo normou a vývojáři aplikací nyní hledají způsob, jak pro své vlastní aplikace vytvořit hands-free probouzecí slova,“ řekl Todd Mozer, generální ředitel společnosti Sensory, v prohlášení.

Vývoj nového a vylepšeného TrulyHandsfree začal v roce 2017. Společnost Sensory se spojila s výrobcem čipů Qualcomm a ARM, aby zjistili, jak snížit spotřebu energie pro probuzení hlasového asistenta. Implementoval tři techniky:

  • Funkce „malý-velký“ vždy poslouchá od Sensory používá malý model rozpoznávání hlasu k identifikaci potenciálních slov probuzení a opětovné ověření těchto slov probuzení na velkém modelu. Nemá náročné požadavky na napájení, ale je přesnější, aniž by spotřeboval trochu více energie.
  • Frame stacking, metoda trénování neuronové sítě, která vede k přesnějším modelům a rychlejšímu dekódování, omezuje určité probuzení MIPS funkcí zpracování modelu (milion instrukcí za sekundu, měřítko výkonu zpracování) na polovinu bez dopadu přesnost.
  • Vícevláknové zpracování umožňuje efektivnější zpracování rozpoznávání řeči a zkracuje dobu provádění u větších modelů probuzených slov.

Sensory říká, že tato vylepšení společně snižují spotřebu energie u mobilních aplikací o více než 80 %, což odpovídá 200 mAh za 12 hodin denně.

Pokud jste používali nejnovější verzi navigační aplikace Waze, už jste viděli nové TrulyHandsfree v akci. „Nedávno jsme pomohli Waze od Googlu přijímat hlasové povely handsfree tím, že jsme jim poskytli budicí slovo „OK Waze“ společnosti Sensory, které se spustí, když je aplikace otevřená,“ řekl pan Mozer. „S předchozími verzemi TrulyHandsfree, kdy náš neustále zapnutý nástroj pro probouzení slov naslouchá na slovo OK Waze během krátkého výlet by měl minimální vliv na baterii smartphonu, ale pro delší cesty bylo požadováno efektivnější – proto jsme vytvořili to."

Nejnovější TrulyHandsfree se dodává s podporou několika typů možností probuzení, včetně pevných slov a uživatelem definovaných slov pro probuzení. Wake word modely pro Alexa, Siri, Google Assistant, Cortana od Microsoftu a systémy od Baidu, Alibaba a Tencent. Rozpoznávání slov při probuzení a podpora pro více jazyků včetně angličtiny, holandštiny, francouzštiny, italštiny, japonštiny, španělštiny a turečtiny.

Sensory říká, že aktualizovaná sada SDK pro Android a iOS bude spuštěna do konce druhého čtvrtletí 2018.