ChatGPT har introduceret stemmediktering, men der er en grund til, at det aldrig virkelig vil tage fart
Nøgle takeaways
- OpenAI annoncerede for nylig, at ChatGPT vil være i stand til at interagere med brugere via stemme.
- Stemmedikteringsteknologi har mangler, der har hindret dens udbredte anvendelse. Hvorfor beskæftige sig med de lange svar fra stemmeassistenter, når du selv hurtigt kan finde svar?
- Privatliv er også et stort problem med stemmeassistenter på grund af manglen på sikkerhed og risikoen for altid lyttende mikrofoner.
- Det er usandsynligt, at eksklusive stemmestyrede enheder bliver en realitet på grund af praktiske årsager og brugerpræferencer. Mens stemmeassistenter kan være nyttige tilføjelser, har teknologien til at forstå brugerne allerede nået et tilfredsstillende niveau af nøjagtighed.
Midt i uroen på OpenAI, annoncerede virksomheden, at ChatGPT snart ville være i stand til at interagere med brugere via deres stemmer på Android og iOS. Ikke kun kan en bruger tale til ChatGPT, men de vil nu også modtage et hørbart svar. Selvom det er fedt på overfladen, er der en grund til, at stemmediktering, en teknologi, der for det meste har været moden i mange år nu, ikke rigtig er kommet i gang. Sikker på, næsten alle større økosystemer har sin egen version, fra Amazon Alexa til Siri, men teknologien har så mange fejl, at ikke engang ChatGPT kan gøre det interessant.
Ingen ønsker at beskæftige sig med præamblen
Bare giv mig svaret!
En af mine største irritationsmomenter med stemmeassistenter kommer fra at beskæftige sig med præamblen om både at indlede samtalen og få svaret. Jeg kan ofte selv slå det hurtigere op, og i tider, hvor mine hænder er fulde, er den bedste brug for den slags assistenter til at indstille timere, ikke svare på beskeder eller google spørgsmål. OpenAI delte for nylig et eksempel på en samtale, du kunne have med ChatGPT.
Selvom den er teknisk imponerende, er demonstrationen en smule latterlig. For det første er spørgsmålet - om hvor mange 16-tommer pizzaer, der skal bestilles - absurd. Jeg forstår, at det er der for at demonstrere ChatGPTs evne til at håndtere komplekse samtaler, men ikke kun er svaret unødvendigt komplekst, men leveringen er det også. Hvis jeg stiller et matematisk spørgsmål til en AI, vil jeg bare have svaret. Fortæl mig først nummeret, og forklar det så. Hvis jeg er ligeglad med forklaringen, kan jeg bare annullere afspilningen.
Det er dog ikke nok at skifte det op, for det er noget AI kan allerede gør. Måske kræver den kontekstuelle karakter af antallet af skiver pizza og antallet af mennesker, at AI "forskning", men på et tidspunkt er jeg sikker på, at funktioner som det vil komme til alle andre AI-stemmeassistenter, også. Når det først sker, er vi tilbage til udgangspunktet, når selv bedste Amazon Echo enheder kan gøre, hvad OpenAI har bevæget sig hen imod i et hæsblæsende tempo.
Hvis jeg bruger min smartphone, er det nemt for mig hurtigt at skrive og søge efter noget. Det kan jeg gøre hvor som helst, uden at blive hørt, og jeg kan så læse svarene igennem i ro og mag. Hvis jeg beder en stemmeassistent om at finde noget til mig, er der stor sandsynlighed for, at jeg selv søger efter det for at se, hvilke andre muligheder der er. Stemmeassistenter er for ordrige, og det vil de altid være.
Privatliv er også en bekymring på to fronter
Ingen vil høre, hvor dumme mine spørgsmål er
Hvad er slutmålet med en stemmeassistent? De kommer aldrig til at erstatte smartphones (så meget som virksomheder som Humane vil have dem til) af flere nøgleårsager, hvoraf den vigtigste er privatlivets fred. At logge ind på tjenester, sende private beskeder eller endda google de dumme, dumme spørgsmål, du bruger inkognitotilstand til, er ikke rigtig muligt at gøre privat med en stemmebaseret enhed.
Som et resultat, uden for meget niche, privat brug sammenhænge, kan stemmeassistenter aldrig erstatte en smartphone eller privat brugt enhed, og jeg kan ikke se, at det nogensinde ændrer sig. Uden et grundlæggende skift i, hvordan folk ser på deres eget privatliv, og hvad de er villige til at sige højt, er det svært at overbevise folk om, at de vil have at bruge deres stemme til at betjene deres enheder hele tiden.
Vi har ikke brug for, at den samme nyhedsrapport bliver læst op 15 forskellige steder, eller at én person gentagne gange spørger om, hvor mange 16-tommer pizzaer de skal bruge til 778 personer.
Forestil dig en verden, hvor de, i stedet for at alle bruger deres telefoner i en tætpakket metro, bruger en stemmedrevet enhed. Forestil dig, hvor hektisk det ville blive, for ikke at nævne højt. Dine egne enheder ville have problemer med at skelne stemmer, og en fyldt metro ville teoretisk set være en kakofoni af støj. Metroen er dårlig nok. Det behøver ikke, at den samme nyhedsrapport bliver læst op 15 forskellige steder, eller at én person gentagne gange spørger om, hvor mange 16-tommer pizzaer de skal bruge til 778 personer.
Det er også svært nok at overbevise folk, da det er, at dine enheder ikke lytter til dig 24/7, men folk er allerede spændte på at have mikrofoner, der altid lytter, i nærheden af dem. Med enheder, der kun kan stemmestyres, vil det være svært ikke at føle sig lyttet til hele tiden.
Enheder med kun tale er en drøm, der aldrig bliver til virkelighed
Og det er jeg okay med
Kilde: Humane
Jeg er en teknologientusiast, men jeg tror, det er det bedste, at enheder ikke udelukkende bliver stemmebetjente i lang tid. Det er næsten umuligt at være tilfældet af de grunde, der er skitseret her. Mens virksomheder som Humane skubber på konvolutten, vil de i sidste ende undlade at fange et rimeligt marked med en enhed, der er afhængig af stemme som den vigtigste måde at betjene den på.
Stemmeassistenter vil for altid være en nyttig tilføjelse til enheder, som vi bruger dagligt, men teknologien til at forstå os har været god nok i lang tid nu.