ChatGPT har introdusert stemmediktering, men det er en grunn til at det aldri virkelig vil ta av
Viktige takeaways
- OpenAI kunngjorde nylig at ChatGPT vil kunne samhandle med brukere via stemme.
- Stemmedikteringsteknologi har mangler som har hindret dens utbredte bruk. Hvorfor takle de lange svarene fra stemmeassistenter når du raskt kan finne svar selv?
- Personvern er også en stor bekymring for stemmeassistenter på grunn av mangelen på sikkerhet og risikoen for mikrofoner som alltid lytter.
- Eksklusive stemmestyrte enheter blir neppe en realitet på grunn av praktiske årsaker og brukerpreferanser. Mens stemmeassistenter kan være nyttige tillegg, har teknologien for å forstå brukere allerede nådd et tilfredsstillende nivå av nøyaktighet.
Midt i uroen på OpenAI, kunngjorde selskapet at ChatGPT snart ville være i stand til å samhandle med brukere via stemmene deres på Android og iOS. Ikke bare kan en bruker snakke med ChatGPT, men de vil nå motta et hørbart svar også. Selv om det er kult på overflaten, er det en grunn til at stemmediktering, en teknologi som stort sett har vært moden i mange år nå, ikke har tatt helt av. Jada, nesten alle store økosystemer har sin egen versjon, fra Amazon Alexa til Siri, men teknologien har så mange feil at ikke engang ChatGPT kan gjøre det interessant.
Ingen ønsker å forholde seg til ingressen
Bare gi meg svaret!
En av mine største irritasjonsmomenter med stemmeassistenter kommer fra å håndtere ingressen til både å starte samtalen og få svaret. Jeg kan ofte slå det opp raskere selv, og i tider når hendene mine er fulle, er den beste bruken jeg finner for denne typen assistenter for å stille inn tidtakere, ikke svare på meldinger eller google spørsmål. OpenAI delte nylig et eksempel på en samtale du kan ha med ChatGPT.
Selv om den er teknisk imponerende, er demonstrasjonen litt latterlig. For det første er spørsmålet - om hvor mange 16-tommers pizzaer å bestille - absurd. Jeg forstår at det er der for å demonstrere ChatGPTs evne til å håndtere komplekse samtaler, men ikke bare er svaret unødvendig komplekst, men leveringen er det også. Hvis jeg stiller et matematisk spørsmål om en AI, vil jeg bare ha svaret. Fortell meg nummeret først, og forklar det så. Hvis jeg ikke bryr meg om forklaringen, kan jeg bare avbryte avspillingen.
Å bytte det opp er imidlertid ikke nok, fordi det er noe AI kan allerede gjøre. Kanskje den kontekstuelle naturen til antall skiver pizza og antall personer krever at AI "forskning", men på et tidspunkt er jeg sikker på at slike funksjoner vil komme til alle andre AI-stemmeassistenter, også. Når det gjør det, er vi tilbake til utgangspunktet når selv beste Amazon Echo enheter kan gjøre det OpenAI har beveget seg mot i et forrykende tempo.
Hvis jeg bruker smarttelefonen min, er det enkelt for meg å raskt skrive og søke etter noe. Jeg kan gjøre det hvor som helst, uten å bli hørt, og jeg kan da lese gjennom svarene når jeg har lyst. Hvis jeg spør en stemmeassistent om å finne noe for meg, er sjansen stor for at jeg søker etter det selv etterpå for å se hvilke andre alternativer som finnes. Stemmeassistenter er for ordrike, og det vil de alltid være.
Personvern er også en bekymring på to fronter
Ingen vil høre hvor dumme spørsmålene mine er
Hva er sluttmålet for en stemmeassistent? De kommer aldri til å erstatte smarttelefoner (så mye som selskaper som Humane vil ha dem til) av flere viktige årsaker, den viktigste er personvern. Å logge på tjenester, sende private meldinger eller til og med google de dumme, dumme spørsmålene du bruker inkognitomodus til, er egentlig ikke mulig å gjøre privat med en stemmebasert enhet.
Som et resultat, utenfor svært nisje-kontekster for privat bruk, kan stemmeassistenter aldri erstatte en smarttelefon eller privatbrukt enhet, og jeg ser aldri at det endrer seg. Uten et grunnleggende skifte i hvordan folk ser på sitt eget privatliv og hva de er villige til å si høyt, er det vanskelig å overbevise folk om at de ønsker å bruke stemmen sin til å betjene enhetene sine hele tiden.
Vi trenger ikke at den samme nyhetsrapporten leses opp 15 forskjellige steder eller at én person gjentatte ganger spør om hvor mange 16-tommers pizzaer de trenger til 778 personer.
Se for deg en verden hvor de bruker en stemmedrevet enhet i stedet for at alle bruker telefonene sine på en fullsatt T-bane. Tenk deg hvor hektisk det ville bli, for ikke å si høyt. Dine egne enheter ville ha problemer med å finne stemmer, og en fullsatt T-bane ville teoretisk sett være en kakofoni av støy. T-banen er ille nok. Den trenger ikke at den samme nyhetsrapporten leses opp 15 forskjellige steder eller at én person gjentatte ganger spør om hvor mange 16-tommers pizzaer de trenger til 778 personer.
Det er også vanskelig nok å overbevise folk som det er at enhetene dine ikke lytter til deg 24/7, men folk er allerede urolige for å ha mikrofoner som alltid lytter i nærheten. Med enheter som kun kan stemmestyres, vil det være vanskelig ikke å føle seg lyttet til til enhver tid.
Enheter med kun tale er en drøm som aldri vil bli en realitet
Og jeg er ok med det
Kilde: Humane
Jeg er en teknologientusiast, men jeg tror det er det beste at enheter ikke utelukkende kommer til å være stemmestyrte på lang tid. Det er nesten umulig for det å være tilfelle av grunnene som er skissert her. Mens selskaper som Humane presser på, vil de til slutt ikke klare å fange et rimelig marked med en enhet som er avhengig av stemme som den viktigste måten å betjene den på.
Taleassistenter vil for alltid være et nyttig tillegg til enheter som vi bruker daglig, men teknologien for å forstå oss har vært god nok i lang tid nå.