ChatGPT har introducerat röstdiktering, men det finns en anledning till att det aldrig kommer att ta fart
Viktiga takeaways
- OpenAI meddelade nyligen att ChatGPT kommer att kunna interagera med användare via röst.
- Röstdikteringsteknik har brister som har hindrat dess utbredda användning. Varför ta itu med de långa svaren från röstassistenter när du snabbt kan hitta svar själv?
- Sekretess är också ett stort bekymmer med röstassistenter på grund av bristen på säkerhet och risken för mikrofoner som alltid lyssnar.
- Exklusiva röststyrda enheter kommer sannolikt inte att bli verklighet på grund av praktiska skäl och användarpreferenser. Även om röstassistenter kan vara användbara tillägg, har tekniken för att förstå användare redan nått en tillfredsställande noggrannhetsnivå.
Mitt i turbulensen på OpenAI, meddelade företaget att ChatGPT snart skulle kunna interagera med användare via deras röster på Android och iOS. Inte bara kan en användare prata med ChatGPT, utan de kommer nu att få ett hörbart svar också. Även om det är coolt på ytan, finns det en anledning till att röstdikteringen, en teknik som mestadels har varit mogen i många år nu, inte riktigt har tagit fart. Visst, nästan alla större ekosystem har sin egen version, från Amazon Alexa till Siri, men tekniken har så många brister att inte ens ChatGPT kan göra det intressant.
Ingen vill ta itu med ingressen
Ge mig bara svaret!
Ett av mina största irritationsmoment med röstassistenter kommer från att ta itu med ingressen att både initiera samtalet och få svaret. Jag kan ofta leta upp det snabbare själv, och i tider när mina händer är fulla är den bästa användningen jag hittar för den här typen av assistenter för att ställa in timer, att inte svara på meddelanden eller googla frågor. OpenAI delade nyligen ett exempel på en konversation du kan ha med ChatGPT.
Även om den är tekniskt imponerande, är demonstrationen lite löjlig. För det första är frågan - om hur många 16-tumspizzor som ska beställas - absurd. Jag förstår att det är till för att visa ChatGPT: s förmåga att hantera komplexa konversationer, men svaret är inte bara onödigt komplicerat, utan leveransen är det också. Om jag ställer en matematisk fråga om en AI vill jag bara ha svaret. Säg numret först och förklara det sedan. Om jag inte bryr mig om förklaringen kan jag bara avbryta uppspelningen.
Det räcker dock inte att byta upp det, för det är något AI kan redan do. Kanske den kontextuella karaktären av antalet skivor pizza och antalet personer kräver att AI "forskning", men någon gång är jag säker på att sådana funktioner kommer att komma till alla andra AI-röstassistenter, för. När det väl gör det, är vi tillbaka till ruta ett när även den bästa Amazon Echo enheter kan göra vad OpenAI har gått mot i en rasande takt.
Om jag använder min smartphone är det lätt för mig att snabbt skriva och söka efter något. Jag kan göra det var som helst, utan att bli hörd, och jag kan sedan läsa igenom svaren när jag vill. Om jag ber en röstassistent att hitta något för mig, är chansen stor att jag söker efter det själv i efterhand för att se vilka andra alternativ som finns. Röstassistenter är för ordrika, och det kommer de alltid att vara.
Sekretess är också ett problem på två fronter
Ingen vill höra hur dumma mina frågor är
Vad är slutmålet för en röstassistent? De kommer aldrig att ersätta smartphones (så mycket som företag som Humane vill att de ska göra) av flera viktiga skäl, den viktigaste är integritet. Att logga in på tjänster, skicka privata meddelanden eller till och med googla de dumma, dumma frågorna du använder inkognitoläge för är inte riktigt möjligt att göra privat med en röstbaserad enhet.
Som ett resultat, utanför mycket nischade, privata sammanhang, kan röstassistenter aldrig ersätta en smartphone eller privatanvänd enhet, och jag ser inte att det någonsin förändras. Utan en grundläggande förändring i hur människor ser på sin egen integritet och vad de är villiga att säga högt, är det svårt att övertyga folk om att de vilja att använda sin röst för att styra sina enheter hela tiden.
Vi behöver inte läsa upp samma nyhetsrapport på 15 olika platser eller att en person upprepade gånger frågar om hur många 16-tumspizzor de behöver för 778 personer.
Föreställ dig en värld där de, istället för att alla använder sina telefoner på en fullsatt tunnelbana, använder en röstdriven enhet. Föreställ dig hur hektiskt det skulle bli, för att inte tala om högt. Dina egna enheter skulle ha problem med att urskilja röster, och en fullsatt tunnelbana skulle teoretiskt sett vara en kakofoni av brus. Tunnelbanan är illa nog. Det krävs inte att samma nyhetsrapport läses upp på 15 olika platser eller att en person upprepade gånger frågar om hur många 16-tumspizzor de behöver för 778 personer.
Det är också tillräckligt svårt att övertyga folk eftersom det är att dina enheter inte lyssnar på dig 24/7, men folk är redan förtvivlade över att ha mikrofoner som alltid lyssnar nära sig. Med enheter som bara kan röststyras blir det svårt inte att känna sig lyssnad på hela tiden.
Enheter med endast röst är en dröm som aldrig kommer att bli verklighet
Och jag är okej med det
Källa: Humane
Jag är en teknikentusiast, men jag tror att det är det bästa att enheter inte kommer att vara uteslutande röststyrda på länge. Det är nästan omöjligt att det är fallet av de skäl som beskrivs här. Medan företag som Humane pressar på kuvertet, kommer de i slutändan att misslyckas med att fånga någon rimlig marknad med en enhet som förlitar sig på röst som det huvudsakliga sättet att använda den.
Röstassistenter kommer för alltid att vara ett användbart tillskott till enheter som vi använder dagligen, men tekniken för att förstå oss har varit tillräckligt bra länge nu.