A ChatGPT hangművelete azt mutatja, hogy a hangasszisztensek soha nem fogják helyettesíteni az okostelefont

A ChatGPT bevezette a hangos diktálást, de megvan az oka annak, hogy ez soha nem fog igazán beindulni

Kulcs elvitelek

Az OpenAI nemrégiben jelentette be, hogy a ChatGPT képes lesz a felhasználókkal hangon keresztül kommunikálni.
A hangdiktálási technológiának vannak olyan hibái, amelyek hátráltatják széles körű elterjedését. Miért foglalkozz a hangasszisztensek hosszadalmas válaszaival, ha magad is gyorsan megtalálod a válaszokat?
A biztonság hiánya és a mindig hallgató mikrofonok kockázata miatt a hangasszisztensek esetében is komoly gondot jelent az adatvédelem.
Az exkluzív hangvezérlésű eszközök gyakorlati okok és felhasználói preferenciák miatt nem valószínű, hogy valósággá válnak. Bár a hangos asszisztensek hasznos kiegészítések lehetnek, a felhasználók megértését szolgáló technológia már elérte a kielégítő pontossági szintet.

Az OpenAI zűrzavara közepette, a cég bejelentette, hogy a ChatGPT hamarosan képes lesz kommunikálni a felhasználókkal az Android és iOS rendszeren. A felhasználó nem csak beszélhet a ChatGPT-vel, hanem hallható választ is kap. Noha ez a felszínen menő, megvan az oka annak, hogy a hangdiktálás, ez a technológia, amely többnyire már sok éve kiforrott, nem igazán terjedt el. Persze szinte minden nagyobb ökoszisztémának megvan a maga verziója, az Amazon Alexától a Siriig, de a technológiának annyi hibája van, hogy még a ChatGPT sem tudja érdekessé tenni.

Senki nem akar a preambulumával foglalkozni

Csak add meg a választ!

Az egyik legnagyobb bosszúságom a hangasszisztensekkel kapcsolatban abból fakad, hogy mind a beszélgetés kezdeményezésének, mind a válasz megszerzésének preambulumával foglalkozom. Gyakran magam is gyorsabban utána tudok nézni, és amikor tele van a kezem, az ilyen típusú asszisztenseket az időzítők beállítására találom a legjobban, nem válaszolok üzenetekre vagy guglizok. Az OpenAI nemrég megosztott egy példát a ChatGPT-vel folytatott beszélgetésre.

Bár technikailag lenyűgöző, a bemutató kissé nevetséges. Először is, a kérdés – hogy hány 16 hüvelykes pizzát kell rendelni – abszurd. Megértem, hogy ez azért van, hogy bemutassa a ChatGPT azon képességét, hogy képes kezelni az összetett beszélgetéseket, de nemcsak a válasz szükségtelenül bonyolult, hanem a kézbesítés is. Ha matematikai kérdést teszek fel egy mesterséges intelligenciával kapcsolatban, akkor csak a választ akarom. Először mondja meg a számot, majd magyarázza el. Ha nem érdekel a magyarázat, egyszerűen megszakíthatom a lejátszást.

Ennek megváltoztatása azonban nem elég, mert az AI képes erre már csináld. Talán a pizzaszeletek számának és az emberek számának kontextuális jellege megkívánja az AI-t "kutatás", de biztos vagyok benne, hogy valamikor az ehhez hasonló funkciók minden más AI hangsegédhez is eljutnak majd, is. Ha ez megtörtént, visszatérünk az elsőhöz, amikor még a legjobb Amazon Echo Az eszközök rohamosan képesek megtenni azt, ami felé az OpenAI halad.

Ha okostelefonomat használom, könnyen tudok gyorsan begépelni és keresni valamit. Ezt bárhol megtehetem, anélkül, hogy meghallanának, majd szabadidőmben végigolvashatom a válaszokat. Ha megkérek egy hangos asszisztenst, hogy találjon nekem valamit, nagy eséllyel magam keresem utána, hogy megnézzem, milyen más lehetőségek vannak. A hangasszisztensek túl bőbeszédűek, és mindig is azok lesznek.

Az adatvédelem két szempontból is aggodalomra ad okot

Senki sem akarja hallani, milyen ostobák a kérdéseim

Mi a hangasszisztens végső célja? Soha nem fogják leváltani az okostelefonokat (amennyire az olyan cégek, mint a Humane szeretnék), több kulcsfontosságú ok miatt, amelyek közül a legfontosabb az adatvédelem. A szolgáltatásokba való bejelentkezés, privát üzenetek küldése vagy akár az inkognitómódot használó buta, buta kérdések guglizása nem igazán lehetséges privát módon hangalapú eszközzel.

Ennek eredményeként a nagyon szűk körű, magánhasználatú kontextusokon kívül a hangasszisztensek soha nem helyettesíthetik az okostelefont vagy a magáncélú eszközt, és nem látom, hogy ez valaha is változna. Ha nincs alapvető változás abban, hogy az emberek hogyan tekintenek saját magánéletükre és mit hajlandóak hangosan kimondani, nehéz meggyőzni az embereket arról, hogy akar hogy hangjukat használhassák a készülékeik folyamatos működtetésére.

Nincs szükségünk arra, hogy ugyanazt a hírt 15 különböző helyen olvassák fel, vagy hogy egy ember ismételten megkérdezze, hány 16 hüvelykes pizzára van szüksége 778 embernek.

Képzelj el egy olyan világot, ahol ahelyett, hogy mindenki a telefonját használná a zsúfolásig megtelt metrón, hangmeghajtású eszközt használ. Képzeld el, milyen hektikus lesz ez, nem is beszélve a hangoskodásról. A saját eszközeidnek gondot okoznának a hangok megkülönböztetése, a tömött metró pedig elméletileg a zaj kakofóniája lenne. A metró elég rossz. Nem szükséges, hogy ugyanazt a híradást 15 különböző helyen olvassák fel, vagy hogy egy ember ismételten megkérdezze, hány 16 hüvelykes pizzára van szüksége 778 embernek.

Az is elég nehéz meggyőzni az embereket, hogy az eszközei nem hallgatnak rád a hét minden napján, 24 órában, de az emberek már most azon idegeskednek, hogy mindig hallgató mikrofonok vannak a közelükben. A csak hanggal működtethető eszközökkel nehéz lesz nem hogy mindig hallgatva érezze magát.

A csak hangot biztosító eszközök egy álom, amely soha nem válik valósággá

És ezzel rendben vagyok

Forrás: Humane

A technológia szerelmese vagyok, de úgy gondolom, hogy az a legjobb, hogy az eszközök sokáig nem lesznek kizárólag hangvezérlésűek. Az itt felvázolt okok miatt szinte lehetetlen, hogy ez így legyen. Míg az olyan vállalatok, mint a Humane, szorgalmazzák a borítékot, végül nem sikerül egyetlen ésszerű piacot sem megragadniuk egy olyan eszközzel, amely a hangra támaszkodik, mint működésének fő módja.

A hangsegédek örökké hasznos kiegészítői lesznek a naponta használt eszközöknek, de a technológia megértéséhez már régóta elég jó.