ChatGPT je predstavil glasovno narekovanje, vendar obstaja razlog, zakaj ne bo nikoli zares zaživel
Ključni zaključki
- OpenAI je pred kratkim objavil, da bo ChatGPT lahko komuniciral z uporabniki prek glasu.
- Tehnologija glasovnega narekovanja ima pomanjkljivosti, ki ovirajo njeno široko uporabo. Zakaj bi se ukvarjali z dolgimi odgovori glasovnih pomočnikov, če pa lahko odgovore hitro najdete sami?
- Zasebnost je tudi velika skrb pri glasovnih pomočnikih zaradi pomanjkanja varnosti in tveganja mikrofonov, ki vedno poslušajo.
- Ekskluzivne naprave z glasovnim upravljanjem verjetno ne bodo postale resničnost zaradi praktičnih razlogov in uporabniških preferenc. Čeprav so glasovni pomočniki lahko koristni dodatki, je tehnologija za razumevanje uporabnikov že dosegla zadovoljivo raven natančnosti.
Sredi pretresov v OpenAI, je podjetje napovedalo, da bo ChatGPT kmalu lahko komuniciral z uporabniki prek njihovih glasov v sistemih Android in iOS. Ne samo, da lahko uporabnik govori s ChatGPT, ampak bo zdaj prejel tudi zvočni odgovor. Čeprav je to na videz kul, obstaja razlog, da glasovno narekovanje, tehnologija, ki je večinoma zrela že vrsto let, še ni zares zaživela. Seveda ima skoraj vsak večji ekosistem svojo različico, od Amazon Alexa do Sirija, vendar ima tehnologija toliko pomanjkljivosti, da je niti ChatGPT ne more narediti zanimivo.
Nihče se noče ukvarjati s preambulo
Samo daj mi odgovor!
Ena mojih največjih motenj pri glasovnih pomočnikih izvira iz preambule tako začetka pogovora kot prejemanja odgovora. Pogosto lahko sam hitreje poiščem in v časih, ko imam polne roke dela, se mi zdi najboljša uporaba tovrstnih pomočnikov nastavljanje časovnikov, neodgovarjanje na sporočila ali googlanje vprašanj. OpenAI je nedavno delil primer pogovora, ki bi ga lahko imeli s ChatGPT.
Čeprav je tehnično impresivna, je predstavitev malce smešna. Prvič, vprašanje - koliko 16-palčnih pic naročiti - je absurdno. Razumem, da je tu zato, da pokaže sposobnost ChatGPT za obvladovanje zapletenih pogovorov, vendar ni le odgovor po nepotrebnem zapleten, ampak tudi dostava. Če postavljam matematično vprašanje AI, želim le odgovor. Najprej mi povej številko, potem pa razloži. Če me razlaga ne zanima, lahko preprosto prekličem predvajanje.
Vendar zamenjava tega ni dovolj, ker je to nekaj, kar lahko umetna inteligenca že narediti. Morda kontekstualna narava števila rezin pice in števila ljudi zahteva, da AI "raziskave", toda na neki točki sem prepričan, da bodo takšne funkcije prišle na vse druge glasovne pomočnike z umetno inteligenco, preveč. Ko se to zgodi, smo spet na začetku, ko celo najboljši Amazon Echo naprave lahko naredijo tisto, h čemur se OpenAI premika z vrtoglavo hitrostjo.
Če uporabljam svoj pametni telefon, mi je enostavno nekaj hitro tipkati in iskati. To lahko počnem kjer koli, ne da bi me slišali, nato pa lahko v prostem času prebiram odgovore. Če prosim glasovnega pomočnika, da najde nekaj zame, je velika verjetnost, da to poiščem sam, da vidim, katere druge možnosti so na voljo. Glasovni pomočniki so preveč besedni in vedno bodo.
Zasebnost je tudi skrb na dveh straneh
Nihče noče slišati, kako neumna so moja vprašanja
Kaj je končni cilj glasovnega pomočnika? Nikoli ne bodo zamenjali pametnih telefonov (čeprav si podjetja, kot je Humane, to želijo) iz več ključnih razlogov, najpomembnejši pa je zasebnost. Prijave v storitve, pošiljanja zasebnih sporočil ali celo googlanja tistih neumnih, neumnih vprašanj, za katera uporabljate način brez beleženja zgodovine, v resnici ni mogoče narediti zasebno z glasovno napravo.
Posledično zunaj zelo nišnih kontekstov zasebne uporabe glasovni pomočniki nikoli ne morejo nadomestiti pametnega telefona ali naprave za zasebno uporabo in ne vidim, da bi se to kdaj spremenilo. Brez temeljne spremembe v tem, kako ljudje gledajo na lastno zasebnost in kaj so pripravljeni povedati na glas, je ljudi težko prepričati, da želim da ves čas uporabljajo svoj glas za upravljanje svojih naprav.
Ne potrebujemo, da bi isto novico prebrali na 15 različnih mestih ali da ena oseba vedno znova sprašuje, koliko 16-palčnih pic potrebuje za 778 ljudi.
Predstavljajte si svet, kjer namesto, da bi vsi uporabljali svoje telefone na nabito polni podzemni, uporabljajo napravo z glasovnim napajanjem. Predstavljajte si, kako razburkano bi to postalo, da ne omenjam glasnega. Vaše lastne naprave bi imele težave z razločevanjem glasov, polna podzemna železnica pa bi teoretično predstavljala kakofonijo hrupa. Podzemna je dovolj slaba. Ni potrebno, da bi isto novico prebrali na 15 različnih mestih ali da ena oseba večkrat sprašuje, koliko 16-palčnih pic potrebuje za 778 ljudi.
Prav tako je ljudi dovolj težko prepričati, saj vas vaše naprave ne poslušajo 24 ur na dan, 7 dni v tednu, ampak ljudje že jezijo, da bi imeli v svoji bližini mikrofone, ki vedno poslušajo. Z napravami, ki jih je mogoče upravljati samo z glasom, bo težko ne da se vedno počutijo poslušane.
Samo glasovne naprave so sanje, ki ne bodo nikoli postale resničnost
In s tem sem v redu
Vir: Humano
Sem tehnološki navdušenec, vendar mislim, da je najboljše, da naprave še dolgo ne bodo izključno glasovno upravljane. Zaradi tukaj opisanih razlogov je skoraj nemogoče, da bi bilo tako. Medtem ko si podjetja, kot je Humane, močno prizadevajo, jim na koncu ne bo uspelo zajeti nobenega razumnega trga z napravo, ki se opira na glas kot glavni način upravljanja.
Glasovni pomočniki bodo za vedno koristen dodatek napravam, ki jih uporabljamo vsak dan, vendar je tehnologija, ki nas razume, že dolgo dovolj dobra.