ChatGPT zavedl hlasové diktování, ale existuje důvod, proč se nikdy skutečně nerozjede
Klíčové věci
- OpenAI nedávno oznámila, že ChatGPT bude moci komunikovat s uživateli prostřednictvím hlasu.
- Technologie hlasového diktování má nedostatky, které brání jejímu širokému přijetí. Proč se zabývat zdlouhavými odpověďmi hlasových asistentů, když si odpovědi můžete rychle najít sami?
- Soukromí je také hlavním problémem u hlasových asistentů kvůli nedostatečnému zabezpečení a riziku neustále poslouchající mikrofony.
- Exkluzivní hlasově ovládaná zařízení se z praktických důvodů a uživatelských preferencí pravděpodobně nestanou realitou. Zatímco hlasoví asistenti mohou být užitečnými doplňky, technologie pro porozumění uživatelům již dosáhla uspokojivé úrovně přesnosti.
Uprostřed nepokojů na OpenAI, společnost oznámila, že ChatGPT bude brzy moci komunikovat s uživateli prostřednictvím jejich hlasů na Androidu a iOS. Nejen, že může uživatel mluvit s ChatGPT, ale nyní také obdrží slyšitelnou odpověď. I když je to na povrchu skvělé, existuje důvod, proč se hlasové diktování, technologie, která je již mnoho let z velké části vyspělá, skutečně neprosadilo. Jistě, téměř každý hlavní ekosystém má svou vlastní verzi, od Amazon Alexa po Siri, ale tato technologie má tolik nedostatků, že ani ChatGPT ji nedokáže udělat zajímavou.
Nikdo se nechce zabývat preambulí
Jen mi dejte odpověď!
Jedna z mých největších nepříjemností s hlasovými asistenty pochází z toho, že se zabývám preambulí zahájení konverzace a získáním odpovědi. Sám to často dokážu vyhledat rychleji a v dobách, kdy mám plné ruce práce, je pro tyto druhy asistentů nejlepší využití pro nastavení časovačů, neodpovídání na zprávy nebo googlování otázek. OpenAI nedávno sdílela příklad konverzace, kterou byste mohli vést s ChatGPT.
I když je ukázka technicky působivá, je trochu směšná. Za prvé, otázka - kolik 16palcových pizz na objednávku - je absurdní. Chápu, že je to tam, aby demonstrovalo schopnost ChatGPT vypořádat se se složitými konverzacemi, ale nejen, že odpověď je zbytečně složitá, ale také doručení. Pokud se ptám AI na matematickou otázku, chci jen odpověď. Nejdřív mi řekni číslo a pak to vysvětli. Pokud mi na vysvětlení nezáleží, můžu prostě zrušit přehrávání.
Přepnout to však nestačí, protože to je něco, co umělá inteligence dokáže již dělat. Možná to vyžaduje kontextová povaha počtu plátků pizzy a počtu lidí „výzkum“, ale jsem si jistý, že v určitém okamžiku se funkce jako tato dostanou do všech ostatních hlasových asistentů AI, také. Jakmile se to stane, jsme zpět na začátku, když dokonce nejlepší Amazon Echo zařízení dokážou to, k čemu se OpenAI ubírá závratným tempem.
Pokud používám svůj smartphone, je pro mě snadné rychle něco napsat a vyhledat. Můžu to udělat kdekoli, aniž bych byl slyšen, a pak si mohu odpovědi číst ve svém volném čase. Pokud požádám hlasového asistenta, aby mi něco našel, je pravděpodobné, že to budu hledat sám, abych zjistil, jaké jsou další možnosti. Hlasoví asistenti jsou příliš upovídaní a vždy budou.
Soukromí je také problémem, a to na dvou frontách
Nikdo nechce slyšet, jak hloupé jsou mé otázky
Jaký je konečný cíl hlasového asistenta? Nikdy nenahradí chytré telefony (jak to společnosti jako Humane chtějí) z několika klíčových důvodů, z nichž nejdůležitější je soukromí. Přihlašování do služeb, odesílání soukromých zpráv nebo dokonce googlování těch hloupých, hloupých otázek, pro které používáte režim inkognito, není ve skutečnosti možné soukromě pomocí hlasového zařízení.
Výsledkem je, že mimo velmi úzce vymezené kontexty pro soukromé použití hlasoví asistenti nikdy nemohou nahradit chytrý telefon nebo soukromě používaná zařízení a nevidím, že by se to někdy změnilo. Bez zásadního posunu v tom, jak lidé nahlížejí na své soukromí a co jsou ochotni říkat nahlas, je těžké přesvědčit lidi, že chtít používat svůj hlas k ovládání svých zařízení po celou dobu.
Nepotřebujeme, aby se stejná zpráva četla na 15 různých místech, nebo aby se jeden člověk opakovaně ptal, kolik 16palcových pizz potřebuje pro 778 lidí.
Představte si svět, kde místo toho, aby všichni používali své telefony v přeplněném metru, používají hlasové zařízení. Představte si, jak hektické by to bylo, nemluvě o tom, že je to hlasité. Vaše vlastní zařízení by měla problém rozeznat hlasy a přeplněné metro by teoreticky bylo kakofonií hluku. Metro je dost špatné. Nepotřebuje, aby se stejná zpráva četla na 15 různých místech, nebo aby se jeden člověk opakovaně zeptal, kolik 16palcových pizz potřebuje pro 778 lidí.
Je také dost těžké přesvědčit lidi, protože je to tak, že vaše zařízení vás neposlouchají 24 hodin denně, 7 dní v týdnu, ale lidé už mají obavy z toho, že mají blízko sebe neustále poslouchající mikrofony. Se zařízeními, která lze ovládat pouze hlasem, to bude těžké ne cítit se vždy poslouchán.
Zařízení pouze pro hlas jsou snem, který se nikdy nestane skutečností
A jsem s tím v pohodě
Zdroj: Humane
Jsem technologický nadšenec, ale myslím si, že nejlepší bude, když zařízení ještě dlouho nebudou ovládána výhradně hlasem. Z důvodů zde uvedených je téměř nemožné, aby tomu tak bylo. I když společnosti jako Humane tlačí na obálku, nakonec se jim nepodaří obsadit žádný rozumný trh se zařízením, které spoléhá na hlas jako hlavní způsob ovládání.
Hlasoví asistenti budou navždy užitečným doplňkem zařízení, která používáme denně, ale technologie, která nám porozumí, je již dlouhou dobu dostatečně dobrá.