ChatGPT の音声操作は、音声アシスタントがスマートフォンに取って代わることは決してないことを示しています

ChatGPT は音声ディクテーションを導入しましたが、実際に普及しないのには理由があります

重要なポイント

OpenAI は最近、ChatGPT が音声経由でユーザーと対話できるようになると発表しました。
音声ディクテーション技術には、広く普及するのを妨げる欠陥があります。自分ですぐに答えを見つけられるのに、なぜ音声アシスタントの長い応答に対処する必要があるのでしょうか?
セキュリティの欠如と常にマイクを聞くリスクがあるため、音声アシスタントではプライバシーも大きな懸念事項となります。
実用的な理由とユーザーの好みにより、専用の音声操作デバイスが現実になる可能性は低いです。音声アシスタントは便利な追加機能ですが、ユーザーを理解するテクノロジーはすでに十分な精度に達しています。

OpenAIの混乱のさなか、同社は、ChatGPT が間もなく Android および iOS 上で音声を介してユーザーと対話できるようになると発表しました。ユーザーは ChatGPT に話しかけるだけでなく、音声による応答も受け取ることができます。それは表面的には素晴らしいことですが、音声ディクテーションというテクノロジーは、長年にわたってほぼ成熟してきたのに、実際には普及していないのには理由があります。確かに、Amazon Alexa から Siri に至るまで、ほぼすべての主要なエコシステムには独自のバージョンがありますが、この技術には非常に多くの欠陥があり、ChatGPT ですらそれを面白くすることはできません。

誰も前文に関わりたくない

答えだけ教えてください！

音声アシスタントに対する私の最大の煩わしさの 1 つは、会話を開始するときと答えを得るときの前文に対処することにあります。自分ですばやく検索できることもよくありますが、両手がふさがっているときにこの種のアシスタントを使用するのに最適なのは、メッセージに応答したり、グーグルで質問したりするためではなく、タイマーを設定するためです。 OpenAI は最近、ChatGPT で行うことができる会話の例を共有しました。

技術的には印象的ですが、デモンストレーションは少しばかげています。まず、16 インチのピザを何枚注文するかという質問はばかげています。 ChatGPT が複雑な会話を処理できることを示すためにあることは理解していますが、答えが不必要に複雑であるだけでなく、配信も複雑です。 AI に対して数学的な質問をしている場合、私はただ答えが欲しいだけです。まず番号を教えてから説明してください。説明が気にならなければ、再生をキャンセルすれば大丈夫です。

ただし、それを切り替えるだけでは十分ではありません。それは AI ができることだからです すでに する。おそらく、ピザのスライスの数と人数のコンテキストの性質により、AI は次のことを行う必要があります。「研究」ですが、いつかはそのような機能が他のすべての AI 音声アシスタントにも搭載されるでしょう。あまりにも。そうなると、最高のアマゾンエコー OpenAI が猛烈なペースで進めていることを、デバイスは実行できるのです。

スマートフォンを使用している場合は、何かをすばやく入力して検索するのが簡単です。どこでも、誰にも聞かれずに回答を読むことができます。音声アシスタントに何かを見つけてもらうように頼んだ場合、他にどのようなオプションがあるのかを確認するために、事後的に自分で検索する可能性があります。音声アシスタントは冗長すぎますし、これからもそうでしょう。

プライバシーも 2 つの面で懸念されています

私の質問がどれほど愚かであるかを誰も聞きたくない

音声アシスタントの最終目標は何ですか? いくつかの重要な理由から、彼らがスマートフォンに取って代わることは決してありません（Humaneのような企業が望んでいるほど）。最も重要なのはプライバシーです。サービスにログインしたり、プライベートメッセージを送信したり、シークレットモードを使用してグーグルで愚かで愚かな質問をしたりすることさえ、音声ベースのデバイスを使用してプライベートに行うことは実際には不可能です。

その結果、非常にニッチな個人使用の状況を除けば、音声アシスタントがスマートフォンや個人使用のデバイスに代わることは決してできず、それが今後も変わることはないと思います。人々が自分自身のプライバシーに対する見方や、大声で言いたいことを根本的に変えなければ、人々に次のことを納得させるのは困難です。 欲しい いつでも音声を使ってデバイスを操作できます。

同じニュースレポートを 15 の異なる場所で読み上げたり、1 人が 778 人分に必要な 16 インチのピザの枚数について繰り返し尋ねたりする必要はありません。

満員の地下鉄で誰もが携帯電話を使用する代わりに、音声で動作するデバイスを使用する世界を想像してみてください。騒音は言うまでもなく、どれほど多忙になるか想像してみてください。自分のデバイスでは音声を聞き分けるのが難しく、満員の地下鉄では理論的には騒音が聞こえてきます。地下鉄でも十分ダメですよ。同じニュースレポートを 15 の異なる場所で読み上げたり、1 人が 778 人分に必要な 16 インチのピザの枚数を繰り返し尋ねたりする必要はありません。

また、デバイスが 24 時間 365 日あなたの声を聞いているわけではないことを人々に納得させるのは十分に困難ですが、人々はすでに、常に聞いているマイクが近くにあることに不安を感じています。音声操作しかできない端末では難しいないいつでも話を聞いてもらっていると感じられるように。

音声専用デバイスは決して現実にはならない夢です

それで私は大丈夫です

出典: 人道的

私はテクノロジー愛好家ですが、デバイスが長期間にわたって音声のみで操作されることがないのが最善であると考えています。ここで概説した理由により、そのようなことはほぼ不可能です。 Humane のような企業は限界に挑戦していますが、主な操作方法として音声に依存するデバイスでは、最終的には妥当な市場を獲得することはできません。

音声アシスタントは、私たちが毎日使用するデバイスに追加される便利な機能であり続けるでしょうが、私たちを理解するためのテクノロジーは長い間十分に機能していました。