The Economist

「話す端末」で変る未来

　十分に発達した技術は魔法と見分けがつかない――。英国のＳＦ作家アーサー・クラークはこう指摘した。にわかに出現したコンビュトターの音声技術はこの指摘通りだ。まさに魔法をかける時のように空に向かって二言三言口にすれば、かたわらの端末が願いをかなえてくれる。

　自動応答スピーカー米世帯４％が所有

　米アマゾン・ドット・コムが開発した自動応答スピーカー「エコー」。「アレクサ」と呼びかければ反応する円筒状の卓上端末は、楽曲やラジオ局を呼び出し、冗談を言い、ちょっとした質問に答え、インターネットにつながった「スマート家電」を操作する。多くの人が買い物をするクリスマスの前ですら、すでに米国の約４％の世帯が持っていた。こうした音声アシスタント機能はスマートフォン（スマホ）でも急速に広がっている。米アップルの音声認識・応答サービス「シリ」は週２０億件以上の命令（コマンド）に対応する。米国では、米グーグルの基本ソフト「アンドロイド」搭載の携帯端末を使ったグーグル検索は２割が音声人力によるものだ。パソコンや携帯電話などのメールの入力も今や音声で十分だ。話せば用が足りるのに、わざわざ文字入力する必要がどこにあるだろう。

　これはものすごい変化だ。単純に見えるかもしれないが、音声による自然な対話ができればコンピューターの使い方が一変する可能性がある。これまでコンピューターに登場した窓やアイコン、メニュー画面、タッチパネルは、キーボードで複雑なコマンドを入力するより直感的に端末を操作できると歓迎された。ところが、コンピューターに直接話しかけられれば「ユーザーインターフェースをどうするか」といった抽象的なことを考える必要が全くなくなる。ちょうど携帯電話が電話線のない固定電話より重宝で、自動車が馬のない馬車よりすばらしいものだったように、画面とキーボードを備えていないコンピューターは、人々が考えている以上に便利で影響力を持つ可能性を秘めている。そして、至る所で目につくようになるかもしれない。

　音声が完全に他の出入力方法に取って代わることはないだろう。これからも文字入力の方が使い勝手がよい時があるはずだ（アマゾンはスクリーン付きのエコーを開発中といわれている）。しかし、あとどのくらいの工程が残っているかを教えてくれる洗濯機や、企業のコールセンターのバーチャルアシスタントなどのように、人々が身の回りの製品やサービスを使いこなすうえで、音声の出番がますます増えるのは自明だ。もっとも、音声技術が可能性を十分発揮するには一段のブレークスルー（技術の飛躍的進歩）が欠かせない。利便性とプライバシー保護の兼ね合いという厄介な問題を解決する必要もある。

　音声技術の普及に文脈の理解欠かせず

　コンピューターの音声操作システムはかなり前からあった。以前は信頼性を欠き、ユーザーの声を認識するのに長期間、教え込まなければならなかった。訓練なしにほぼすべての人の話を間違いなく認識できるようになったのは、ネット上の数百万の事例を使いソフトに学習させる人工知能（ＡＩ）技術である深層学習の最新効果だ。おかげでコンピューターは人間とほぼ同じくらい正確に転写ができるようになった。翻訳の精度も急速に高まり、文章の音声変換も不自然ではなくなった。つまり、あらゆる形で以前より自然な言語処理が可能になった。

　とはいえ、まだ言葉の意味は理解していない。これが最も難しく、音声技術を真に普及させるには克服しなければならない問題だ。「ねえ、シリ、タイマーを１０分セットして」といった単発の簡単な指示に応えるだけでなく、首尾一貫したわかりやすい会話を続けるには文脈の理解が欠かせない。まさにこの問題で、大学や企業の研究者たちは情報検索や住宅ローンに関する助言、旅行手配など、より込み入った業務で複雑な会話ができるポット（対話機能）の開発に取り組んでいる（アマゾンは２０分間、「明解に愛想よく」会話するポットが開発されれば１００万㌦＝約１億１７００万円＝の賞金を出すことにしている）。

　音声技術の発展を見据え、消費者や規制当局もやるべきことがある。現在の比較的粗削りな形の技術でさえジレンマがつきまとう。音声技術はユーザー好みに調整され、カレンダーやメールなど慎重な扱いが必要な情報に広くアクセスできるようになれば最も役に立つが、同時にプライバシー侵害や安全性の懸念も高まるからだ。

　　プライバシー巡り明確な規定必要

　問題を複雑にしているのは、そうした多くの端末がいつでも起動できるよう、常に周囲の音を「聞いて」いることだ。ネットにつながったマイクがどの部屋でも、どのスマホからも音を拾うことに対し、すでに懸念の声が上がっている。もちろん、すべての音がクラウドに送られるわけではない。端末は「アレクサ」とか「よし、グーグル」　「おい、コルタナ」　「ほら、シリ」など起動に必要な呼びかけを待って、実際に指示を処理するサーバーヘユーザーの声を伝送し始める。しかし、音声の保存に関していえば、誰が何をいつそうするのかがはっきりしない。

　米アーカンソー州で起きた殺人事件では、警察がアマゾンにエコーが何かを聞き取ったかもしれないと音声記録の提供を求めた。アマゾンはそうした要請の法的地位が定かではないと主張し、拒否している。これはアップルが２０１６年、テロリストのスマホ「ｉＰｈＯｎｅ」のロック解除で米連邦捜査局（ＦＢＩ）と対立した事例と似ている。どちらも社会の安全のためにはいつ、どんな形で個人のプライバシーに踏み込むことが許されるかを示す明確な規定が必要なことを示している。

　だが、たとえそうした問題が未解決のままでも、消費者は音声技術を取り入れるだろう。音声は多くの場面で、他のどんなコミュニケーション手段よりもはるかに便利で自然だ。運転や運動など他のことをしながらでも発することができるし、何らかの理由で画面やキーボードを操作できない人でもコンビューターが使えるようになる。さらに、言語の使われ方自体にも大きな影響を与える可能性がある。同時翻訳機能により、多くの人は外国語を話す必要がなくなるかもしれない。端末が話すことで、少数言語が廃れず生き残ることも考えられる。直近に登場したタッチパネルはコンピューターの操作方法を大きく変えた。音声技術が起こす変化はそれ以上に大きな意味を持つ。

（１月７日号）

もどる