音声認識とは

音声認識とは、人間の声をコンピュータに認識させ、話した内容を文章に変換する技術である。音声認識の技術は、約60年ほどまえから研究が始められている。日本では1990年代から商品化が進められていたが、まだ認証の精度に関しては、使用者の満足のいくものではなかった。2000年代に入り、後述する機械学習アルゴリズムの進化にともない認識精度も向上し、テレビなど音声入力手段として本格的に普及が始まった。

音声認識の方法の一例として、統計的モデルを利用し、入力した音声を統計的モデルに当てはめて最尤の結果になる語の並びを見つけ出すという方法がある。別の言い方をすれば、入力音声信号に対して「最もそれっぽい文字列」を求めるというやり方である。この方法で使われる統計モデルには、音響モデルと言語モデルがある（それぞれの詳細は後述する）。研究目的で使われる音声認識のOSSであるJuliusは、機械学習済みの音響モデルを搭載した汎用大語彙連続音声認識エンジンである。音響モデルと言語モデルを組み合わせて利用している。

音声認識の音響モデル

音響モデルとは、単語列から入力音声が出力される「それっぽさ」を与えるものである。音声認識では、音声入力（物理情報）からどのような音（記号）の並びになっているかを推定して出力するものとして利用する。

入力音声からまず一音一音に区切り、それがどのようなひらがなで表現されるかを推定する。たとえば、「おはようございます」という音声入力があったとき、次のようなひらがなで表現する。同じように聞こえる音でも音の流れによってさまざまな候補が存在するため、こういった複数候補を挙げる。
「お」「は/か」「よ/よー/おー/う」「ご」「ざ/か」「/す」「い」「ま」「す」

実際の音声認識では、この音響モデルによる出力と言語モデルと呼ばれる辞書データを元に単語を組み立て、最終的に意味の通る文書になるものを認識結果とする。上記の例では、次のようになる。
「おはよう」「ございます」または「おかよ」「うごかす」「います」
→「おはようございます」

音響モデルでは、一般的に隠れマルコフモデルと呼ばれる技術が利用されている。隠れマルコフモデルとは、これまでの状態変化の流れから次の状態候補を絞り込むモデルのことである。音声認識に応用されるのは、これまでの音の流れから次に来るはずの音の候補は限られてくるはずだという考えに基づいている。隠れマルコフモデルの学習には、混合ガウスモデル（GMM）や、人工知能（AI）でも良く利用される深層ニューラルネットワーク（DNN）などが利用されている。

音声認識の言語モデル

音声認識における言語モデルとは、会話などで用いられる単語と、これまでの単語流れからの出現性などといった付加的な情報を組み合わせたモデルの総称である。音声認識でよく用いられるN-gram言語モデルでは、直前N個の単語の並びから次の単語を推定するようなモデルで、単語列の出現頻度をもとにその単語列の「もっともらしさ」を様々な文章を利用して学習させる。

音声認識技術には、AIスピーカーなど単純にフレーズに反応するものから、キーボードの代わりに音声で文字を入力したり、会議の内容を文章に起こすなどといった幅広い応用があり、いくつかは実用化されている。たとえばGoogleでは、クラウドサービスとして音声認識が利用できるようになっており、スマートフォンの音声入力などにも利用されている。

デージーネットの取り組み

デージーネットでは、音声認識の基礎的な技術や機械学習の方法、音声認識の応用などで今後のIT社会を支える研究・開発を行っている。

【Webセミナー】SSL証明書有効期限短縮対策セミナー～ACMEとCertbotによる運用自動化～

日程：	7月30日（木）Webセミナー「BigBlueButton」を使用します。
内容：	今回は、証明書管理の自動化を実現する標準プロトコル「ACME」の仕組みと、代表的なACMEクライアントである「Certbot」の特徴や機能についてわかりやすく解説します。
ご興味のあるかたはぜひご参加ください。

セミナー申込

音声認識に関連するページ（事例など）

機械学習基盤に必要なソフトウェア

用語一覧ページへ戻る

音声認識に関する詳しい事例一覧

よくある質問・用語集
- よくある質問
- 用語集

本社所在地
〒465-0025
名古屋市名東区上社四丁目39-1
※名古屋市営地下鉄東山線「上社駅」より徒歩約7分

東京営業所
〒105-0012
東京都港区芝大門2丁目3-7
VILLA芝大門7階
※JR山手線・京浜東北線「浜松町駅」北口より徒歩6分
※都営地下鉄大江戸線・浅草線「大門駅」A3出口より徒歩2分