Juliusとは

Juliusとは、オープンソースの機械学習済みの音響モデルを搭載した汎用大語彙連続音声認識エンジンである。Juliusは、京都大学、名古屋工業大学が中心になって開発を行っている。プログラムはC言語で書かれており、オープンライセンスで商用利用への制限もない。2019年10月現在の最新バージョンは4.5である。

Juliusの特徴

Juliusの最大の特徴は可搬性であり、単語辞書や言語モデル・音響モデルなどの音声認識に必要なモジュールを組み替えることで、小規模の音声対話システムからディクテーションまで様々な幅広い用途に応用できる。また、数万語彙の連続音声認識を一般のPCやスマートフォン上でリアルタイムに実行できる軽量かつコンパクトさも特徴の1つである。

音声認識処理でのJuliusの役割

音声認識におけるJuliusの役割は、「音響モデルと言語モデルをもとに、それっぽい文章を見つける」というものである。

音声認識とは、入力音声信号に対して「最もそれっぽい文字列」を求めること、と言うことができる。一般的に音声認識では、大雑把に次のような処理を行う。

音声データから音の特徴を取り出し、これをローマ字のような音素で表現する
（同じ音でも複数候補があればそれだけ取り出す）
辞書の情報から、音素の繋がりからどんな単語を話しているかを推定する

ここで、前者の処理を行うモデルを「音響モデル」、後者で利用する辞書の情報を「言語モデル」という。

Juliusは、音響モデルによって抽出された音素の並びから、言語モデルの情報を使って何を話しているかを推定するソフトウェアである。音響モデル、言語モデルは別途準備する必要があるが、それゆえ種々の音響モデル、言語モデルと組み合わせることで、目的に見合ったシステムを構築することができる。音響モデルでは機械学習済みの音響モデルも利用することができる。

Juliusのスタータキット

音声認識は、初心者には難解な処理だが、これを手軽に利用できるようなスタータキットが公開されている。音声を入力すると認識した文章を出力してくれる一連のシステムがキット化されており、Linux、Windows、MacOS用のビルド済み実行ファイルが同梱されている。それぞれのキットでは、機械学習済みの音響モデルと、対象に応じた言語モデルが内蔵されている。

ディクテーションキット
音響モデルは、研究用に公開されているコーパスによって学習されている。ガウス混合分布モデル（GMM-HMM）と、深層ニューラルネットワーク（DNN-HMM）の音響モデルが収録されており、それぞれを利用することができる。言語モデルには、約6万語の辞書が収録されている。
話し言葉モデルキット
話し言葉による音声認識を目的としたモデル。音響モデルは、研究用に公開されているコーパスによって学習されたDNN-HMMが利用できる。言語モデルは、「日本語話し言葉コーパス」の模擬講演データと学会データから作成されている。
講演音声モデルキット
大きな部屋での講演を対象としたモデル。音響モデルは、「日本語話し言葉コーパス」の学会データによるDNN-HMMが利用できる。言語モデルは、「日本語話し言葉コーパス」の模擬講演データと学会データから作成されている。

デージーネットの取り組み

デージーネットでは、Juliusを利用して、機械学習やAIと組み合わせたシステムや音声認識の応用に関する研究・開発を行っている。

【Webセミナー】RHEL10ついにリリース！Linuxユーザ必見の新機能・変更点徹底解説セミナー

日程：	7月23日（水）Webセミナー「BigBlueButton」を使用します。
内容：	2025年5月20日に公開されたRHEL10の新機能や変更点についてご紹介します。
ご興味のあるかたはぜひご参加ください。

セミナー申込

Juliusに関連するページ（事例など）

機械学習基盤に必要なソフトウェア

用語一覧ページへ戻る

Juliusに関する詳しい事例一覧

よくある質問・用語集
- よくある質問
- 用語集

本社所在地
〒465-0025
名古屋市名東区上社四丁目39-1
※名古屋市営地下鉄東山線「上社駅」より徒歩約7分

東京営業所
〒105-0013
東京都港区浜松町二丁目6-5浜松町エクセレントビル8F
※JR山手線・京浜東北線「浜松町駅」南口より徒歩3分
※都営地下鉄大江戸線・浅草線「大門駅」A1出口より徒歩5分