ゆめと指向

tech blog

Amazon Transcribe の日本語音声認識の性能を実験したときのメモ

AWSの音声認識サービスである Amazon Transcribe で日本語の音声認識の性能を実験した時のメモを公開します。

使用方法については、以下のページを参考にしました。

www.bit-drive.ne.jp

使用するデータ

声優統計コーパスの音素バランス文、およびそれをプロの女性声優3名が読み上げた音声ファイルを用いました。音素バランス文は以下のサイトで配布されています(CC-BY-SA 4.0)。音声ファイルも同様に、Voice-Actress Corpusとしてy_benjo, MagnesiumRibbon によって以下のサイトで配布されています。

voice-statistics.github.io

具体的には以下のデータを用いています。

音素バランス文:以下ページの11文目から25文目まで
音声ファイル:上の音素バランス文に対応する「通常」の感情で読み上げられたもののうち、土谷麻貴様の11文目から15文目の音声、上村彩子様の16文目から20文目の音声、藤東知夏様の21文目から25文目の音声。

github.com

結果

各文について、その文を読み上げた話者、読み上げの元となった原文、原文を知らない私がその音声を聞き取った結果、Amazon Transcribeの出力を記載しています。

11文目

話者:土谷麻貴様
原文:
軽妙洒脱なナレーションから情緒感溢れる語りまで幅広い表現力を持つ

私が聞き取った文:
けいみょうしゃだつなナレーションから情緒感溢れる語りまで幅広い表現力を持つ

音声認識の出力:
軽妙 洒脱 な ナレーション から 情緒 感 あふれる 語 まで 幅広い 表現 力 を 持つ

コメント:
私の知らなかった四字熟語「軽妙洒脱」がちゃんと認識されている。「語り」も正しく認識していると思われるが、「語」と出力されてしまっているせいで読みの曖昧性が生まれている。

12文目

話者:土谷麻貴様
原文:
構造は鋼製の単一アーチで橋脚は石積みである

私が聞き取った文:
構造は鋼製の単一アーチで橋脚は石積みである

音声認識の出力:
構造 は 鋼 製 の 単一 アーチ で、 橋脚 は 石住 で ある

コメント:
おそらく「石積み(いしづみ)」を「石住(いしずみ)」と誤認識してしまっている。音声的に「づ」と「ず」の区別がつかないので文脈で判断する必要があるが、そこがうまくいっていないようだ。

13文目

話者:土谷麻貴様
原文:
そこへオーナーが新しいシェフとして腕利きのヒョヌクを招く

私が聞き取った文:
そこへオーナーが新しいシェフとして腕利きのヒョヌクを招く

音声認識の出力:
そこ へ オーナー が 新しい 食 として 腕利き の ヒョンウク を 招く

コメント:
音声認識モデルが出力した「ヒョンウク」も人名ではあるらしいので、文脈的に人名が入ることまでは理解できているように見える。

14文目

話者:土谷麻貴様
原文:
クィーンズアベニューアルファに所属している

私が聞き取った文:
クイーンズアベニューアルファに所属している

音声認識の出力:
クィーンズアベニューアルファ に 所属 し て いる

コメント:
すばら!

15文目

話者:土谷麻貴様
原文:
一方で漁業と商業でリャネス港は繁栄していた

私が聞き取った文:
一方で漁業と商業でリャネス港は繁栄していた

音声認識の出力:
一方 で 漁業 と 商業 で 屋根 不幸 は 反映 し て い た。

コメント:
「リャネス港」が認識できないのは仕方ないとして、「はんえい」を「繁栄」にできていないのが気になる。「リャネス港」を「博多港」に替えて私が読み上げてみたが「反映」のままだった。

16文目

話者:上村彩子様
原文:
このニューサウスウェールズ代表チームがワラビーズの中核となって行く

私が聞き取った文:
このニューサウスウェールズ代表チームがワラビーズの中核となっていく

音声認識の出力:
この ニューサウスウェールズ 代表 チーム が ワラ ビーズ の 中核 と なっ て いく

コメント:
すばら!

17文目

話者:上村彩子様
原文:
ただしギャンブル依存症の入院治療を行っている病院はわずかである

私が聞き取った文:
ただしギャンブル依存症の入院治療を行なっている病院は僅かである

音声認識の出力:
ただし ギャンブル 依存 症 の 入院 治療 を 行なっ て いる 病院 は わずか で ある

コメント:
すばら!

18文目

話者:上村彩子様
原文:
他のメジャーなディストリビューションに比べセキュリティー上の問題の修正が遅い場合もある

私が聞き取った文:
他のメジャーなディストリビューションに比べセキュリティー上の問題の修正が遅い場合もある

音声認識の出力:
他 の メジャー な ディストリビューション に 比べ セキュリティー 上 の 問題 の 修正 が 遅い 場合 も ある

コメント:
すばら!

19文目

話者:上村彩子様
原文:
ベルガートーア前のヴェディゲンウーファーパークには戦争と弾圧の犠牲者のための記念碑が建っている

私が聞き取った文:
ベルガートーア前のベディゲンウーファーパークには戦争と弾圧の犠牲者のための記念碑が建っている

音声認識の出力:
ベル が 党派 前 の ベディ ゲーム ファー パーク に は 清掃 と ダンス の 犠牲 者 の ため の 記念 碑 が 立っ て いる

コメント:
固有名のカタカナの認識がうまくできないのはこれまでの傾向と同じだが、「戦争」や「弾圧」のような一般的な名詞が認識できないのが気になる。試しに原文の「戦争と〜」以降を私が読み上げると正しく認識するので、単に調子が悪かっただけか。

20文目

話者:上村彩子様
原文:
全米パブリッシャーズ協会のベストストラテジーゲームオブザイヤーを日本人として受賞

私が聞き取った文:
全米パブリッシャーズ協会のベストストラテジ ゲームオブザイヤーを日本人として受賞

音声認識の出力:
全米 パブリッシャーズ 協会 の ベスト ストラテジー ゲームオブザイヤー を 日本人 として 受賞

コメント:
すばら!

21文目

話者:藤東知夏様
原文:
痛みは点滴より鎮痛薬を静脈投与することで鎮痛を行う

私が聞き取った文:
痛みは点滴より鎮痛剤を静脈投与することで鎮痛を行う

音声認識の出力:
痛み は 点滴 より 鎮痛 剤 を 静脈 投与 する こと で 緊張 を 行う

コメント:
音声を確認したが、はっきりと「鎮痛」と発音しているように聞こえるので、おそらく話者のミス。前半では正しく「鎮痛」を聞き取れているのに後半では誤って認識されているのが気になる。まあ前半に比べて後半の言い回しはあまり聞かないので仕方ないか。

22文目

話者:藤東知夏様
原文:
このときに浮遊大陸プルヴァマにある中立国ビュエルバがある情報筋からバッシュ将軍の処刑と前王女アーシェの自害を発表

私が聞き取った文:
この時に浮遊大陸プルヴァマにある中立国ビエルバがある情報筋からバッシュ将軍の処刑と前王女アーシェの自害を発表

音声認識の出力:
この 時 に 浮遊 大陸 ブルマー に ある 中田 率 九 ゲイル 場 が ある 情報 筋 から バッシュ 将軍 の 初 系統 前後 上 汗 の 自害 を 発表

コメント:
15文のうちもっとも認識誤りの多い例。ただカタカナ部分を除けば特段多いわけではない。

23文目

話者:藤東知夏様
原文:
南西部ウォーレンはベイアーマンファームズとフィッツジェラルドの地区で構成される

私が聞き取った文:
南西部ウォーレンはベイヤーマンファームズとフィッツジェラルドの地区で構成される

音声認識の出力:
南西 部 応援 は 米 山 ファームズ と フィッツジェラルド の 軸 で 構成 さ れる

コメント:
基本的にカタカナ部分は苦手だが「フィッツジェラルド」は一単語で正しく認識できている。カタカナが苦手というよりは、語彙に入っていない単語にカタカナが多いのかもしれない。カスタム語彙で追加してやれば認識するかもしれない。

24文目

話者:藤東知夏様
原文:
このためプラズマ中のイオンや電子の持つ平均運動エネルギーを温度で表現することがある

私が聞き取った文:
このためプラズマ中のイオンや電子の持つ平均運動エネルギーを温度で表現することがある

音声認識の出力:
この 為 プラズマ 知恵 の イオン や 電子 の 持つ 平均 運動 エネルギー を 温度 で 表現 する こと が ある

コメント:
「中」が「知恵」になっている以外は正しく認識できている。文脈でカバーできそうな誤りな気がするがどうなんだろうか。

25文目

話者:藤東知夏様

原文:
その飄々とした人柄が老若男女に慕われている

私が聞き取った文:
その飄々とした人柄が老若男女に慕われている

音声認識の出力:
その ひょうひょうと し た 人柄 が 老若男女 に 慕わ れ て いる

コメント:
すばら!

まとめ

地名や人名のカタカナを誤認識する例が多いように見えます。一方で「フィッツジェラルド」は一語で正しく認識できているので、必要に応じてカスタム語彙を追加してやれば改善するのかもしれません。

カタカナ部分を無視したとしても、人間レベルの認識には届いていません。音声を聞かずに出力だけを見て人間が直せる部分もそこそこあるので、ある程度文字起こしの手助けにはなるかもしれません。

正確な文字起こしが必ずしも必要でない検索のような用途では十分な精度のように感じます。複数の候補が得られる Alternative results を有効にすることで再現率(見逃しが発生しない程度)を上げられます。