Amazon Transcribe の日本語音声認識の性能を実験したときのメモ
AWSの音声認識サービスである Amazon Transcribe で日本語の音声認識の性能を実験した時のメモを公開します。
使用方法については、以下のページを参考にしました。
使用するデータ
声優統計コーパスの音素バランス文、およびそれをプロの女性声優3名が読み上げた音声ファイルを用いました。音素バランス文は以下のサイトで配布されています(CC-BY-SA 4.0)。音声ファイルも同様に、Voice-Actress Corpusとしてy_benjo, MagnesiumRibbon によって以下のサイトで配布されています。
具体的には以下のデータを用いています。
音素バランス文:以下ページの11文目から25文目まで
音声ファイル:上の音素バランス文に対応する「通常」の感情で読み上げられたもののうち、土谷麻貴様の11文目から15文目の音声、上村彩子様の16文目から20文目の音声、藤東知夏様の21文目から25文目の音声。
結果
各文について、その文を読み上げた話者、読み上げの元となった原文、原文を知らない私がその音声を聞き取った結果、Amazon Transcribeの出力を記載しています。
11文目
話者:土谷麻貴様
原文:
軽妙洒脱なナレーションから情緒感溢れる語りまで幅広い表現力を持つ
私が聞き取った文:
けいみょうしゃだつなナレーションから情緒感溢れる語りまで幅広い表現力を持つ
音声認識の出力:
軽妙 洒脱 な ナレーション から 情緒 感 あふれる 語 まで 幅広い 表現 力 を 持つ
コメント:
私の知らなかった四字熟語「軽妙洒脱」がちゃんと認識されている。「語り」も正しく認識していると思われるが、「語」と出力されてしまっているせいで読みの曖昧性が生まれている。
12文目
話者:土谷麻貴様
原文:
構造は鋼製の単一アーチで橋脚は石積みである
私が聞き取った文:
構造は鋼製の単一アーチで橋脚は石積みである
音声認識の出力:
構造 は 鋼 製 の 単一 アーチ で、 橋脚 は 石住 で ある
コメント:
おそらく「石積み(いしづみ)」を「石住(いしずみ)」と誤認識してしまっている。音声的に「づ」と「ず」の区別がつかないので文脈で判断する必要があるが、そこがうまくいっていないようだ。
13文目
話者:土谷麻貴様
原文:
そこへオーナーが新しいシェフとして腕利きのヒョヌクを招く
私が聞き取った文:
そこへオーナーが新しいシェフとして腕利きのヒョヌクを招く
音声認識の出力:
そこ へ オーナー が 新しい 食 として 腕利き の ヒョンウク を 招く
コメント:
音声認識モデルが出力した「ヒョンウク」も人名ではあるらしいので、文脈的に人名が入ることまでは理解できているように見える。
14文目
話者:土谷麻貴様
原文:
クィーンズアベニューアルファに所属している
私が聞き取った文:
クイーンズアベニューアルファに所属している
音声認識の出力:
クィーンズアベニューアルファ に 所属 し て いる
コメント:
すばら!
15文目
話者:土谷麻貴様
原文:
一方で漁業と商業でリャネス港は繁栄していた
私が聞き取った文:
一方で漁業と商業でリャネス港は繁栄していた
音声認識の出力:
一方 で 漁業 と 商業 で 屋根 不幸 は 反映 し て い た。
コメント:
「リャネス港」が認識できないのは仕方ないとして、「はんえい」を「繁栄」にできていないのが気になる。「リャネス港」を「博多港」に替えて私が読み上げてみたが「反映」のままだった。
16文目
話者:上村彩子様
原文:
このニューサウスウェールズ代表チームがワラビーズの中核となって行く
私が聞き取った文:
このニューサウスウェールズ代表チームがワラビーズの中核となっていく
音声認識の出力:
この ニューサウスウェールズ 代表 チーム が ワラ ビーズ の 中核 と なっ て いく
コメント:
すばら!
17文目
話者:上村彩子様
原文:
ただしギャンブル依存症の入院治療を行っている病院はわずかである
私が聞き取った文:
ただしギャンブル依存症の入院治療を行なっている病院は僅かである
音声認識の出力:
ただし ギャンブル 依存 症 の 入院 治療 を 行なっ て いる 病院 は わずか で ある
コメント:
すばら!
18文目
話者:上村彩子様
原文:
他のメジャーなディストリビューションに比べセキュリティー上の問題の修正が遅い場合もある
私が聞き取った文:
他のメジャーなディストリビューションに比べセキュリティー上の問題の修正が遅い場合もある
音声認識の出力:
他 の メジャー な ディストリビューション に 比べ セキュリティー 上 の 問題 の 修正 が 遅い 場合 も ある
コメント:
すばら!
19文目
話者:上村彩子様
原文:
ベルガートーア前のヴェディゲンウーファーパークには戦争と弾圧の犠牲者のための記念碑が建っている
私が聞き取った文:
ベルガートーア前のベディゲンウーファーパークには戦争と弾圧の犠牲者のための記念碑が建っている
音声認識の出力:
ベル が 党派 前 の ベディ ゲーム ファー パーク に は 清掃 と ダンス の 犠牲 者 の ため の 記念 碑 が 立っ て いる
コメント:
固有名のカタカナの認識がうまくできないのはこれまでの傾向と同じだが、「戦争」や「弾圧」のような一般的な名詞が認識できないのが気になる。試しに原文の「戦争と〜」以降を私が読み上げると正しく認識するので、単に調子が悪かっただけか。
20文目
話者:上村彩子様
原文:
全米パブリッシャーズ協会のベストストラテジーゲームオブザイヤーを日本人として受賞
私が聞き取った文:
全米パブリッシャーズ協会のベストストラテジ ゲームオブザイヤーを日本人として受賞
音声認識の出力:
全米 パブリッシャーズ 協会 の ベスト ストラテジー ゲームオブザイヤー を 日本人 として 受賞
コメント:
すばら!
21文目
話者:藤東知夏様
原文:
痛みは点滴より鎮痛薬を静脈投与することで鎮痛を行う
私が聞き取った文:
痛みは点滴より鎮痛剤を静脈投与することで鎮痛を行う
音声認識の出力:
痛み は 点滴 より 鎮痛 剤 を 静脈 投与 する こと で 緊張 を 行う
コメント:
音声を確認したが、はっきりと「鎮痛剤」と発音しているように聞こえるので、おそらく話者のミス。前半では正しく「鎮痛」を聞き取れているのに後半では誤って認識されているのが気になる。まあ前半に比べて後半の言い回しはあまり聞かないので仕方ないか。
22文目
話者:藤東知夏様
原文:
このときに浮遊大陸プルヴァマにある中立国ビュエルバがある情報筋からバッシュ将軍の処刑と前王女アーシェの自害を発表
私が聞き取った文:
この時に浮遊大陸プルヴァマにある中立国ビエルバがある情報筋からバッシュ将軍の処刑と前王女アーシェの自害を発表
音声認識の出力:
この 時 に 浮遊 大陸 ブルマー に ある 中田 率 九 ゲイル 場 が ある 情報 筋 から バッシュ 将軍 の 初 系統 前後 上 汗 の 自害 を 発表
コメント:
15文のうちもっとも認識誤りの多い例。ただカタカナ部分を除けば特段多いわけではない。
23文目
話者:藤東知夏様
原文:
南西部ウォーレンはベイアーマンファームズとフィッツジェラルドの地区で構成される
私が聞き取った文:
南西部ウォーレンはベイヤーマンファームズとフィッツジェラルドの地区で構成される
音声認識の出力:
南西 部 応援 は 米 山 ファームズ と フィッツジェラルド の 軸 で 構成 さ れる
コメント:
基本的にカタカナ部分は苦手だが「フィッツジェラルド」は一単語で正しく認識できている。カタカナが苦手というよりは、語彙に入っていない単語にカタカナが多いのかもしれない。カスタム語彙で追加してやれば認識するかもしれない。
24文目
話者:藤東知夏様
原文:
このためプラズマ中のイオンや電子の持つ平均運動エネルギーを温度で表現することがある
私が聞き取った文:
このためプラズマ中のイオンや電子の持つ平均運動エネルギーを温度で表現することがある
音声認識の出力:
この 為 プラズマ 知恵 の イオン や 電子 の 持つ 平均 運動 エネルギー を 温度 で 表現 する こと が ある
コメント:
「中」が「知恵」になっている以外は正しく認識できている。文脈でカバーできそうな誤りな気がするがどうなんだろうか。
25文目
話者:藤東知夏様
原文:
その飄々とした人柄が老若男女に慕われている
私が聞き取った文:
その飄々とした人柄が老若男女に慕われている
音声認識の出力:
その ひょうひょうと し た 人柄 が 老若男女 に 慕わ れ て いる
コメント:
すばら!
まとめ
地名や人名のカタカナを誤認識する例が多いように見えます。一方で「フィッツジェラルド」は一語で正しく認識できているので、必要に応じてカスタム語彙を追加してやれば改善するのかもしれません。
カタカナ部分を無視したとしても、人間レベルの認識には届いていません。音声を聞かずに出力だけを見て人間が直せる部分もそこそこあるので、ある程度文字起こしの手助けにはなるかもしれません。
正確な文字起こしが必ずしも必要でない検索のような用途では十分な精度のように感じます。複数の候補が得られる Alternative results を有効にすることで再現率(見逃しが発生しない程度)を上げられます。
スマートメーターのBルートの利用に関する基本的な知識
電力量計について
皆さんが毎日支払っている電気代は、使用した電力量を元に計算されています。電力量は電力量計というもので計測されます。
電力量計には、検針員が直接計測値を読み取るものと、電力会社と通信してデータを伝えるものがあります。後者はスマートメーターと呼ばれます(2020年3月時点における設置率は75.2%*1)。
計測データの通信ルート
スマートメーターから計測したデータは以下の3つの間で送受信されます*2。
- スマートメーターと送配電事業者(Aルート)
- スマートメーターと需要家(Bルート)
- 送配電事業者と小売事業者等(Cルート)
需要家とはざっくり言うと電気を使う個人や法人のことです。我々がこれにあたります。
送配電事業者とは電気の送配電を担当する会社のことです。東京電力パワーグリッド株式会社や関西電力送配電株式会社などがこれにあたります。
小売事業者とは電気を需要家に販売する事業者のことです。東京電力エナジーパートナー株式会社やauでんき(KDDI株式会社)などがこれにあたります。
つまり表題にある「Bルート」とは、スマートメーターと我々需要家をつなぐルートのことです。Bルートを開通させることで、スマートメーターとそれに対応した機器(HEMS機器)との間で通信ができるようになります。
Bルートの通信方式
BルートはスマートメーターとHEMS機器をつなぐルートです。その通信方式には「920MHz帯特定小電力無線方式(Wi-SUN)」または「電力線搬送通信(PLC)」が用いられます*3。
Wi-SUNは920MHz帯の無線を用いて通信を行う方式です。基本的にはこちらの方式がされます。
PLCは電力線(コンセントに来ている電気の線)を用いて通信を行う方式です。スマートメーターから住居までの距離が離れていたり、電波状況が悪い場合に、Wi-SUNに代わって使用されます。
Bルートの利用申し込み
Bルートは申し込みをしなければ利用することができません。申し込みをすることで、送配電事業者がAルートを用いてスマートメーターの設定を変更し、利用できるようになります。つまり申し込み先は送配電事業者になります。
各送配電事業者は申し込みのWebフォームや申請書をWebで公開しています。「(送配電事業者名) Bルート」のように検索すれば上の方に出てくるはずです。
Bルート利用のためのスマートメーターの設定
上で説明した通り、Bルートを利用するにはスマートメーターの設定を変更する必要があります。その設定変更は送配電事業者がAルートを用いて行うため、誰かが直接メーターを触りに来るといったことは基本的にありません *4。
設定が完了すると、郵送やメールにて、Bルートを使用するための認証IDとパスワードが届きます。これらはスマートメーター毎に発行されるので、2台以上のメーターが設置されていれば、2通以上の認証IDとパスワードが届きます*5。
*1:電力・ガス小売全面自由化の進捗状況について - 経済産業省 資源エネルギー庁 https://www.meti.go.jp/shingikai/enecho/denryoku_gas/denryoku_gas/pdf/027_03_00.pdf
*2:スマートメーター制度検討会(第13回)配布資料 - 経済産業省 資源エネルギー庁 https://www.meti.go.jp/committee/summary/0004668/013_haifu.html
*3:電力メーター情報発信サービス(Bルートサービス)利用規約 - 東京電力パワーグリッド株式会社 https://www30.tepco.co.jp/L401/dfw/ninsho/L4iFITWeb/L4MUSG/L4MUSG90401.html
*4:スマートメーター未設置の場合は、スマートメーターを設置するための工事が行われます。
*5:私の場合、単相3線式100Vと単相2線式200V(温水器)でそれぞれ別にメーターが設置されていたので、2通届きました。
Windows 10にWSL 2をインストールしてUbuntuを動かすまで
WSL 2の一般提供が開始
Windows 10 May 2020 Updateによって、WSL 2の一般提供が始まりました。
www.publickey1.jp
今後、開発環境の用意において第一の選択肢になることが考えられます。
GPUのサポートも表明していることから、CUDAを用いる機械学習系の分野への影響も大きくなるでしょう。
- WSL 2の一般提供が開始
- WSL 2のインストール
- Windowsの機能の有効化
- Ubuntuのインストール
- Ubuntuの初期設定
- WSLからWSL 2へ
- インストール済みパッケージの更新
- おわりに
WSL 2のインストール
今回のアップデートに合わせて私のWindows 10をクリーンインストールしたので、その状態からWSLの環境を整備するために行ったことを記録します。