音声認識技術
音声認識技術。こういうとあまり耳馴染みのない言葉かもしれません。
ただ、iPhoneのSiriといえば知っている方も多いのではないでしょうか?
また、Amazon Echo、Google Home、LINEのClova waveなど
音声認識技術を利用したスマートスピーカーも普及しつつあります。
声をどのように認識しているのか?
音声認識技術はどのように人の声を認識しているのでしょうか。
簡単に説明すると「人の声を文字に変換する」ということになります。
音声は空気の振動でできているので、まず以下のような波形で表します。
これを音の最小単位である「音素」に分解してテキストに変換します。
「音素」は
■母音 あ い う え お
■撥音 ん
■子音 23種類
例えば「くるま」を音素に変換すると、k-u-r-u-m-aとなり、このアルファベット一文字ずつが音素になります。
今回は割愛しますが、そのほかにも
正解のデータ(今回だとkuruma)という言葉を事前に用意しておき
音素が正解データとマッチするか判断するパターンマッチ辞書モデルや
前後の単語から予測して文章としていく言語モデルというような技術を使用します。
最新の音声認識技術例 女子高生AI「りんな」
日本マイクロソフトが開発した、女子高生AI「りんな」。
少し前にLINEでの会話ができると話題になったのを知っている方もいると思います。
このサービスに電話での音声通話機能が登場しました。
(この通話サービスは特定のライブ配信サービスの視聴者から選ばれた人だけ可能。)
高精度の音声認識術を使用してユーザーの言葉を理解し、話しかける。
また、現役女子高生という設定をいかして恋愛トークをしたりするエモーショナルな
会話ができるAIとして注目されています。
またこの技術はコールセンターなどにも導入される計画です。
まとめ
音声認識技術はこれからますます普及していくと思います。
これまでキーボードで入力してきた文字も、声で入力するようになればキーボードは
いらなくなるかもしれない。
ノートに手で書いていたものが、先生の声を認識して記録するということになりそうです。