音声認識技術

記事作成日：2018/02/19

記事を書いた人
master_seed

この記事を共有する

音声認識技術。こういうとあまり耳馴染みのない言葉かもしれません。

ただ、iPhoneのSiriといえば知っている方も多いのではないでしょうか？

また、Amazon Echo、Google Home、LINEのClova waveなど

音声認識技術を利用したスマートスピーカーも普及しつつあります。

音声認識技術はどのように人の声を認識しているのでしょうか。

簡単に説明すると「人の声を文字に変換する」ということになります。

音声は空気の振動でできているので、まず以下のような波形で表します。

これを音の最小単位である「音素」に分解してテキストに変換します。

「音素」は

■母音　あ　い　う　え　お

■撥音　ん

■子音　２３種類

例えば「くるま」を音素に変換すると、k-u-r-u-m-aとなり、このアルファベット一文字ずつが音素になります。

今回は割愛しますが、そのほかにも

正解のデータ（今回だとkuruma）という言葉を事前に用意しておき

音素が正解データとマッチするか判断するパターンマッチ辞書モデルや

前後の単語から予測して文章としていく言語モデルというような技術を使用します。

音声認識技術はこれからますます普及していくと思います。

これまでキーボードで入力してきた文字も、声で入力するようになればキーボードは

いらなくなるかもしれない。

ノートに手で書いていたものが、先生の声を認識して記録するということになりそうです。

この記事を共有する

2017/08/23

2016/10/26

2019/08/14

Column コラム