抄録/ポイント:
抄録/ポイント
文献の概要を数百字程度の日本語でまとめたものです。
部分表示の続きは、JDreamⅢ(有料)でご覧頂けます。
J-GLOBALでは書誌(タイトル、著者名等)登載から半年以上経過後に表示されますが、医療系文献の場合はMyJ-GLOBALでのログインが必要です。
標題連載論文では人の声をテキストに変換する音声認識を利用する上で理解すべき技術を解説し,Rasberry Piを用いてそれらを体感することを目指している。本論文では,1)音響分析,2)音声認識処理によって音響的情報と言語情報を用い,入力音声からテキストを出力する音声認識技術を概説した。特に,1)はマイクからの入力音声をディジタル化して人間がしゃべったと思われる区間を切り出し,そのデータを20~30ミリ秒の小区間(窓)ごとに切り取って窓関数をかける。横軸が時間,縦軸が音圧に対応する音声波形からは音の高さはわかるが何をしゃべったのかはわからないので,音声編集ソフトウェアAudacityを用いてフーリエ変換によって横軸が時間,縦軸が周波数,色の濃さが音の大きさを表すスペクトログラムを示した。また,音声波形を離散フーリエ変換によって横軸が周波数,縦軸が音の強さのスペクトラムに変換し,対数をとって逆フーリエ変換することで音声認識に必要なケプストラム(特徴量)を抽出できることを説明した。スペクトログラムでは発声の傾向がわかるのに対し,スペクトルではどの周波数で共鳴しているのかによって口の形がわかり,何をしゃべっているのかがわかるので声を文字に変換でできることを解説した。