特許
J-GLOBAL ID:202003009904394263

キャプション生成装置、キャプション生成方法、およびプログラム

発明者:
出願人/特許権者:
代理人 (4件): 田▲崎▼ 聡 ,  鈴木 慎吾 ,  酒井 太一 ,  渡辺 伸一
公報種別:公開公報
出願番号(国際出願番号):特願2019-034979
公開番号(公開出願番号):特開2020-140050
出願日: 2019年02月27日
公開日(公表日): 2020年09月03日
要約:
【課題】音響信号に対してニューラルネットワークを用いてキャプションを生成することを可能にするキャプション生成装置、キャプション生成方法、およびプログラムを提供することを目的とする。【解決手段】キャプション生成装置は、音響信号に対してスペクトログラムを生成させる際に、スペクトログラムを固定長に分割して1以上のブロックにし、ブロックを畳み込みニューラルネットワークに入力して特徴量ベクトルを抽出し、抽出した特徴量ベクトルを再帰型ニューラルネットワークに入力することにより音響信号に対するキャプションを生成するキャプション生成部、を備える。【選択図】図1
請求項(抜粋):
音響信号に対してスペクトログラムを生成させる際に、前記スペクトログラムを固定長に分割して1以上のブロックにし、前記ブロックを畳み込みニューラルネットワークに入力して特徴量ベクトルを抽出し、抽出した前記特徴量ベクトルを再帰型ニューラルネットワークに入力することにより前記音響信号に対するキャプションを生成するキャプション生成部、 を備えるキャプション生成装置。
IPC (3件):
G10L 25/30 ,  G10L 17/26 ,  G06N 3/04
FI (3件):
G10L25/30 ,  G10L17/26 ,  G06N3/04 154
引用特許:
審査官引用 (1件)
  • 文章作成装置
    公報種別:公開公報   出願番号:特願2017-026630   出願人:株式会社日立製作所
引用文献:
審査官引用 (3件)
  • "会話におけるニュース記事伝達のための発話意図の分類と認識"
  • "スマートフォンで収録した環境音データベースを用いたCNNによる環境音分類"
  • "音声認識の方法論の変遷と展望"

前のページに戻る