研究者
J-GLOBAL ID:201801014603986279   更新日: 2024年04月22日

李 勝

リ シェン | LI Sheng
所属機関・部署:
職名: 研究員
ホームページURL (2件): https://ast-astrec.nict.go.jp/member/sheng-li/index-modern-jp.htmlhttps://ast-astrec.nict.go.jp/member/sheng-li/index.html
研究分野 (1件): 知覚情報処理
研究キーワード (5件): 大規模な言語モデル (音声、テキスト) ,  セキュリティ対応の音声処理 ,  マルチモーダル音声合成 ,  メディア処理技術を用いた語学学習支援(CALL) ,  音声認識/翻訳
競争的資金等の研究課題 (10件):
  • 2023 - 2028 意図を的確に伝える音声対話翻訳の基盤技術の創出
  • 2023 - 2026 M3OLR: Towards Effective Multilingual, Multimodal and Multitask Oriental Low-resourced Language Speech Recognition
  • 2023 - 2024 自動話者認識における「なりすまし」の探知
  • 2024 - 大規模言語モデル強化
  • 2022 - 2024 Bridging Eurasia from Sea -- Multilingual Speech Recognition for Maritime Silkroad
全件表示
論文 (103件):
  • Sheng Li, Bei Liu, Jianlong Fu. Revisiting Generative Adversarial Network for Downstream Task of Speech Recognition. Proc. IEEE GEM. 2024
  • Yi Zhao, Chunyu Qiang, Hao Li, Yulan Hu, Wangjin Zhou, Sheng Li. Enhancing Realism in 3D Facial Animation Using Conformer-Based Generation and Automated Post-Processing. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2024
  • Wangjin Zhou, Zhengdong Yang, Chenhui Chu, Sheng Li, Raj Dabre, Yi Zhao, Kawahara Tatsuya. MOS-FAD: Improving Fake Audio Detection Via Automatic Mean Opinion Score Prediction. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2024
  • Sheng Li, Jiyi Li, Yang Cao. Phantom in the opera: adversarial music attack for robot dialogue system. Frontiers in Computer Science. 2024. 6
  • Yankun Wu, Yuta Nakashima, Noa Garcia, Sheng Li, Zhaoyang Zeng. Reproducibility Companion Paper: Stable Diffusion for Content-Style Disentanglement in Art Analysis. ACM International Conference on Multimedia Retrieval (ICMR). 2024
もっと見る
MISC (14件):
  • Wangjin Zhou, Zhengdong Yang, Chenhui Chu, Sheng Li, Raj Dabre, Yi Zhao, Tatsuya Kawahara. MOS-FAD: Improving Fake Audio Detection Via Automatic Mean Opinion Score Prediction. 2024
  • Wangjin Zhou, Zhengdong Yang, Chenhui Chu, Sheng Li. End-to-End Speech-to-Speech Translation toolkit. ACM Multimedia Asia 2023 workshop released tookit. 2023
  • Wenqing Wei, Zhengdong Yang, Yuan Gao, Jiyi Li, Chenhui Chu, Shogo Okada, Sheng Li. FedCPC: An Effective Federated Contrastive Learning Method for Privacy Preserving Early-Stage Alzheimer's Speech Detection. 2023
  • Xiaojiao Chen, Sheng Li, Jiyi Li, Hao Huang, Yang Cao, Liang He. GhostVec: A New Threat to Speaker Privacy of End-to-End Speech Recognition System. 2023
  • Xiaojiao Chen, Sheng Li, Jiyi Li, Hao Huang, Yang Cao, Liang He. Reprogramming Self-supervised Learning-based Speech Representations for Speaker Anonymization. 2023
もっと見る
特許 (7件):
  • 推論器および推論器の学習方法
  • 推論器、推論プログラムおよび学習方法
  • 言語識別モデルの訓練方法及び装置、並びにそのためのコンピュータプログラム
  • 識別器、学習済モデル、学習方法
  • 音声認識システム、音声認識方法、学習済モデル
もっと見る
書籍 (4件):
  • Voices of the Himalayas: Investigation of Speech Recognition Technology for the Tibetan Language
    2023 ISBN:9784904020289
  • Bridging Eurasia: Multilingual Speech Recognition for Silkroad
    2023 ISBN:9784904020296
  • Phantom in the Opera: The Vulnerabilities of Speech-based Artificial Intelligence Systems
    2022 ISBN:9784904020265
  • Automatic speech recognition: Speech-to-Speech Translation
    Springer Singapore 2020
講演・口頭発表等 (57件):
  • Combining Large Language Model with Speech Recognition System in Low-resource Settings
    (言語処理学会第30回年次大会 2024)
  • Investigating effective methods for combining large language model with speech recognition system
    (日本音響学会第151回(2024年春季)研究発表会 2024)
  • Hierarchical Softmax for End-to-End Low-resource Multilingual Speech Recognition
    (ICT-innovation 2023 (Kyoto Univ.) 2024)
  • Self-Supervised Learning MOS Prediction with Listener Enhancement
    (VoiceMOS mini workshop 2023)
  • Correction while Recognition: Combining Pretrained Language Model for Taiwan-accented Speech Recognition
    (Joint Seminar with NECTEC Language Understand Group 2023)
もっと見る
Works (7件):
  • HSoftmax: Hierachical Softmax (https://github.com/Derek-Gong/hsoftmax/)
    Zhuo Gong, Qianying Liu, Sheng Li, Zhengdong Yang, Yuhang Yang 2020 -
  • very deep residual time-delay neural network (TDNN) with LFMMI objective implemented with MS-CNTK
  • online speech recognition module for Erica the human robot
  • Julius decoder with EESEN CTC acoustic model
  • VTLN for Julius/HTK acoustic model
もっと見る
学歴 (3件):
  • 2012 - 2016 京都大学 大学院 情報学研究科知能情報学専攻博士後期課程
  • 2007 - 2009 南京大学 中国科学院,香港中文大学,南京大学連携項目課程 修士
  • 2002 - 2006 南京大学 工学院 計算機科学コース (理学)
学位 (1件):
  • 情報学博士 (京都大学)
経歴 (7件):
  • 2020 - 現在 国立研究開発法人情報通信研究機構 (NICT) 先進的音声技術研究室(ASTL) テニュアトラック 研究員
  • 2021/12 - 2023/03 京都大学大学院 情報学研究科 修士課程アドバイザー
  • 2019/04 - 2019/05 Oxford University Computer science department visiting researcher
  • 2017 - 2019 国立研究開発法人情報通信研究機構 (NICT) 先進的音声技術研究室(ASTL) 研究員
  • 2016/04 - 2016/12 京都大学 音声メディア研究室 研究員
全件表示
委員歴 (10件):
  • - 2026 APSIPA Speech, Language, and Audio (SLA) Technical Committee (till 2026)
  • 2024/04 - 2024/04 Session Chair of IEEE-ICASSP2024
  • 2023/12 - Co-organizing ACM Multimedia Asia 2023 workshop: Multimodal, Multilingual and Multitask Modeling Technologies for Oriental Languages (M3Oriental)
  • 2023/09 - Session Chair of ICANN 2023
  • 2023/07 - Area Chair of EMNLP 2023
全件表示
受賞 (22件):
  • 2023/12 - ICASSP2024 ICMC-ASR (In-Car Multi-Channel Automatic Speech Recognition) Challenge top2 in one track
  • 2023/12 - 1st place in one track in ASRU2023 special session: VoiceMOS challenge
  • 2023/05 - IEEE signal processing society IEEE-SPS grant for IEEE-ICASSP2023 oral presentation (Co-supervised PhD student Qianying Liu)
  • 2022 - 1st place in 6 indexes (total 16) of Main/OOD tracks in INTERSPEECH2022 special session: VoiceMOS challenge
  • 2021/12 - Oriental language recognition challenge 2021 3rd/4th place in constrained/unconstrained resource multilingual ASR tracks of OLR2021 challenge
全件表示
所属学会 (7件):
APNNS (Asia Pacific Neural Network Society) ,  APSIPA (Asia Pacific Signal and Information Processing Association) ,  SIG-CSLP (Chinese Spoken Language Processing) ,  ASJ (日本音響学会) ,  ISCA (International Speech Communication Association) ,  IEEE/IEEE-SPS ,  ACM (Association for Computing Machinery)
※ J-GLOBALの研究者情報は、researchmapの登録情報に基づき表示しています。 登録・更新については、こちらをご覧ください。

前のページに戻る