李勝

リシェン | LI Sheng

所属機関・部署：
職名：研究員
ホームページURL (2件)： https://ast-astrec.nict.go.jp/member/sheng-li/index-modern-jp.html , https://ast-astrec.nict.go.jp/member/sheng-li/index.html

研究分野 (1件)：知覚情報処理

研究キーワード (5件)：大規模な言語モデル (音声、テキスト) , セキュリティ対応の音声処理 , マルチモーダル音声合成 , メディア処理技術を用いた語学学習支援(CALL) , 音声認識/翻訳

競争的資金等の研究課題 (10件)：

2023 - 2028 意図を的確に伝える音声対話翻訳の基盤技術の創出
2023 - 2026 M3OLR: Towards Effective Multilingual, Multimodal and Multitask Oriental Low-resourced Language Speech Recognition
2023 - 2024 自動話者認識における「なりすまし」の探知
2024 - 大規模言語モデル強化
2022 - 2024 Bridging Eurasia from Sea -- Multilingual Speech Recognition for Maritime Silkroad

全件表示

論文 (103件)：

Sheng Li, Bei Liu, Jianlong Fu. Revisiting Generative Adversarial Network for Downstream Task of Speech Recognition. Proc. IEEE GEM. 2024
Yi Zhao, Chunyu Qiang, Hao Li, Yulan Hu, Wangjin Zhou, Sheng Li. Enhancing Realism in 3D Facial Animation Using Conformer-Based Generation and Automated Post-Processing. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2024
Wangjin Zhou, Zhengdong Yang, Chenhui Chu, Sheng Li, Raj Dabre, Yi Zhao, Kawahara Tatsuya. MOS-FAD: Improving Fake Audio Detection Via Automatic Mean Opinion Score Prediction. ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2024
Sheng Li, Jiyi Li, Yang Cao. Phantom in the opera: adversarial music attack for robot dialogue system. Frontiers in Computer Science. 2024. 6
Yankun Wu, Yuta Nakashima, Noa Garcia, Sheng Li, Zhaoyang Zeng. Reproducibility Companion Paper: Stable Diffusion for Content-Style Disentanglement in Art Analysis. ACM International Conference on Multimedia Retrieval (ICMR). 2024

MISC (14件)：

Wangjin Zhou, Zhengdong Yang, Chenhui Chu, Sheng Li, Raj Dabre, Yi Zhao, Tatsuya Kawahara. MOS-FAD: Improving Fake Audio Detection Via Automatic Mean Opinion Score Prediction. 2024
Wangjin Zhou, Zhengdong Yang, Chenhui Chu, Sheng Li. End-to-End Speech-to-Speech Translation toolkit. ACM Multimedia Asia 2023 workshop released tookit. 2023
Wenqing Wei, Zhengdong Yang, Yuan Gao, Jiyi Li, Chenhui Chu, Shogo Okada, Sheng Li. FedCPC: An Effective Federated Contrastive Learning Method for Privacy Preserving Early-Stage Alzheimer's Speech Detection. 2023
Xiaojiao Chen, Sheng Li, Jiyi Li, Hao Huang, Yang Cao, Liang He. GhostVec: A New Threat to Speaker Privacy of End-to-End Speech Recognition System. 2023
Xiaojiao Chen, Sheng Li, Jiyi Li, Hao Huang, Yang Cao, Liang He. Reprogramming Self-supervised Learning-based Speech Representations for Speaker Anonymization. 2023

特許 (7件)：

推論器および推論器の学習方法
推論器、推論プログラムおよび学習方法
言語識別モデルの訓練方法及び装置、並びにそのためのコンピュータプログラム
識別器、学習済モデル、学習方法
音声認識システム、音声認識方法、学習済モデル

書籍 (4件)：

Voices of the Himalayas: Investigation of Speech Recognition Technology for the Tibetan Language
2023 ISBN:9784904020289
Bridging Eurasia: Multilingual Speech Recognition for Silkroad
2023 ISBN:9784904020296
Phantom in the Opera: The Vulnerabilities of Speech-based Artificial Intelligence Systems
2022 ISBN:9784904020265
Automatic speech recognition: Speech-to-Speech Translation
Springer Singapore 2020

講演・口頭発表等 (57件)：

Combining Large Language Model with Speech Recognition System in Low-resource Settings
(言語処理学会第30回年次大会 2024)
Investigating effective methods for combining large language model with speech recognition system
(日本音響学会第151回(2024年春季)研究発表会 2024)
Hierarchical Softmax for End-to-End Low-resource Multilingual Speech Recognition
(ICT-innovation 2023 (Kyoto Univ.) 2024)
Self-Supervised Learning MOS Prediction with Listener Enhancement
(VoiceMOS mini workshop 2023)
Correction while Recognition: Combining Pretrained Language Model for Taiwan-accented Speech Recognition
(Joint Seminar with NECTEC Language Understand Group 2023)

Works (7件)：

HSoftmax: Hierachical Softmax (https://github.com/Derek-Gong/hsoftmax/)
Zhuo Gong, Qianying Liu, Sheng Li, Zhengdong Yang, Yuhang Yang 2020 -
very deep residual time-delay neural network (TDNN) with LFMMI objective implemented with MS-CNTK
online speech recognition module for Erica the human robot
Julius decoder with EESEN CTC acoustic model
VTLN for Julius/HTK acoustic model

学歴 (3件)：

2012 - 2016 京都大学大学院情報学研究科知能情報学専攻博士後期課程
2007 - 2009 南京大学中国科学院,香港中文大学,南京大学連携項目課程修士
2002 - 2006 南京大学工学院計算機科学コース (理学)

学位 (1件)：

情報学博士 (京都大学)

経歴 (7件)：

2020 - 現在国立研究開発法人情報通信研究機構 (NICT) 先進的音声技術研究室(ASTL) テニュアトラック研究員
2021/12 - 2023/03 京都大学大学院情報学研究科修士課程アドバイザー
2019/04 - 2019/05 Oxford University Computer science department visiting researcher
2017 - 2019 国立研究開発法人情報通信研究機構 (NICT) 先進的音声技術研究室(ASTL) 研究員
2016/04 - 2016/12 京都大学音声メディア研究室研究員

全件表示

委員歴 (10件)：

- 2026 APSIPA Speech, Language, and Audio (SLA) Technical Committee (till 2026)
2024/04 - 2024/04 Session Chair of IEEE-ICASSP2024
2023/12 - Co-organizing ACM Multimedia Asia 2023 workshop: Multimodal, Multilingual and Multitask Modeling Technologies for Oriental Languages (M3Oriental)
2023/09 - Session Chair of ICANN 2023
2023/07 - Area Chair of EMNLP 2023

全件表示

受賞 (22件)：

2023/12 - ICASSP2024 ICMC-ASR (In-Car Multi-Channel Automatic Speech Recognition) Challenge top2 in one track
2023/12 - 1st place in one track in ASRU2023 special session: VoiceMOS challenge
2023/05 - IEEE signal processing society IEEE-SPS grant for IEEE-ICASSP2023 oral presentation (Co-supervised PhD student Qianying Liu)
2022 - 1st place in 6 indexes (total 16) of Main/OOD tracks in INTERSPEECH2022 special session: VoiceMOS challenge
2021/12 - Oriental language recognition challenge 2021 3rd/4th place in constrained/unconstrained resource multilingual ASR tracks of OLR2021 challenge

全件表示

所属学会 (7件)：

APNNS (Asia Pacific Neural Network Society) , APSIPA (Asia Pacific Signal and Information Processing Association) , SIG-CSLP (Chinese Spoken Language Processing) , ASJ (日本音響学会) , ISCA (International Speech Communication Association) , IEEE/IEEE-SPS , ACM (Association for Computing Machinery)

※　J-GLOBALの研究者情報は、researchmapの登録情報に基づき表示しています。登録・更新については、こちらをご覧ください。

前のページに戻る

李 勝

李勝