1)端到端混合结构:baseline工作,将端到端语音识别主流的混合结构应用到深度脉冲神经网络中,对编码、解码网络和解码过程进行针对性研究,提高脉冲神经网络在语音识别中的准确率和能量效率。 2)车载语音识别:基于车载语音数据集,将深度脉冲神经网络模型部署到车载芯片中应用,研究模型结构、模型部署的改进。 3)脉冲时序特性 :脉冲神经网络自身具有丰富的时空动态特性,语音识别作为一项时序任务,可以与脉冲的时序特性在时间维度上结合,提高时序任务的效率。 4)更多语音任务 :在1和3完成的基础上,将深度脉冲神经网络模型推广到自动说话人验证(ASV)、文本转语音(TTS)等语音任务,可采用预训练的模型并针对特定任务进行改进。 预期成果产出形式:每个小方向1-2篇论文 1个专利 里程碑计划: 1)端到端混合结构:11月开始实验--->4月产出论文 2)车载语音识别:11月开始实验--->5月产出论文--->6月进一步实验--->8月产出论文 3)脉冲时序特性:4月开始实验---->6月产出论文 4)更多语音任务:根据1)和3)的研究进度,计划2024年6月开启
脉冲神经网络(SNN)是一种利用二进制尖峰传递信息的大脑启发模型,SNN是事件驱动的,可以以时空方式处理信息,因此适合处理时序任务,并且更节能。现有研究多使用小型脉冲神经网络架构,并且停留在孤立词识别和小数据集上。大词汇量连续语音识别和训练有效的深度脉冲神经网络架构仍然是重大挑战。
脉冲神经网络(SNN)是一种利用二进制尖峰传递信息的大脑启发模型,SNN是事件驱动的,可以以时空方式处理信息,因此适合处理时序任务,并且更节能。现有研究多使用小型脉冲神经网络架构,并且停留在孤立词识别和小数据集上。大词汇量连续语音识别和训练有效的深度脉冲神经网络架构仍然是重大挑战。
参考资料: 0)端到端混合结构: Watanabe S, Hori T, Karita S, et al. ESPnet: End-to-End Speech Processing Toolkit[J]. Interspeech 2018, 2018. 1)车载语音识别: Zhang A, Yu F, Huang K, et al. The iscslp 2022 intelligent cockpit speech recognition challenge (icsrc): Dataset, tracks, baseline and results[C]//2022 13th International Symposium on Chinese Spoken Language Processing (ISCSLP). IEEE, 2022: 507-511. 2)脉冲时序特性: Guo Y, Huang X, Ma Z. Direct learning-based deep spiking neural networks: a review[J]. Frontiers in Neuroscience, 2023, 17: 1209795. 3)更多语音任务: Mehrish A, Majumder N, Bharadwaj R, et al. A review of deep learning techniques for speech processing[J]. Information Fusion, 2023: 101869.