同时使用audio跟speech是否冗余了 #87

miumiuc · 2024-11-30T02:51:26Z

根据video-salmonn的代码，speech是将语音信号转为梅尔语谱图，在用whisper的encoder提取特征，encoder中的操作是卷积+transformer；audio是将语音信号转为fbank特征，再用BEATs的encoder提取特征，也是一个transformer结构，请问这样提取的audio特征跟speech特征意义是有什么不同吗

TCL606 · 2024-12-02T06:01:21Z

只是由于 Whisper 和 BEATs 接受的输入特征不同

miumiuc · 2024-12-02T07:17:03Z

只是由于 Whisper 和 BEATs 接受的输入特征不同

那请问为什么这里音频数据要采用两种处理方法呢（whisper和BEATs)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

同时使用audio跟speech是否冗余了 #87

同时使用audio跟speech是否冗余了 #87

miumiuc commented Nov 30, 2024

TCL606 commented Dec 2, 2024

miumiuc commented Dec 2, 2024

同时使用audio跟speech是否冗余了 #87

同时使用audio跟speech是否冗余了 #87

Comments

miumiuc commented Nov 30, 2024

TCL606 commented Dec 2, 2024

miumiuc commented Dec 2, 2024