语音信号的采集

语音信号的采集

一般的语音来源主要是三种,业内开放的通用训练集数据、特定用户录制的数据,采用TTS技术合成的数据。

部分公司会将用户的指令数据进行收集,从而丰富通用训练集,提取高频数据集,Bad Case数据集,专项数据集(方言、中英文混合),特殊场景数据集(导航、电话、音乐等其他应用冲突的场景)等等。

 

在录制和采集语音数据时,业内一般有如下几个指标,这些指标也都和语音识别的原理及架构有关。

采样率

同时也叫采样频率,指每秒钟取得声音样本的次数。采样率越高,数据越精确。常用的采样率是8k(8000),16k,44.1k,48k。

8k是电话所用的采样率。人说话的声音频率,基本在这个采样率之内。

48k采样率是CD,DVD所采用的。超过这个频率人耳是分辨不出来的了。

手机平台中,采样率大都数采样16k。

采样位数

指每个采样数据占的位数,采样精度取决于采样位数的大小。常用的位数是8位(bit),也就是一个字节。还有16位或者32位。

手机平台中一般为16位采样位数。

采样编码

腾讯只支持GBK?

声道数

声道数也叫通道数,即声音的通道的数目。常见的单声道和立体声(双声道),现在已经发展到了四声环绕(四声道)和5.1声道。声道和硬件设备有关。

单声道的声音只能使用一个扬声器发声,当通过两个扬声器回放单声道信息的时候,我们可以明显感觉到声音是从两个音箱中间传递到我们耳朵里的,无法判断声源的具体位置。

双声道目前最常用途有两个,在卡拉OK中,区分奏乐和歌手的声音;在VCD中,用两个声道区分普通话配音和英语配音。

存储空间

声音的存储空间叫比特率,也叫码率,就是形容一秒中数据有多大。

计算公式为:采样率x采样位数x声道数,单位就是bit/秒,除于8,就是byte/s

存储格式

经过录音设备采集的声音,未经编码时叫PCM数据。

在pcm数据前面再加个文件头,就是WAV文件,这个文件头里说明了采样率,采样位数,声道数和文件大小等信息。音频播放器会先读取这个头再播放音频。

MP3是一种经过编码压缩过的音频。

手机平台中一分钟的原始音频大约1.92MB,4分钟的大约7.68MB,而MP3格式4分钟的歌曲只有4MB左右。因此用以语音识别的声音是不能压缩失真的,因为压缩会导致一些细节就会丢失。一般直接使用pcm数据或者WAV数据。

 

各个平台对音频文件的指标要求:

以BAT和讯飞为例:

参数

百度AI开放平台

腾讯

讯飞

阿里

声道

16k采样率

符合16k或8K采样率

 

 

采样率

16bit位数

16bit采样位数

 

 

位数

单声道

单声道

 

 

格式

pcm(不压缩)

wav(不压缩,pcm编码)

amr(压缩格式)

PCM、WAV、AMR、 SILK

 

 

 

已标记关键词 清除标记
©️2020 CSDN 皮肤主题: 酷酷鲨 设计师:CSDN官方博客 返回首页