-
语音信号特征:
能量 基音频率 共振峰 -
处理阶段:
- 数字化预处理
- 端点检测
- 提取语音特征、计算
-
能量分短时能量和短时平均振幅能量
短时能量对高电平敏感 -
基音频率
声带振动的周期性频率
高兴和愤怒的基音频率都比较高
基音是浊音的独有特性,所以需要判断清浊音
浊音又称有声语言,携带者语言中大部分的能量,浊音在时域上呈现出明显的周期性;而清音类似于白噪声,没有明显的周期性。发浊音时,气流通过声门使声带产生张弛震荡式振动,产生准周期的激励脉冲串。这种声带振动的频率称为基音频率,相应的周期就成为基音周期。
基音频率与个人声带的长短、薄厚、韧性、劲度和发音习惯等有关系,在很大程度上反应了个人的特征。此外,基音频率还跟随着人的性别、年龄不同而有所不同。一般来说,男性说话者的基音频率较低,而女性说话者和小孩的基音频率相对较高。
第一共振峰对基音频率影响也很大,所以需要经过端点检测和通过带通滤波器预处理
-
判断清浊音
利用短时平均振幅能量计算能量门限M
如果某一帧的能量<M,判定为清音,基音频率为0
如果某一帧的能量>M,判定为浊音,基音频率用自相关法计算 -
共振峰
共振峰是指在声音的频谱中能量相对集中的一些区域,共振峰不但是音质的决定因素,而且反映了声道(共振腔)的物理特征。
不同情感发音的共振峰位置不同
- SVM算法
支持向量机
特点是将低维度的非线性的语音特征映射到高维度的线性的空间,将不可计算的低维度向量转化为高维度的空间向量,构造一个分类超平面。
将四种情感两两作为子类分类器,愤怒和平静,愤怒和高兴......统计票数
- 训练模型
提取短时平均能量最大值、最小值、均值、变化率、变化率的变化率
提取基音频率的最大值,最小值,均值、差分、方差
提取第一共振峰的均值、方差、变化率
将等到的特征参数归一化投入训练