情诗网 >情感语录 > 正文

情感语音识别

来源:情诗网    2020-12-01    分类:情感语录

  1. 语音信号特征:
    能量 基音频率 共振峰

  2. 处理阶段:

    • 数字化预处理
    • 端点检测
    • 提取语音特征、计算
  3. 能量分短时能量和短时平均振幅能量
    短时能量对高电平敏感

  4. 基音频率
    声带振动的周期性频率
    高兴和愤怒的基音频率都比较高
    基音是浊音的独有特性,所以需要判断清浊音

浊音又称有声语言,携带者语言中大部分的能量,浊音在时域上呈现出明显的周期性;而清音类似于白噪声,没有明显的周期性。发浊音时,气流通过声门使声带产生张弛震荡式振动,产生准周期的激励脉冲串。这种声带振动的频率称为基音频率,相应的周期就成为基音周期。

基音频率与个人声带的长短、薄厚、韧性、劲度和发音习惯等有关系,在很大程度上反应了个人的特征。此外,基音频率还跟随着人的性别、年龄不同而有所不同。一般来说,男性说话者的基音频率较低,而女性说话者和小孩的基音频率相对较高。

第一共振峰对基音频率影响也很大,所以需要经过端点检测和通过带通滤波器预处理

  1. 判断清浊音
    利用短时平均振幅能量计算能量门限M
    如果某一帧的能量<M,判定为清音,基音频率为0
    如果某一帧的能量>M,判定为浊音,基音频率用自相关法计算

  2. 共振峰

共振峰是指在声音的频谱中能量相对集中的一些区域,共振峰不但是音质的决定因素,而且反映了声道(共振腔)的物理特征。

不同情感发音的共振峰位置不同

  1. SVM算法
    支持向量机
    特点是将低维度的非线性的语音特征映射到高维度的线性的空间,将不可计算的低维度向量转化为高维度的空间向量,构造一个分类超平面。

将四种情感两两作为子类分类器,愤怒和平静,愤怒和高兴......统计票数

  1. 训练模型
    提取短时平均能量最大值、最小值、均值、变化率、变化率的变化率
    提取基音频率的最大值,最小值,均值、差分、方差
    提取第一共振峰的均值、方差、变化率
    将等到的特征参数归一化投入训练

热门文章