说话人识别是语音识别的一种特殊方式,其目的不是识别语音内容,而是识别说话人是谁,即从语音信号中提取个人特征。采用矢量量化(VQ)可避免困难的语音分段问题和时间归整问题,且作为一种数据压缩手段可大大减少系统所需的数据存储量。本文提出了识别特征选取采用复倒谱特征参数和对应用VQ的说话人识别系统改进的一种方法。当用于训练的数据量较小时,复倒谱特征可以得到比较稳定的识别性能。VQ的改进方法避免了说话人识别系统的训练时间与使用时间相差过长从而导致系统的性能明显下降以及若利用自相关函数带来的大量运算。
上传时间: 2015-09-04
上传用户:xwd2010
语音识别中的模型和算法:动态时间归正技术(DTW),隐马尔可夫模型(HMM),高斯混合模型(GMM),高斯混合模型(GMM)
上传时间: 2013-12-23
上传用户:nanfeicui
本文完成了对唇动身份识别技术几个基本问题的理论研究,并对整个系统加以实现.作为本文研究的实验基础,我们建立了唇动方式身份识别数据库(HITLUDB), 该库目前包含30个说话人每人20个汉语词的音视频语料.数据库的扩充与完善工作仍在不断的进行之中.在嘴唇检测方面, 我们对自适应色度过滤模型进行改进,提高了算法的鲁棒性,完成了对嘴唇的精确定位.结合DCT变换与K-L变换的各自特点, 我们提出了特征提取算法,使用较少维数的特征完成了对嘴唇区域主要信息的刻画.由于唇动信息同时包含了生理特征与行为特征, 我们使用静念动念混合建模的方式,完成了对说话人唇动个性特点的精确描述.在HMM训练时,我们提出了特征的归一化处理方法,提高了HMM在实际应用中的性能. 最后,我们分别对身份辨认系统与身份确认系统的基本理论进行了叙述,并完成了系统的实践工作. 关 键 词:身份识别 唇动 特征提取 隐马尔可夫模型 K-L变换
上传时间: 2014-01-14
上传用户:wsf950131
基于隐马尔科夫的原来,写了相关关于HMM模型的代码。
标签:
上传时间: 2014-08-07
上传用户:qw12
Hidden_Markov_model_for_automatic_speech_recognition This code implements in C++ a basic left-right hidden Markov model and corresponding Baum-Welch (ML) training algorithm. It is meant as an example of the HMM algorithms described by L.Rabiner (1) and others. Serious students are directed to the sources listed below for a theoretical description of the algorithm. KF Lee (2) offers an especially good tutorial of how to build a speech recognition system using hidden Markov models.
标签: Hidden_Markov_model_for_automatic speech_recognition implements left-right
上传时间: 2016-01-23
上传用户:569342831
这是TSVQ的经典实现,在Linux下可以运行。TSVQ是一种高效的压缩和解压缩的方法,基于二叉树的结构来实现,比一般的VQ要好得多。 关键代码是mem_tsvqe.c 利用TSVQ实现对原始数据的编码压缩。
标签: TSVQ
上传时间: 2016-02-01
上传用户:jennyzai
常用的模型和算法介绍。有BP神经网络的C语言实现,BP神经网络解决异或问题,HMM的C语言实现,矢量量化的C语言实现,源程序实现。
上传时间: 2016-05-15
上传用户:jeffery
分词程序,HMM模型训练,维特比解码,有说明文档。
上传时间: 2014-11-29
上传用户:huql11633
常用的说话人识别方法有模板匹配法、统计建模法、联接主义法(即人工神经网络实现)。考虑到数据量、实时性以及识别率的问题,采用基于矢量量化和隐马尔可夫模型(HMM)相结合的方法。 说话人识别的系统主要由语音特征矢量提取单元(前端处理)、训练单元、识别单元和后处理单元组成,
上传时间: 2014-07-08
上传用户:wqxstar
这是书上的常用算法和模型介绍,有BP网络的C语言实现,HMM的C语言实现,失量量化的C语言实现。
上传时间: 2016-10-27
上传用户:luopoguixiong