V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
sqbing
V2EX  ›  问与答

声纹识别答疑

  •  1
     
  •   sqbing · 2015-04-13 11:28:34 +08:00 · 4009 次点击
    这是一个创建于 3546 天前的主题,其中的信息可能已经有所发展或是发生改变。

    目前在做一个与声纹识别有关的项目,应用场景和微信摇电视功能差不多,手机麦克风采集,然后和后台的视频流对比对。

    实际做起来发现,准确率低的可怜,不知道是不是自己的方法有问题,又或者参数选取有问题。请这方面的朋友看看,帮忙理一理思路。

    处理流程包括,麦克风采集(wav文件),声纹计算(MFCC),声纹匹配(DTW)。

    12 条回复    2015-12-20 13:50:40 +08:00
    Themyth
        1
    Themyth  
       2015-04-13 11:33:42 +08:00
    太高端了 ,不懂,帮顶。。
    --------------

    很好奇,是不是用声音可以加密啊?
    sqbing
        2
    sqbing  
    OP
       2015-04-13 11:51:08 +08:00
    @Themyth 理论上来说很简单,MFCC的方法是上个世纪就提出来并且广泛使用的,很多项目也证明了声纹识别是可以实现的,比如echoprint和微信
    yghack
        3
    yghack  
       2015-04-13 11:55:33 +08:00
    还是算法识别率的问题吧
    我原来做过指纹识别,尝试了很多种方法,算法差别很大。
    jdnull
        4
    jdnull  
       2015-04-13 12:25:31 +08:00
    信道差别影响可能会很大;另外你的声纹匹配是硬匹配么?可以考虑把问题转化为分类问题,用一些分类算法做
    miaoever
        5
    miaoever  
       2015-04-13 12:43:54 +08:00
    模式识别无非就是要不特征牛,要不分类器牛。如果都不行,那效果也可想而知。
    liuweisj
        6
    liuweisj  
       2015-04-14 10:24:44 +08:00
    可以试试把声纹转成文本,用simhash计算距离来做相似度比较
    sqbing
        7
    sqbing  
    OP
       2015-04-16 08:13:33 +08:00
    @yghack 算法倒是没多大差别,就是不同的实现效率不一样
    sqbing
        8
    sqbing  
    OP
       2015-04-16 08:15:07 +08:00
    @jdnull 似乎很难转化为分类问题,而且我也没有办法做样本训练,用于校验的声音源是电视台的直播
    sivacohan
        9
    sivacohan  
       2015-06-05 08:51:34 +08:00 via Android
    声纹识别目前还是一个概念级的东西。
    声纹识别的难点在于不同设备录音会引入不同的噪音。并且采样率,位宽不同都会造成影响。
    MFCC的问题在于理论上是对的,但实际上把主音,背景噪音,电流噪音,mic噪音都去掉,可以有效用于识别的频道就很窄了。
    PS,如果识别准确率能达到30%,你就已经很厉害了。
    sqbing
        10
    sqbing  
    OP
       2015-06-08 08:21:30 +08:00
    @sivacohan 我描述的声纹识别相对来说很简单,不设计分词等等,只是单纯的波形匹配。目前的准确率在80%左右,不过你描述的噪音问题确实存在,我也在想办法提高信噪比。
    目前我的问题是性能不足,高并发情况下,处理效率太低了,主要是DTW算法的问题,离上线还有段距离。
    sivacohan
        11
    sivacohan  
       2015-06-08 09:10:23 +08:00 via Android
    @sqbing 有空Gtalk聊。
    astonysh
        12
    astonysh  
       2015-12-20 13:50:40 +08:00
    这个为啥要自己做?国内有提供专业解决方案的公司: http://acrcloud.cn
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2766 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 416ms · UTC 11:55 · PVG 19:55 · LAX 03:55 · JFK 06:55
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.