V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
AdolfPik
V2EX  ›  程序员

关于语音识别/认证

  •  
  •   AdolfPik · 2013-04-10 11:26:35 +08:00 via Android · 3958 次点击
    这是一个创建于 4280 天前的主题,其中的信息可能已经有所发展或是发生改变。
    我是个本科的学生,最近在搞一个语音识别认证的项目。
    具体内容大概是这样:
    通过读取音频的波形文件,进行采样、滤波、FFT这一系列操作,得到声纹,这个声纹就是由一系列的向量构成,然后把这一声纹和之前库中存放的声纹档案进行比对。实现一个语音认证的过程。这个是软件部分。
    硬件部分可能要把这个认证系统用在保险箱上,比如你说一句话,保险箱咔哒就开了。这样看起来视觉效果比较唬人。

    现在的问题主要在软件部分,就是怎么样对波形进行处理,得到那个数据结构。这部分我想找一些开源的代码改改用。不过不知道用什么好,请问有什么推荐吗?
    11 条回复    1970-01-01 08:00:00 +08:00
    echodjb
        1
    echodjb  
       2013-04-10 11:40:41 +08:00
    你做的不是语音识别、、、是声纹识别吧
    sobigfish
        2
    sobigfish  
       2013-04-10 11:45:18 +08:00
    @echodjb 貌似他是想识别特定的密语(芝麻开门?)同时验证声纹。
    AdolfPik
        3
    AdolfPik  
    OP
       2013-04-10 12:49:30 +08:00 via Android
    @echodjb 对。大概是。三楼正解。
    iicodec
        4
    iicodec  
       2013-04-10 13:13:12 +08:00   ❤️ 1
    LZ可以检索下audio hashing/fingerprint这样的关键词

    http://echoprint.me/
    https://code.google.com/p/musicg/
    http://phash.org

    至于他们的特征抽取是否能满足你的应用就不好说了,这个得研究算法。
    看你的需求是想提取某个人发音的固有特征,这对特征要求就更高了。

    保险箱那个。。。还是算了吧。我觉着这类方法抗攻击性都不强(类似人脸识别),伪造比较容易,像你说的,作为附加项,唬人还是可以加点分的。做音乐识别/检索一些应用还是可以的。

    B.R.
    AdolfPik
        5
    AdolfPik  
    OP
       2013-04-10 13:37:11 +08:00
    @iicodec 关键词记下了,谢谢!是,伪造确实比较容易,主要就是为了唬人。为了应对可靠性不高的质疑,或者准备把这个作为多因素验证中的某一项。
    ljbha007
        6
    ljbha007  
       2013-04-10 13:53:36 +08:00
    @AdolfPik 录音机完破
    AdolfPik
        7
    AdolfPik  
    OP
       2013-04-10 15:51:38 +08:00
    @ljbha007 录音机只能记录到PCM波形啊...需要的是向量式的数据结构不是波形。
    sivacohan
        8
    sivacohan  
       2013-04-11 00:00:53 +08:00 via Android
    进行fft的时候有一个要点。要设定一个单位能量的基准。可以根据声波的平均能量来进行设定。
    这个东西难点在fft这。解决了这个问题之后,就是一堆数字在这比较了。你的需求不算麻烦。
    如果用python的话,你一定会用的numpy的。
    echodjb
        9
    echodjb  
       2013-04-11 19:31:32 +08:00
    @AdolfPik 你这是与文本相关的声纹识别
    AdolfPik
        10
    AdolfPik  
    OP
       2013-04-12 08:51:57 +08:00 via Android
    @echodjb 不知道算不算和文本相关。机器不需要理解语义的
    AdolfPik
        11
    AdolfPik  
    OP
       2013-04-12 08:52:31 +08:00 via Android
    @sivacohan 谢谢。记下了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2837 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 07:30 · PVG 15:30 · LAX 23:30 · JFK 02:30
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.