轻钢别墅_自建房论坛门户网站_建房迷

 找回密码
 立即注册

QQ登录

只需一步,快速开始

用新浪微博登录

只需一步,快速搞定

查看: 12059|回复: 0
打印 上一主题 下一主题

[自建房智能家居微信] 误触发,声控智能家居的最大障碍【i访谈第121场】

[复制链接]

153

主题

154

帖子

462

积分

中级会员

Rank: 3Rank: 3

积分
462
跳转到指定楼层
楼主
发表于 2015-7-16 20:17:55 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
建房迷推荐产品,下单支持建房迷
建房迷智能家居交流范围包括的智能家居产品有智能电动窗帘、智能家庭影院、智能安防系统、智能照明控制系统、智能背景音乐系统、智能空调系统等。我们将互联网上最有影响力的文章分享给广大农村自建房对智能家居关注的用户。
“在讨论语音识别时,大家往往都只提到识别率,其实误触发才是语音识别没有变成真正产品的最大技术障碍。” 音航可以做到当前全世界智能家居中最好的效果:在一群人围着我们给他们定制优化的语音识别模块开会,2个小时误触发的次数小于等于1次,在这个条件下,保持识别率,在2米的距离上,以普通音量的识别率超过80%。

i访谈第121场-智能硬件专场
时间:2015.7.8,周三晚21:00-23:00
嘉宾:孙远 上海音航信息科技有限公司市场总监
主持人:周培良 杭州赫智电子科技有限公司运营总监
组织者:《物联网与云计算》杂志&复旦MBA IT俱乐部
嘉宾简介
        孙远,就读于上海交大电子系,先后工作于朗讯与英特尔,2006年创业,擅长算法研究与产品实现。2008年前后推出的语音识别引擎曾垄断功能机的语音识别市场。2011年推出非特定人语音识别专用芯片LD3320,面向智能硬件给出语音识别的本地硬件方案。
主持人简介
        周培良,毕业于浙江大学软件学院,曾任灵川软件项目经理,杭州天丽高级产品经理,现任杭州赫智电子运营总监,负责赫马市场及战略合作。
主要问题
主持人:请先简单介绍下音航科技的发展历程。
孙远:从05~06年我们还是做语音识别的软件平台,为功能手机提供语音识别的功能,也就是当年语音王的功能。一直到09年前后,由于盗版等原因,需要另外寻求发展,我们选择了走向硬件的道路,自己做了语音识别芯片,目标就是在没有手机的场合,提供本地的语音识别。目前的语音识别模块主要应用在智能家居领域,用来做本地的识别和语音指令控制。
主持人:从软件走向硬件?你们花了多长时间?
孙远:从08~09年开始思考,接下来是继续软件还是硬件?当时还没有App,只有SP。最终,电子系的基因让我们选择了走硬件。从09年开始正式设计芯片,从此就走上了硬件也就是现在说的智能硬件道路。
主持人:新公司是音航科技?谈谈这个名字的来历吧!
孙远:因为我们最早的公司叫音港。所以一脉相承下来。当时给自己起的公司英文域名是initport于是半音译有了“音港”这个名字。
主持人:能详细介绍下产品吗?有什么功能?与同类产品有什么不同?
孙远:目前我们的主要产品是语音识别芯片/模块,为智能家居以及智能硬件设备提供语音识别和声音控制功能。比如大家最常说的,回到家里,说一句“开灯”,灯就开了。
        我们自己的特色是硬件芯片,本地识别,不需要联网,7*24小时工作,在防止误触发的情况下保证识别灵敏度。



主持人:语音识别不需要语义分析吗?
孙远:不需要,因为我们所有的识别运算都在芯片中完成语音识别ASR,这个词语本身的含义,是声学模型识别。
主持人:如何在一个小小的芯片里能够识别那么多的汉字?是所有的语音都能识别吗?
孙远:可以认为你是比较老套的识别,就是你设定了语音命令是“大管家”三个字,你就必须说“大管家”,不能说“大大管家”。 但是反过来,语音识别在智能家居中需要的是不会失误触发,随时随地都在默默地听,直到你说出特定的命令。在学术上,也可以称之为基于识别列表的识别。就是会需要设定一个识别列表。我们觉得这个方式是非常适合智能家居这样的有明确控制命令的场合。
主持人:也就是说是特定语音指令的识别,不是模糊识别,是吗?
孙远:对。模糊识别这个名词实际上不是一个标准的学术用语。
主持人:这个思路有意思,孙总给我们科普了一下语音识别,那么这些指令是预先置入的?
孙远:我们从技术上一般分为基于识别列表的识别与听写系统。听写系统就是你在微信上用的语音转文字。听写的技术背后,实际上也是基于识别列表的识别,但是这个识别列表的热词的级别一般是10万~20万级别。指令是在每次识别启动前设定,对于我们的产品模块来说,可以在出厂前设定,也可以在出厂后由用户设定。
主持人:如果产品已经到用户手里,可以远程设定吗?例如用固件刷新的方式?
孙远:我们的模块支持用户设定,但是我们的模块只提供通过uart串口输入新的识别命令,如何远程获得命令字符,就是具体产品公司的事情了。
        目前有深圳的作LED的厂商是这样设计,他的wifi模块接在我的模块上,然后自己的App从用户的手机里面App获得新的识别命令,然后按照我产品模块的格式通过uart输入进来。
主持人:我对于语音识别还不是特别明白,孙总能否给我们简单科普一下语音识别?
孙远:语音识别ASR auto speech recognition 。最初的发展都是从70年代的几篇论文开始,最核心的技术就是 HMM,隐马尔可夫模型。这是一个概率模型,用来描述基于时间轴的语音流。目前所有的语音识别技术,在声学模型这一块都是 HMM语音识别的基础算法。思路是:提取特征,匹配特征。
        通俗的说就是收集非常多的人的语音,然后进行训练,找出说话的共性,比如“我” 这个发音,所有人说的共性,形成一组特征。然后在识别的时候,比如你设定了一个识别词语是“我爱你”。那么搜索引擎会把 wo ai ni 三个字的特征依次排列在这里,通过麦克风进来的语音数据,进行频谱变换后,也提取特征。
        如果能够依次激活 wo ai ni 的特征串,就可以认为识别到了。当然,真正实现算法产品时,需要考虑的因素要复杂很多。在98年的时候,IBM 就有via voice 产品力图解决听写问题,但是效果一般,而且当年的via voice 还建议每个用户在使用前,对着PC机再念他准备的话语单独训练一段时间。我前面讲过,大致可以分为基于识别列表的识别和听写两大分类。但实际上两者可以认为是一样的。因为听写运行在云上资源无限,所以会把识别列表的热词设置得非常多,比如20 万个热词。然后识别后,这些热词是带概率转移的词典。比如当你的声音某一段识别为“中国”,那么这个热词表里面有概率,比如80%概率中国后面都是接“人民”,那么接下来的语音流就会有算法去争取匹配到概率到的热词。因此,目前的听写从人工智能角度来说,仍然不是真正地智能,只是走了google 的技术路线,用大数据的搜索来代替智能。
主持人:现在主流的是基于云端的还是基于本地的呢?
孙远:目前的主流也无所谓是云还是本地,要看在你的产品上哪个能用起来。
主持人:有一部分语音识别产品是提供云服务,智能硬件产品接入云服务。关于这一点,孙总怎么看?
孙远:在智能手机上,大家都是提供云服务。没人放本地识别的引擎。然后在没有智能手机的场合,人们想用语音控制。就需要本地识别了。我的看法就是,如果你不介意你的所有声音都上传到云端,那么可以用基于云的语音识别。如果有人介意,就需要本地语音识别作一个开关,或者说做一个本地的语音开关。只在有需要的时候,才接入云。我上面的意思是,我们假定智能家居的语音识别,都是7*24小时开着,而不是类似于手机的App一样,每次用之前需要按一下按键。比如我们最近一个月正在做的微软的产品,他们要接入自己的云端识别,但是需要在本地有一个语音口令,防止7*24小时把所有声音都送上云,实际上也是什么都识别不成的。
主持人:目前做本地语音识别模块的只有音航一家吗?
孙远:我认为在国内专业的只有我们。世界上专业做的在美国还有一家。
主持人:音航科技的用户和客户群体是谁?
孙远:用户和客户就是智能家居、智能硬件设备厂商。我们芯片和模块刚刚出来的时候,最初的用户都是学生。最近两年内,有无数的语音识别的大学生毕业论文、 大学生创新大赛等等。随着推广,逐步到厂商,一直到目前的量产客户。
主持人:模块的卖点除了本地之外还有什么?
孙远:还有就是我们瞄准的市场有明确控制命令的智能硬件产品。你是用命令去控制他就好了,不陪聊,陪聊的需要上云。防止误触发的情况下,保持高灵敏度识别。而忽视了误触发,大家在讨论语音识别,往往都只提到识别率,其实误触发才是语音识别没有变成真正产品的最大技术障碍。
主持人:什么情况下会误触发?
孙远:从技术算法层面来讲,任何声音进到语音识别内部,都会被运算,尝试向热词词典内设定的词语靠拢。所以你在生活中的任何话语,如果旁边有语音识别引擎,都会被识别成各种词语,这就是误触发。
        举个例子,当年google glass 被人投送最多的一条就是他戴着google glass 在人群中的时候,他没有说“ok glass” 这个命令,但是却被激活了,这就是误触发。
主持人:假如我说了一句我累了?
孙远:不是你专门说“我累了”,而是你在旁边和人聊天和人打电话或者你听相声听歌曲任何的语音都有可能触发,所以这个才是语音识别最大的障碍。因为现在大家都要识别距离远,我能做到5米外识别。但是也意味着5米内25平米的声音我都需要采集到芯片内。
主持人:简单来说就是本地不会误触发?
孙远:本地会误触发,云端也会误触发,只是看各家的算法怎么降低这个概率,不可能绝对阻止。
主持人:这个防误触发率有数据证明吗?
孙远:靠测试。把产品放在办公室、家里下测试。
主持人:你们测试的结果对比情况如何?
孙远:Honeywell给我们定的技术指标是:在一群人围着我们给他们定制优化的语音识别模块开会,2个小时误触发的次数小于等于1次,在这个条件下,保持识别率,在2米的距离上,以普通音量的识别率超过80%。这个是Honeywell的美国人员仔细研究过当前在智能家居中全世界能做到的最好效果。所以我们都是说在防止误触发的情况下,再来讨论识别率。当然,有些产品是不用考虑误触发的,比如有些产品的识别是有物理开关量控制,比如手机上,你是按键后再说话或者有的咖啡机现在的设想是,咖啡杯放到托盘上的时候,才启动语音识别。
主持人:产品采取什么样的销售方式?售后是谁做?
孙远:目前的销售模式比较传统,我们给出了按照数量的一个价格梯度,不区分具体客户是代理还是厂商,按照数量走价格。目前也有代理合作伙伴正在一起针对几个特定市场进行一起推广,力图在几个有针对性的市场进行合作。
        售后的技术支持是我们自己在做,通过我们在模块上提供的VSR系统,我们把技术开发和实现的技术难度降到非常低,所以基本上我们目前的技术支持只需要工程师参照我们给出的示例VSR就可以,然后根据具体产品调节几个关键参数即可。
主持人:能否描述一下音航科技的应用案例?
孙远:Honeywell的温控器控制。7*24 小时在线,技术指标为在开会状况下(误触发压力最大的情况),误触发的次数每2小时小于等于1次。在2~3米距离上,说话人以普通音量(尤其一些女生的音量非常低),识别率超过80%以上。用户以“空调你好”为口令,唤醒温控器,唤醒后10秒钟等待更进一步命令,用户可以说“开机,关机,太冷了,太热了,升高温度,降低温度”指令。UI是一个很典型的语音控制的用户界面,就是面向距离人2~3米的距离,人每天会操作3~4次,操作的常用指令是明确的一般不超过10个,并且人不想每次都去找遥控器或者手机出来控制,这样的产品最适合用语音识别来控制进行。
主持人:这个模块耗电如何?
孙远:模块在识别状态下大概是30mA。播音状态下取决于播音的音量设置和配置的喇叭,最高峰值可以到450mA,如果语音识别要求24小时在线,那就始终是识别状态。
主持人:具体是什么概念,能否简单说明一下?
孙远:就是内部一直一直在跑识别引擎,生活中的每一秒声音都在被运算毫安。
主持人:能否电池供电?
孙远:模块最低可以介入3.6V 因为我的模块工作在3.3v,考虑到LDO的压降,所以外部最低给3.6v。
主持人:那如果锂电池供电,能用几天?
孙远:取决于锂电池的容量。2000/30 = 70小时。
主持人:相当于能用1个月左右?
孙远:不能这么算,很耗电。当然,我们也一直在向有兴趣的投资人说明,我们目前经过第一版芯片的积累,是可以知道如何改进,做超低功耗的语音识别芯片,我们的目标是10mA一下。因为拥有超低功耗的语音识别芯片就有希望进入智能手环、手机之类的产品中。
主持人:明白了,不能锂电池供电,必须220V转,你们的商业模式是怎么样的?主要收入来自哪里?
孙远:目前的商业模式比较传统,出售硬件模块。获得收益。
        下一步正在向终端的产品进行,目前正在进行的终端产品有两个,一个是面向主卧的语音识别吸顶灯,一个是面向小学生的带早教性质的语音互动玩具。
主持人:超低功耗就是休眠吗?
孙远:不是,语音识别不存在休眠。休眠了就是不工作了,那还怎么能识别到用户的命令呢?超低功耗就是想办法把功耗降下去,运算量一点不能少。这个超低功耗只有重新开芯片才可能解决。
主持人:音航科技的核心竞争力主要体现在哪里?
孙远:技术。我们自己的算法技术以及把算法实现成工业产品的研发能力。我们的语音识别算法引擎是我们自己一行一行用C代码码出来的,完全独立自主进化的产物。
主持人:音航科技目前的主要合作伙伴有哪些?和他们合作的原因是什么?
孙远:目前没有形成平行的合作伙伴,要么是上游采购,比如PCB和芯片供应商,要么是下游的客户等等,似乎还没有形成平行的合作伙伴进行业务和功能互补。
主持人:公司现在盈利了吗?
孙远:如果把芯片的投资也算上,那距离盈利还远呢。我们从手机软件卖识别软件赚的钱都砸芯片上了。
主持人:公司下一步打算如何发展?
孙远:下一步我们还是走技术路线。发展重点是继续深入优化语音识别的本地识别效果。同时在适合的终端产品领域进行开发和设计,增加利润空间。模块的利润空间非常有限。
吐槽环节
Bill:多少价位呢?
孙远:290模块我们定价K级别的价格是29,10K数量价格是24。不含税不包括运输。
王华:我们目前语音模块采购的芯片是科大讯飞的语音模块,语音的交互识别方面,尤其在短语方面还存在很多问题,出错回位或退格怎么考虑?
孙远:我们的是本地识别基于语音命令,不是听写。所以不存在你说的退格的事情。
王华:能提供样品及测试模块吗?
孙远:我们一般没有免费样品,根据我们调查,免费送的模块几乎都没有用上,花钱买回去的模块才是技术人员真正会测试的。
王华:你这个领域应归属在人工智能领域?
孙远我们是比较少见的做基础算法的硬件公司,算是在人工智能。只是我们的目标是更实际的产品中能用的。
周培良:做灯控吗?
孙远:是的,就把模块放到吸顶灯里面。命令只有几个,开关明暗最多加黄白我们今年在做完整的LED电源结合我们的模块,就是一个完整的吸顶灯。
工作很忙:不可以用语音方式做一个修改的流程吗?类似400电话里的语音导航。
孙远:不可以。因为本身新的触发指令也是一段语音。
工作很忙:由你们去制作好,通过云端去push update可行吗?
孙远:如果用户是给了拼音文字就是通过键盘或者手机输入了那么目前我们的模块就已经解决了。
前期回顾
[size=12.727272033691406px]※盈谷:提供专业医疗影像平台,打造良性生态圈
[size=12.727272033691406px]※Ablecloud,让硬件智能更简单

[size=12.7272720336914px]※智能硬件准备好爆发了吗?
[size=12.7272720336914px]※趣智宝:找准用户痛点,做39度智能恒温奶瓶
[size=12.7272720336914px]※将物联网感知做到极致的Maxense
[size=12.7272720336914px]※明机器人:将现实场景互联网化
[size=12.7272720336914px]※青米:从基层医院切入,坚守价值创业
[size=12.7272720336914px]※智能门神——创新打破同质化严重的安防产品市场
[size=12.7272720336914px]※英莱合创:做巨头不愿做的事儿
[size=12.7272720336914px]※博云物联要做地气的智能家居产品
不管你是i访谈的老朋友还是新朋友,

你感觉,

i访谈给你带去了或多或少的价值,
   期待你能转载/分享这篇文章,
以表支持!
感谢!
点击下方阅读原文加入i访谈~↓↓↓
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

微信群|Archiver|小黑屋|手机版|建房迷JianFangMi  沪ICP备05016077号-1 沪公网安备 31011502007163号

GMT+8, 2024-5-5 03:13 , Processed in 0.235057 second(s), 34 queries .

Powered by Discuz! X3.1

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表