智能语音识别与交互在家电领域的标配应用,已是家居产品智能化的重要内容。当前,家电产业正不断加大语音识别与交互技术的研发投入。
下一步智能语音识别与交互将如何发展?现行的标准技术要求能否满足行业需求?评价测试的场地和设备已形成了哪些规范?近日,为推动以智能语音为代表的人工智能核心技术发展,广东省智能家电创新中心召开“智能家电语音识别与交互系统标准技术研讨会”。
作为国内人工智能语音领域的佼佼者,云知声出席活动并发表《解密语音交互方案抉择与落地的关键动作》主题演讲。
▲云知声资深专家现场作主题演讲
面向AIoT领域,云知声基于多年技术沉淀,通过标准化组件,构建云端芯一体化的产品解决方案,赋能智能家居、智慧酒店、智慧社区、智慧交通、智慧园区、智慧校园等多个场景,合作伙伴包含华为、美的、格力、长虹、京东、TCL等行业龙头企业。
现场,云知声基于在AIoT领域的实践经验,向与会嘉宾深度分享了AIoT语音交互的通用流程和核心模块及方案选型思路。
以下为分享精华,我们做了整理,谨供学习:
语音交互落地面临的挑战
当前,语音交互的落地面临三大挑战:
首先面临的是感知、表达、认知三大核心能力的构建——通过感知能力,我们能知道用户在说什么;通过认知能力深入理解用户的意图;通过语音合成、图像或其他形象化方式等表达能力将内容和信息传递给用户。
其次是AI公司都会面临的问题:落地场景的碎片化。不同应用场景的终端设备不同,也就意味着不同的预期、不同的功能需求。
最后是连接和互操作的挑战。我们发出的语音指令,需要实现多端同步、数据上报、表达操作结果等。
那么,云知声是如何突破这些挑战,更好适配市场需求的呢?
离线or在线的方案抉择
针对不同的产品形态载体,云知声总结了一套通用的语音交互流程,无论在线、离线,都适用,但每个模块实现的复杂程度和效果可能有较大差异,也就是说对核心能力的要求是存在差异的。
在离线化方案中,有些模块则需要进行简化。但降噪算法、语音唤醒和语音识别这三个模块,直接关乎用户体验的性能不能简化。其余简化处理的部分,不是不需要了,而是基于用户刚需和硬件资源间找准平衡。
而在云端化方案中,可以达到语音识别和合成的词汇量扩充到任意级别,并且具备对自然对话的理解能力。即使这样在自然语言理解、对话逻辑、自然语言生成、内容服务这几个模块,不同场景下的用户需求也千差万别。
对比一下离线化方案和云端化方案,可以看出,云端化的目的有二:一是实现更强的识别和理解能力,二是提供更丰富的内容。但对于家电而言,大多数产品需要的是识别和理解能力,而非内容层面。
那能不能在离线方案上实现识别和理解能力的提升,更好满足用户体验?
云知声给出的答案是:离线自由说——在离线方案上,实现基于深度学习的语音交互。
云知声语音交互的实践与探索
为加速语音 AI 落地,云知声将麦克风阵列、信号降噪、语音识别、自然语言理解等技术封装在芯片中,以此为终端提供“认知+感知+表达”核心能力,打造面向物联网的人机交互入口。
同时,通过云端开发平台,快速实现算法、芯片、软件应用到智能化终端的一体化:零代码降低研发门槛,标准化提升落地速度,满足终端智能化升级的价格预期,实现规模化落地和行业爆发。
目前,云知声芯片及模组出货量达千万级水平,积累超过千家合作客户。其中,作为白电和小家电领域大规模量产的语音方案,已经赋能近700品类家居设备,覆盖多种日常生活场景,始终保持市场领先。
可以预见,随着chatGPT等大模型技术应用的逐渐展开,机器的交互能力将不断增强,用户将更愿意与之互动,用户粘性的增加也将反向推动交互能力的进一步提升,人机交互浪潮将愈演愈烈。接下来,云知声将继续向感知与分析、认知技术、决策与生成三大方向发力,持续探索智能交互边界,以技术优势赋予AIoT无限想象,打开更多市场空间。