您好,欢迎来到百家汽车网。
搜索
您的当前位置:首页车载导航人机语音交互系统的实现

车载导航人机语音交互系统的实现

来源:百家汽车网
维普资讯 http://www.cqvip.com

l文蕴蕴 个 脚 Automotive日eclTonics 车载导航人机语音交互系统的实现 Design and Implementation of Human—machine Speech Interaction in Vehicle Navigation 清华大学汽车安全与节能国家重点实验室刘旺杨殿阁连小珉 摘要 支持语音交互是车载导航系统的一个发展趋势。本文讨论了 车载导航系统人机语音交互的实现方法,包括对话模式、关 键词识别、语音控制命令、名称识别、语音合成。试验结果 证明,系统能满足车载导航人机语音交互的要求。 关键词 车载语音导航;人机语音交互;语音识别;语音合成 0l矗 语音作为自然的人机接口,可以使车载导 航系统实现更安全、更人性化的操作。通过国 内外车载导航系统的功能对比可知,支持语音 交互是车载导航系统的一个发展趋势。另外, 市场信息服务公司J.D Power and Associates的 图2导航系统的状态转换网络 调研数据也表明,56%的消费者更倾向于选择 的路径规划、车辆地理位置和速度等导航信息 声控的导航系统。因此,开发车载语音导航系 的实时显示;导航语音交互功能分为语音操作 统是很有意义的。目前,国内已经具备开发车 和语音提示两部分。在系统的设计中,根据人 载语音导航系统的技术基础,特别是文语转换 机交互的需求,设计语音导航系统的硬件框架 TTS技术和基于中小词汇量的语音命令识别技 如图1所示。 术已经达到比较实用的程度。本文在课题组的 图1语音导航系统的 车载导航系统和国内两款语音引擎的基础上, 硬件框架 开发了一套支持语音交互的车载导航系统。 语音导航系统和用户之间的人机交互接口 由触摸屏、按钮、话筒、显示屏和扩音器等五 个交互设备组成。该硬件框架可实现常规的手 动交互方式,也可以实现语音交互方式。整个 钱浯普导航系统 系统划分为三个子系统:导航子系统、语音识 结构 从功能上分为车载导航 和导航语音交互两方面。 其中车载导航功能包括 GPS卫星导航定位、电 别子系统和语音合成子系统,各子系统间通过 车载语音导航系统 接口进行通信,协调完成语音导航任务。 车载导航入机语苦交互系统埘话模式 计 导航系统的状态转换网络 整个导航系统是一个复杂的人机交互系 子地图浏览查询、智能 127 维普资讯 http://www.cqvip.com 栏目编辑Il 文蕴蕴II 统,为便于语音交互 二者统一划分在地图浏览状态下。对于区分对 对话模式的设计,首 待这两个子状态的交互过程,可以通过附加条 先对系统作状态划 件来判断当前子状态,再作不同的处理。地图 分,然后从人机交互 浏览状态节点的对话模式设计如图3所示。 的角度描述整个系统 的状态转换网络。将 系统划分为地图浏 览、功能选择等六个 人机 I.;:变 系统的灾 语音控制命令的实现 语音控制命令的实现方案如图4所示。图 功能状态和一个退出 状态。图2描述了这些 状态之间的状态转换 图3地图浏览状态的对话模式 网络。 图中的节点代表 系统的各个状态,带 箭头的连线代表从源 状态到目标状态的转 换。状态转换网络接  l收用户的操作作为驱 图4语音控制命令的实现设计方案框图 动事件,完成从一个 状态到另一状态的转换,网络中的一条路径便 代表着特定的交互过程。 导航系统各状态节点对话模式设计 为便于描述各状态节点内部的对话模式, 将状态节点按图2所示编号为S1-¥7,用T 表 示状态节点s 到状态节点S 的转换。另外,借 鉴状态流stateflow模型的表示方法,提出用于 描述车载导航人机语音交互系统中的对话模 型。重新定义转换的描述方式,用四个属性来 描述状态节点内的一次转换: T={P。,P2,P ,P } (1) 其中,t用于表示一个转换,Pi-P 为转换 的属性:P.为语音事件;P。为语音输出{P 为 附加条件; 为转换动作。 这样,一个转换t便描述了一次对话中用 户的语音输入,系统的语音输出、对话受到的 条件以及系统执行的动作。 以地图浏览状态为例,说明对话模式设计 的过程。地图浏览状态由两个互斥的子状态组 成:地图漫游状态和车辆引导状态(参见图2)。 这两种子状态的人机交互大部分相同,所以将 中左边方框代表整个语音导航系统对话模式的 状态转换网络STN。根据对话模式的设计,将 系统分为地图浏览状态、功能选择状态、路径 规划状态等7个状态节点,每个状态节点内部均 存在各自的语音对话模式,对话模式由若干内 部转换组成。因此,整个语音导航系统是一个 两层结构的状态转换网络,其内部转换由语音 事件驱动。语音事件由导航子系统的接口模块 根据语音识别子系统发送的用户意图而产生。 语音控制命令的实现过程分为以下四个步 骤: ・语音识别引擎根据当前命令词表识别用 户语音,得到识别结果。 ・管理窗口获取到识别结果,通过查询“识 别词一控制命令”映射,得到识别结果对应的 控制命令,并将控制命令作为用户意图发送至 导航子系统的接口模块。 ・接口模块响应用户意图,通过语音事件 改变语音导航系统的状态。 ・接口模块根据语音导航系统的状态判断 是否需要更改当前命令词表,若需要则通过管 理窗口更改当前命令词表。 PO1名称的识别方法 识别子系统除了要识别控制命令以外,还 需要识别POI(兴趣点、标志点)名称。PO1名称 识别与控制命令识别最大的区别在于其候选集 合在规模上的差异。在本系统中,进行控制命 令识别时候选集合的规模最大约为30个,但进 行PO1名称识别时,以所用的北京电子地图为 例,其POI点的个数为20,172个,此时其候选 集合的规模比控制命令识别时大几个数量级。 利用命令词识别引擎进行识别时,必须为引 维普资讯 http://www.cqvip.com

I义缢缢 仅小-IX:Jl|I 擎提供一个当前词表, 导致识别时间相应地变长。 候选POI集合 需要先将候选集合中 的词条转化为词表, 导航系统语音提示的实现方案 导航系统的语音提示由专门的语音合成子 系统完成。将语音提示的实现过程分为提出请 , 、、 d表1 离删圳 ‘ .. . 才能真正地进行识别。 n 同时,基于中小词表 求和执行请求两步。请求的提出方和执行方构 - 逝 ii 鼠{ N/二 的ASR识别引擎不能 成客户/服务器(c/s)模型,其中,语音合成子 生成规模达2万多的 ’1 系统充当服务器。由于语音合成引擎通常不能 离线 i刖 图5离线遍历识别PI ̄名称的流程 N N 图6合成子系统优先级管理程序流程 表1提示信息的优先级设置 提示信息 优先级 描述用户操作行为的语音 l 提示后续操作的语音 2 用于向用户询问特定信息 的语音 3 用于传达车辆引导信息的语音 4 作为回答用户询问的答复语音 5 表2语音交互功能的测试项目 测试功能 地图缩放(放大、缩小) 车辆状态信息查询(车速、里程、当前位置等) 菜单操作 地理信息查询 路径规划(起点、终点的选择、开始导航等) 退出程序 词表,所以对于PO1名 称识别,采取了不同 于控制命令识别的方 案。在对控制命令进 行识别时,因为候选 集合可以用一个词表 来表示,采取了在线 识别的方法。而对PO1 名称进行识别时,单 个词表无法容纳所有 的PO1名称,由此提出 了利用识别引擎离线 识别功能的离线遍历 识别方案。该方案利 用多个词表来描述整 个候选集合。实现的 具体流程如图5所示。 该方案将候选 POI集合划分为n个子 集,并生成各子集的词 表,然后以各词表为当 前词表进行离线识别, 并将这些局部的识别 结果汇总形成一个临 时词表,最后在这个临 时词表中进行识别,得 出全局的最优识别结 果。该过程遍历了各个 子集,相当于在整个候 选集合中匹配出最优 识别结果,所以识别正 确率得到了保证。同时 由于识别次数的增加, 同时输出多线合成的语音,所以会遇到请求冲 突的情况。发生请求冲突时,最直接的处理策 略是:中止正在进行的合成转而进行下一个合 成,或者维持正在进行的合成而忽略新的合成 请求。为此在语音合成子系统中设计了管理模 块用于决定发生合成冲突时的处理方式。 对于语音合成子系统,合成请求的提出是 一个随机事件,将这类随机事件记为Q;。每个 合成请求Q.都具有优先级的属性,其优先级的 高低取决于请求的提示信息的重要程度,见表 l。管理模块的处理流程见图6。如果下一请求 Q 的优先级高于当前请求Q;,则优先合成Q +.。 乍钱语 航系统的试验验 图7为本文的车载语音导航系统的实物照 片。对本系统进行了语音导航的验证试验,通 过语音交互完成了表2中所示的车载导航功能。 试验表明,系统的状态能够完全正确地按照设 计的对话模式进行转换,并能正确完成各种导 航功能的人机对话过程;同时,系统的语音提 示也能正确工作。 另外测试了系统正确响应语音控制命令的 能力。测试中,用清晰平稳的语音,对地图浏 图7车载语音导航系统 129 维普资讯 http://www.cqvip.com 栏目编辑II 文蕴蕴II PO1名称字数 一2 7 9 3 8 9 4 9 10 5 7 8 6 9 9 7 9 10 8 10 10 9 9 9 10 10 10 总计 78 84 正确率 86 7% 93-3% 次识别正确个数/10个 二次识别正确个数/10个 正确识别的平均耗时,s 6.3 6.1 7.O 8-4 8.7 8.8 9.9 10.3 lO-4 / / 览状态所有语音控制命令的49个识别词进行了 结 测试,共测试49 X 3=147次,成功132次,失 表3离线遍历识别方 本文主要完成了车载导航人机语音交互系 案的试验结果 败15次,成功率为89.8%。可见,系统语音控 统的设计和实现,并在实验室环境中对系统进 制命令的有效性较好。 在海量PO1名称识别的试验中,对字数为 行了实验验证。 证明利用合成的语音,可以实现丰富灵活 2至10的PO1名称进行了测试。对于每一长度的 的语音提示,使用户可以在不分散过多精力的 PO1名称,分别取10个进行测试。其中每个PO1 前提下使用导航系统。进一步的工作是提高识 名称最多做两次测试,当且仅当第一次测试失 别正确率和降低正确识别的平均耗时。嬲 败才继续第二次测试。试验结果如表3所示。 可见,离线遍历识别方案的一次识别正确 率为86.7%,二次识别正确率为93.3%。其正确 参考文献 1.丁捷.车载GP5自主导航方法的研究:【硕士学 识别的平均耗时为6.1s至10As之间,按PO1名 位论文】.北京:清华大学汽车工程系.2o03 称的字数统计分布计算加权的平均耗时为8.3s。 2.孟祥旭.李学庆.人机交互技术一原理与应用. 以上数据说明,该方案能够利用小词汇量的关 北京清华大学出版社.2o04.131 ̄136 键词识别引擎实现大词汇量PO1名称的识别, 3.刘加.刘润生.语音识别技术.北京:清华大学 并且获得了满意的识别正确率,但是耗时较长。 电子工程系.2o01 访:不断创新的德国家族企业 一Harting公司的产品包括工业,通信解决方案,例 如工业PC接口及以太网和总线组件,还提供可靠的 Har1jng公司在中国 在刚刚落幕的上海慕尼黑电子展上,《电子产 品世界》杂志社与德国慕尼黑博览集团共同主办了 “第二届国际连接器,原件技术论坛”,德资雅迪 高性能数据连接器,这些连接器具有最大的信号完 整性,可处理移动通信网络中的高速和超高速数据 速率。基站连接器仅仅是众多可用产品中的一小部 分。Sven先生指出:Hatting在中国市场除保持原有 的工业和通信市场优势外,在医疗电子、汽车电子方 面亦有所涉及。公司在珠海新建成的厂房将对中国 (Harang)公司市场总监温朗俊先生该公司最新推出的 “con:card+”技术所做的报告,成为本次论坛的“新 市场乃至世界市场的连接器生产和分销起到至关重 要的作用。 技术”亮点(论坛的详细报道可参见本刊4月杂志)。 作为论坛主讲方,Harting公司全球业务发展经理 SvenHoltgrewe先生接受了本刊专访。 “不断创新是关键”,Sven先生说。作为全球创 新连接器生产商,Hatting不但能提供连接器,更重 Harling公司是德资家族式企业,已有62年的发 Hatting,厶\司全球业务 发展经Y ̄Svcn Holtgl’ewc 要是建立连接器工业标准,及根据客户要求提供不 同连接及系统解决方案。利用信号 电源、光纤、气 动解决方案,其Han产品系列(Han=HARTING规 范)为工厂自动化、机械制造、交通运输和风力发 展历史,附属公司分布于25个国家,2005 ̄20o6财政 年度的销售收入达3.13亿欧元。Sven说:“Hatting公 司于1988年进入中国市场,在多个城市设有办事处 和销售点,并投资超过1200万欧元,在珠海兴建了 电等领域的电气连接器建立了基本的世界标准。 3万平方米的新厂房。目前,包含中国在内的亚洲市 场仅占该公司营收的14.2%,在珠海投资建厂的目标 是将亚太市场的比例扩大到l,3。” 我们期待,有着悠久历史的德国家族式连接器 企业Hatting公司不断开拓创新,在中国取得更好的 业绩。匝 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- baijiahaobaidu.com 版权所有 湘ICP备2023023988号-9

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务