什么是唤醒词?
指特定词语或短语,用于唤醒设备并启动语音交互。语音识别唤醒词的设计和选择对于用户体验至关重要。一般来说,唤醒词应该是易于发音、清晰且不易与其他词汇混淆的短语。
唤醒词有着至关重要的作用:
触发设备响应: 唤醒词是用户与处于待机状态的智能设备进行交互的“开关”。当用户说出唤醒词时,设备会立刻从待机状态转为活跃状态,准备接收并处理用户的后续指令。
提升用户体验: 通过简单的语音命令即可激活设备,无需物理操作(如按下按钮),这使得用户交互更加自然、便捷。特别是在用户手头忙碌或设备不在视线范围内时,唤醒词能极大地提升使用体验。
节省能源: 智能设备在待机状态下通常会进入低功耗模式以节省能源。唤醒词的使用允许设备在未被激活时保持这种低功耗状态,仅在接收到正确的唤醒指令时才进行全功率运行,从而延长设备的电池寿命。
确保隐私安全: 唤醒词的设计通常要求具有一定的独特性和辨识度,以减少误触发的可能性。这意味着设备不会在用户未明确意图与其交互时随意启动,从而在一定程度上保护了用户的隐私。
增强品牌识别: 许多公司选择将唤醒词与其品牌形象相结合,如“Hey Siri”之于苹果,“小爱同学”之于小米。这样的设计不仅便于用户记忆,还能在每次使用时强化用户对品牌的印象和认同感。
实现设备间的区分: 在多个智能设备共存的环境中,不同的唤醒词可以帮助用户准确地指定他们想要与之交互的设备,避免多个设备同时响应造成的混乱。
唤醒词自定义规则?
【中文】
- 一般为4-6个字,4个字最佳,过短容误唤醒高,过长不便用户呼叫和记忆;
- 避免使用敏感词:包含政治,伟人名字、脏话,黄赌毒等;
- 避免使用口语化的词汇,口语词汇日常使用频率很高,容易导致误唤醒,如“你好啊”;
- 唤醒词发音应选择易开口,响度大,发音清晰易分辨的词;
- 避免使用多音字,唤醒词的音节覆盖应尽量多,差异大;
- 避免使用叠字,避免连续使用零声母的词,如“安”;
- 如因使用市面上已存在的唤醒词而产生纠纷,由开发者自行承担,请慎重选择。
- 唤醒词加上免唤醒的命令词,总数不能超过10条。
- 设计词条时,如果词条之间只有一个字的不同,这个字尽量不要放在最后一个,可以降低误识别率。
【英文】
- 建议由2-4个单词(4-6个音节)组成,过短容误识高,过长不便用户记忆;
- 命令词间音节区分度越大越好;
- 符合用户的语言习惯,是常用的说法,内容具体直接;
- 应避免使用日常用语,如:“HI、HELLO”;
- 避免使用相似音节,词的发音清晰响度要大,如避免同时使用TURN-ON和TURN-OFF;
- 应避免使用叠词,如:“HELLO-HELLO”;
- 所有单词全部大写,如果一个命令词由多个单词组成,那么单词与单词之间用中横线连接,如:HELLO-AIR-CONDITIONING。
什么是识别灵敏度?
识别灵敏度有三档:低、中、高。默认为中。灵敏度越高越容易识别,同时误识别率会增高,反之,灵敏度越低越难识别,误识别率会降低。
唤醒词最多支持几条?
建议最多10条。超过10条可能会影响固件生成。
什么是唤醒阈值?
语音唤醒阈值是在语音唤醒技术中设定的一个关键参数,它相当于一个门限值,用于判定用户输入的语音是否成功唤醒了设备。当用户输入的语音的置信度大于这个阈值时,系统才会认定为成功唤醒。这个阈值的设定对于平衡唤醒的准确率和误唤醒率至关重要。
什么是二次唤醒阈值?
语音二次唤醒阈值是指在第一次唤醒语音助手后,若系统未正确识别或响应,用户可以再次使用唤醒词进行二次唤醒的阈值。这种机制增加了系统的可用性和用户体验,而不会对误触发率产生显著影响。
比如使用“嘿Siri”进行唤醒,存在两个阈值:一个主阈值和一个下限阈值。如果分数超过主阈值,则激活Siri。但如果分数在下限阈值和主阈值之间,系统进入更敏感的状态几秒钟,以便在用户重复短语时能够触发Siri,即使在没有进一步尝试的情况下。这种第二次机会机制显著提高了系统的可用性,而不会增加虚假警报率。
在实际应用中,二次唤醒阈值的设定同样需要考虑多个因素,如唤醒词的选择、应用场景的差异以及用户对误唤醒的容忍度等。与初次唤醒阈值的设定类似,二次唤醒阈值的调整也需要在误唤醒率和唤醒率之间找到一个平衡点。
在语音交互系统中,如果二次唤醒阈值设置得太高,可能导致用户需要多次尝试才能成功唤醒语音助手,影响用户体验。如果设置得太低,虽然可以提高唤醒成功率,但也会增加误唤醒的概率,同样不利于用户体验。因此,合理设置二次唤醒阈值是语音交互系统设计中的一个重要环节。
什么是深度休眠阈值?
在设备或系统中,深度休眠通常是一种更节能的休眠模式,旨在进一步降低设备的功耗和能源使用。
深度休眠唤醒阈值是指当用户输入的语音的置信度大于这个阈值时,设备会从深度休眠状态被唤醒。
最后编辑:admin 更新时间:2024-11-07 11:39