替换语音助手,语音助手开发语言( 七 ) _为什么语音只能一个软件用

问答型则不需要考虑复杂的对话逻辑，通常一轮对话就可以解决，重点在于语义解析与实体匹配。
闲聊型包括检索模式和生成模式，检索式是利用网络中已有的大量对话语料来构建索引，从索引中查找可能的候选回复，而生成式则直接从大量的人人的对话中学习对话模型，然后利用对话模型“创作”回复。
对话管理器会根据当前的对话状态生成一个预期回复(intended response)，然后进入自然语言生成(NLG) ⑤- 文本转语音(TTS) ⑥环节，把结构化的预期回复改造成自然语言，最终呈现给用户。
常见的说法是“系统形象(system persona)” ，相当于产品的前端，即系统通过的①语音特征，语气、语调、音色、节奏等。你可以选择使用合成(synthesized)声音，也可以选择录制的(recorded)声音；
②话术，编写问候语、特殊应答、提示语等时的用词、长短句这些，来展现与品牌相符的性格特质，比如亲切or正式，主动or顺从。
一个好的system persona能够很自然地成为你编写对话时的参考条件：“在这种情况下，这个persona会说什么或做什么？”
VUI的交互方式与对话内容很难彻底分开讨论，但做这种尝试，有助于跳出用户视角，走进“黑盒子”中。
我倾向于将“交互方式”看作《Voice User Interface Design》中所言的“High-level design”，而将“对话内容”看作“Detailed design” 。
“High-level design”关心的是怎样推动对话流畅地进行，让用户知晓系统的状态、任务进度等以便操作，比如系统在聆听、在期待收到指令、已离线等，可以理解为GUI中的弹窗、动效、视觉反馈等。
同时也为系统设计更好的规则，以便它做出更好的决策，比如在什么情况下需要向用户确认请求，可以理解为GUI设计中看不见的菱形判断框。
这些问题主要涉及到以下：
①对话模式设计
A.命令-控制式(command and control)，即用户想要说话时必须先唤醒系统，方式可以是使用唤醒词、手势触摸或者按键。一轮对话完毕，用户须再次唤醒系统以开启下一轮对话。
B.对话式，即在一段封闭的对话期间，比如完成某项特定的任务时，用户不必每一回合都唤醒系统，而是自然地进行话轮转换，在轮到用户说话时系统自动开启麦克风。
C.混合式，即命控式与对话式的结合，系统向用户提供明显的状态切换标识，比如使用声音标志(earcon)以表示某个状态的开始与结束。
②对话策略(dialog strategy)设计
包括：
A.对话框架设计，即对话组织策略
《Designing Voice User Interface》一书把对话框架分为：a.定向对话(directed dialog) ，即系统主导对话，向用户询问非常具体的问题，以期望获得同样具体的答案；b.菜单层级结构(menu hierarchy)，即系统向用户提供一系列选择，一旦用户完成了菜单a的选择，系统会继续提供菜单b ，直到完成用户的请求；c.混合推动(mixed-initiative)，即定向对话与菜单层级相混合，系统询问用户问题，也允许用户通过提供额外的信息来引导对话。
B.对话修补策略
技术并不完美，识别器可能还没有准备好接受呼叫者的话语，或者没有接收到说话者的语音，也可能响应时间太长。用户也常常会突然扭转话题，或者提供太多信息。因此在正向推动对话之外，系统也必须配备处理这些情况的策略，以减少前功尽弃的概率。
a.错误恢复
可能出现的错误有以下四种：
·未检测到语音