语音用户界面的用户测试

用户测试是开发语音用户界面（VUI）过程中非常重要的一环。本章讲述语音用户界面测试的实用方法（成本由低到高），包括如何访谈测试对象以及如何衡量测试结果。 1、VUI 用户测试的特殊考虑因素 ...

用户测试是开发语音用户界面（VUI）过程中非常重要的一环。

本章讲述语音用户界面测试的实用方法（成本由低到高），包括如何访谈测试对象以及如何衡量测试结果。

1、VUI 用户测试的特殊考虑因素

开始测试前，不要主动向用户透露系统有语音识别功能（其他途径了解除外）。

测试中需重点确认：

1、用户是否知道他们可以与系统对话？

2、他们知道如何开始对话、何时开始说话吗？

2、用户及用例背景研究

强烈推荐早期阶段进行用户调研。

不要重造轮子

1、寻找类似开发产品，即使实现方式不同。

2、通过市场已有产品，了解类似功能如何运作以及产品特色。

3、如果存在类似 IVR 系统，通常会有呼叫中心的人工客服做后盾。可以坐在呼叫中心接听电话，了解来电用户的真实情况。

4、对呼叫中心的客服做调研，从他们那里了解用户想要什么？用户最大的抱怨是什么？什么样的信息是用户难以获取的。

5、采访你的目标服务人群。

如果你正在设计没有 IVR 组件的移动 App，你应该明确你的 VUI 系统可以解决什么？

3、为真实用户设计研究方案

尽早对真实用户进行测试，根据用户的实际情况进行优化设计。

1、任务定义

无论是做早期测试、原型测试，还是在测试系统上进行全面的可用性测试，都必须仔细定义你要求用户执行的任务。

测试内容：主要集中在对话的主流程（如常用功能）、高风险区域的任务、完成主要目的的任务、以及需求定义期间确定的设计标准。

撰写任务：只描述任务目标即可，避免提及相关指令和操作步骤。

任务内容：内容简单易懂，不易误解。语气温和让参与者保持轻松状态。

任务顺序：为了避免排序造成的影响，最好随机排列任务顺序。

如何更好的进行任务测试：拉丁方阵设计，每一项任务在每个位置都被安排一次，并且每一项任务可以轮次紧接着另外几项任务，而不必通过出现所有可能的排列方式来试验。

2、选择参与者

在目标用户中抽取测试用户。因为受试者离目标群体越远，测试结果越不可靠。

绝大数用户研究是定性的：参与者越多，测试成本越高。一般测试人员控制在5-10人最为合理。

筛选测试用户：准备一份文档，描述测试用户所具备的条件，以确保他们符合目标用户的条件。

如何招募测试用户：

2.1、通过招募公司

2.2、朋友和家人作为测试用户

2.3、远程测试拓展招募范围

3、提问

正确的问题更能梳理出用户体验的关键要素。

需要注意：面对面的访谈中，大多数人会表现得更加友善，有时会对提供消极反馈犹豫不决，也可能会夸大事物的积极面。所以我们要学会合理判断用户是否说真话。

测试之前：友善引导受试者，请他们帮助改善系统功能，表示希望能听到他们的真实反馈，即使是负面反馈也会欣然接受。

测试过程中：避免诱导用户，尽量让他们用自己的话解释。我们需要做的就是倾听、引导、挖掘用户的内在想法。

测试结束后：受试者在任务之间切换可能会忘记一些细节。所以每项任务完成后，询问受试者几个问题，并在整个测试结束再设置一组问题。

李克特量表的几条实用指导原则：

1、用一般现在时来陈述或提问。

2、不要使用本来就是事实的陈述或能够被理解为事实的陈述。

3、避免使用可能会有歧义的陈述。

4、避免使用大多数人都会赞成或反对的陈述。

5、尽量使积极陈述和消极陈述的数量相当。

6、语句应该简短，控制在 20 词以内。

7、每句话都应该符合语法规范。

8、避免使用普遍性的修饰词，如：所有、总是、没有人、从不，这些词经常会发生歧义。

9、避免使用不明确的修饰词，如：只有、仅仅、刚好、很多、很少、罕见等。

10、尽量使用简单句，避免用复合句或并列句。避免使用包含假设因果关系的语句。

11、使用回答者可以轻松理解的词汇。

12、避免使用否定词，例如：不、无、从不等。

关于李克特式问卷，这里就不放出表格了，可以去百度搜索下。

调查问卷包含了 App 的7个不同纬度：准确性、概念、建议提供（内容）、易用性、会话的真实性、用户好感度和视频流。

4、开放式回答（口头提问）

我们需要注意负面的陈述（系统很难使用）通常与积极的陈述（系统很容易使用）一起使用。这样做可以避免引起用户的偏见。

如何统一衡量正面和负面陈述？

对负面陈述的计分方式与正面陈述相反。然后通过计算每个类别的平均得分，对本次特定用户测试分类进行总结。

5、重点观察事项

通过观察用户或观看远程测试视频时，需要注意用户在 App 前做了什么，还要关注他们的面部表情和肢体语言。

进行 VUI 可用性测试时需要观察的事项：

1、用户是否知道什么时候该说话？什么时候不该说话？

2、假如你正在做早期测试，在语音识别功能就绪之前，他们会说什么？系统如何捕捉现实语音？

3、他们在哪里会感到困惑和犹豫？

4、任务测试期间，用户需要多长时间才能完成测试任务？

面对用户的提问，我们不应该直接回答，而应鼓励他们多尝试独立操作，当用户出现崩溃或沮丧时，这时该给予帮助。

4、早期测试

概念测试越早越好，除了测试移动设备的传统方法，还需要掌握其他一些低保真测试方法。

1、示例对话

VUI 早期测试工作的第一步就是创建示例对话。

示例对话：系统和用户之间的对话，不需要很详细，只需要展示最常用的会话路径、以及一些不常用但非常重要会话路径，如错误校正等。

在编写完示例对话后，进行模拟朗读测试，这些对话听起来如何？有重复吗？是否感觉呆板？

与开发人员讨论设计中复杂功能（例如：处理代词或引用用户先前的表述），但需要得到开发人员的认可，而不是开发后期再给他们“惊喜”。

2、原型

创建原型是早期阶段测试 App 的外观和感觉的好好方法，是获取用户对虚拟角色反馈的良好开端。

3、绿野仙踪测试法

WOz （绿野仙踪）测试是在系统设计早期完成的，会用在被测对象实际还未完工的时候。

WOz 测试：语音系统设计过程创造性的一部分，而不是用来校准即将完成开放给用户使用的模型。

进行 WOz 测试的条件：需要“巫师”和助理，巫师：专注于监听聆听用户的话语和表情并开启下一步操作。所以这个人不能同时负责访谈和记录。

移动端 App 适用的几种用户测试方案：

4、文字短信法

测试前告诉用户对着你的机器人发短信，进行会话测试（其实那个机器人就是你）。

5、专注于简短的任务

某些情况下，你只想了解用户在特定情况下会说什么。这个测试不需要语音识别功能，只需要一个模拟屏幕画面和相应提示就足够了。

6、持续给出“错误输出”

在对话中根据用户的回复，加入后退行为重复询问上一段问题，并提供相应的 GUI 选项。

7、先测试 GUI（尽管 VUI 尚未完成）

创建一个简单可用的原型，用户能够在原型上滑动页面、按下按钮、操作部分功能等。

8、WOz 测试与可用性测试的区别

WOz 测试的优点：不仅能够测试早期原型，在开发前期修改系统设计会比开发中再修改成本低很多。

在测试 VUI 过程中，WOz 测试和可用性测试之间最主要的区别就是识别精度。

GUI 进行 WOz 测试时：用户的动态操作一清二楚，不会产生歧义。

VUI 和自然语言交互进行 WOz 测试时：“巫师”必须做一些实时动态的解读，并判断这句话在真实的语音识别引擎下能否识别。“巫师”需要对用户的会话作出判断，了解用户真正含义以及 VUI 是否能够处理。

5、可用性测试

可用性测试是指 App 已经进入可运行的阶段，此时系统已经具备所有待测试的功能，且它们都可以正常运行。

可用性测试一般不针对识别的准确性进行测试，它的目的是测试工作流程和易用性。但识别问题可能会阻碍用户完成任务，所以识别问题仍是一项很重要的功课。

1、远程测试

远程测试的几个优点：

1.1、更容易找到符合特征的测试用户，因为选择范围不必局限在本地。

1.2、一般来说成本更低，因为你不必支付测试用户到你所在地的路费。

1.3、在自然状态下进行测试，更贴近真实情景。

1.4、减轻用户不自在的感觉，参与测试时没有人盯着他们。

1.5、有没有测试主持都可以，你不在场测试仍可以进行。

2、有人主持测试与无人主持测试

我们可以通过视频会议或电话来远程观察和访谈受试者。

有主持人：可以观察受试者的过程，并根据当前行为进行提问，主动探究更多的细节。

无主持人：测试用户可以自由的选择合适时间来执行任务。

3、录像

如果在远程测试中，你无法亲临现场，又想记录用户参与的情形，可以通过录像来记录。

优点：能够了解到用户对 App 说了些什么，以及观察到他们当前页面的反应。

缺点：增加成本、限制测试用户范围、无法实时跟进参与者的反应。

4、远程测试服务

一种远程用户测试的方法：通过诸如 Amazon 的 Mechanical Turk 等在线服务来找到测试用户。愿意接受测试的人可以自行注册 Mechanical Turk，“求助者”创建可通过网页在线完成的任务。受试者可以选择他们想做的任务，并得到一定报酬。

远程测试服务的优点：

4.1、成本相对更低。

4.2、可以招募到更多符合要求的用户。

4.3、不需要到固定地点参加测试。

4.4、相对于事先准备，更容易模拟真实场景。

5、实验室测试

传统的可用性测试通常在配备有单向透镜和记录设备的实验室中进行。

招募用户亲临现场做测试是非常高效的方法。最好能配置记录设备，这样我们所需要的信息才能被可靠的记录下来。

实验室测试的优点：

1、专门的场地用来进行用户测试。

2、配备了永久记录设备。

3、单向透镜、避免用户在测试过程中因有工作人员而感到不自在。

实验室测试的缺点：

1、费用高昂。

2、建立和维护实验室成本过高。

3、限制样本范围（当本地没多少目标用户）。

简约版实验室测试：

1、不需要一个专门测试场地，可以专门开辟一个空间用来做测试就行了。

2、安装摄像头传递用户所看到的信息。

6、游击测试

当没有多少预算时，你可以在人群中请求人们试用你的 App。

在进行现场测试，我们需要准备移动设备、任务内容、问题和奖品等东西。引导用户进行，对他们提出的意见都做保留记录，做好积极的反馈。

6、衡量测试结果

建议从主观和客观两方面综合衡量测试结果，因为从单一角度去衡量并不能给出完整的结论。

举例1：有些用户成功完成了任务，但他们不喜欢这个 App，又或者从技术角度而言他们没能成功完成任务，但这并不会影响用户体验。

举例2：用户完成部分任务就中途退出了。但仍可以认为他们完成了任务。因为用户得到了所需要的信息。所以也许用户只想知道任务的部分信息。

客观衡量标准：完整地记录观察过程，而不是仅仅依靠印象来记录。

VUI 测试5个关键的衡量指标：准确性与相应速度、认知程度、清晰/混乱、友好度和声音。

如何确定用户“完成”任务：询问用户是否得到所要的信息，如果没有得到，是什么原因造成的。

7、下一步计划

在 VUI 系统中跟踪错误数量和类型非常重要。例如：拒绝识别与错误匹配（用户说的话被识别成错误的含义）就是两种不同的错误类型。

此外，我们还需要注意之后发生了什么？用户修正错误了吗？花了多长时间？

测试任务完成，总结测试用户对问题的回答、任务完成率、错误数量和类型等信息。

根据测试结果找到用户的痛点，了解用户在哪一步感到困扰？他们知道什么时候可以与系统对话吗？或者哪里感到混淆不清或不耐烦？当出现任务出错时，是否能够成功修正？

写下观察结果，与团队分享讨论。按问题严重性排序，给出相对应的处理，制定详细修正计划。

8、测试汽车、硬件设备和机器人的 VUI 系统

硬件设备环境中测试 VUI 的不同之处。

1、汽车

大型汽车公司和一些大学有驾驶模拟器，但是对于小公司成本太高。

较低成本选项可以选择一个汽车模型（一台用于显示驾驶模拟器的显示器、一个方向盘、一台用来运行 App 的手机或平板电脑）。

可用性测试内容：了解用户如何与系统进行交互、用户的分心程度，以及在这个比实际驾驶环境更安全的情景下，哪些任务可以完成，哪些任务无法完成。

2、硬件设施和机器人

体验原型：假装自己与真实的产品进行交流沟通（寻找类似产品进行替代）。

行动是最好的思维方式，你可以花很长时间去思考人们将如何与你的设备进行交互，但没有什么能比人们真正与它交互来的更直观、高效。

9、本章小结

VUI 设备的用户测试与其他类型的用户测试有许多共通之处：建议尽可能在多个开发阶段进行测试；仔细筛选测试对象；测试产品功能的任务；不要主动引导测试用户；问正确的问题。

数据采集是建立一个成功 VUI 的重要步骤之一。在测试阶段手机数据可以让你尽早优化 VUI。你可以根据测试结果了解用户是如何与你的系统互动的，并以此设计出相对应的用户界面。

若有收获，就点个赞吧

语音用户界面的用户测试

联系我们

微信扫一扫关注我们

手机扫一扫打开网站

相关推荐

联系我们

微信扫一扫关注我们

手机扫一扫打开网站