您的位置: 首页 > 技术杂谈 > 正文

质量评估模型助力风险决策水平提升

2022-11-15 11:00 https://my.oschina.net/u/4939618/blog/5593140 百度Geek说次阅读条评论

在这里插入图片描述作者 | 黄佳鑫

导读

基于风险驱动的交付是百度实践智能测试--感知智能阶段非常重要的研究方向，基于风险驱动的交付，源于三个现状：

一、不是所有的项目都有风险，80%以上的项目无任何的关联bug和线上问题；

二、不是所有的测试任务都能够揭错，无效的质量行为（有bug发现的质量行为/所有质量行为）占比非常高；

三、测试人员也有误判的可能，漏测一直存在。通过上述三个现状，可见如果能够有方法逼近：测该测的项目、评风险评得准，那么对测试效能和召回都有极大的帮助。

接下来我们将持续刊登三篇文章，来揭秘百度实践基于风险驱动的交付的冰山一角：

1、百度搜索业务交付无人值守实践与探索：从具体业务实践的角度介绍风险评估在交付无人值守领域的关键作用。

2、AI技术在基于风险测试模式转型中的应用：从测试全过程的角度介绍各环节以风险思维+AI技术加持的各种应用场景。

3、质量评估模型助力风险决策水平提升：从思路、方案和模型的角度介绍质量度模型的实现和挑战。

本文介绍第三篇：质量评估模型助力风险决策水平提升。

01 背景

无论自动化测试任务执行、项目准出还是项目流程流转主要依赖人员判断，而人员能力是有区别的，进而会影响质效，本文章主要介绍我们在探索和实践的一条路径，就是通过机器学习模型，让计算机自动，辅助甚至是替代人工，进行决策。

项目如何评估是否可以准出，如果是人工决策方式，一般分为三步：

查看交付过程涉及到的数据以及报告，包括查看代码、以及预估影响面、质量活动内容等；
结合这些数据给出决策结论，包括决策可以进入下一个流程、需要 qa补充测试；
跟进该项目，在后续环节是否有bug漏出，如果有bug漏出会去做 case study。经过case study学习，以及一些经验交流，QA不断提升测试认知，从而在下一次需求测试中，能做的更好。

基于这种人工决策的方式，存在一些弊端：

查看数据，每个人需要跨多个平台，查看各种测试活动的数据，看数据的重复性比较大，而且成本比较高；
依赖人工经验给出决策结论，人员素质参差不齐，特别是新老员工的测试经验的差距比较大，完全基于人工经验去评估，会存在判断盲区，造成漏测；
如果测试人员流失，会导致测试经验流失。并且测试人员的精力有限，当自主测试项目比较多，会影响测试项目的交付周期。

那么如何破局呢？

机器学习其实在很多实际的业务场景当中遍地开花，比如基于人工进行决策，现在通过机器自己去决策场景：

自动驾驶
智能的自检系统
通道人脸安检之类

这些场景都是能够让机器自己去做决策，我们是否可以引入机器学习，在质量场景里面让计算机去做风险决策呢？

以自动驾驶为例，自动驾驶从 L0 到 L5一共有六个等级，随着等级提升，自动化程度也同步提升，人工需要参与程度不断降低。

L0 阶段属于纯人工驾驶阶段，需驾驶员完全去做所有的操作以及环境监控；
到 L2 阶段的时候，是一个辅助驾驶阶段，汽车可以做部分自动驾驶，比如做一些加速、减速或制动，但是驾驶员还需随时保证能够控制这个车辆，以及全部的环境监测；
到 L3 跟 L4 的时候，就是条件自动化跟高度自动化阶段，汽车大部分时候能够自动操作，人只在偶尔需要去关注一下，部分的环境监测；
到 L5 的时候，就是完全全自动化驾驶阶段，让人完全变成了旅客。

以自动化驾驶为例，其实是很契合我们期望的，即基于机器进行风险决策：从纯人工决策 -> 辅助决策 -> 条件自动化 -> 高度自动化 -> 全自动化决策。

02 整体方案

要达到机器代替人自动决策，如何做到呢？

整体方案是构建质量评估系统，机器自动决策，自动流转流程，核心由风险识别、风险控制和风险决策3部分组成，具体如下：

风险识别: 识别动、静态风险点，包括人员，项目，代码变更和影响范围的风险；
风险控制: 针对识别的风险，推荐测试活动、测试用例，自动构造测试输入进行测试控制；
风险决策: 针对风险控制后的风险遗留概率和风险发生可能造成的影响，给出测试建议，风险等级和决策结论，就可以根据决策结论和建议做相应的辅助/自动化操作。

第一、风险识别：

风险识别这块，主要解决采集什么数据，如何采集，以及怎么串联这些数据？目前我们大概采集了5个维度共50+维特征，通过提测单+需求卡片id+自动化流水线id建立该维度血缘关系，即可以获取卡片对应维度的特征数据，便于后续做控制和决策。同时，支持业务自定义特征和数据的快速检索。 第二、风险控制：

风险控制，主要解决需求该如何测试。

传统的基于人工经验执行方式，一般是rd提测后，会触发所有流水线所有测试活动和用例，全部执行完，去判断测试是否充分。基本是看整体的代码覆盖率是否达标，以及挂载在流水线的测试用例是否执行通过，如果覆盖率不达标，就需要人工去补充case来提升代码覆盖率，或者任务失败了，去做问题排查。基于人工的方式，它的优点就是简单、粗暴、省事，无论风险怎么样？

但是它缺点是什么呢？从效能角度来说，因为不区分不同需求、不同风险，所有任务、所有用例重复和不必要的执行，会带来时间和资源的浪费。从质量角度来说，完全依赖于人工经验去判断，给出充分度的评估，人工是有盲区的，特别是依赖影响，很容易造成漏测。

风险控制直接以风险驱动执行模式，大概是一个怎样流程呢？

首先识别所有风险；
然后针对于变更，比如影响接口、影响场景有针对性的测试，能够覆盖变更用例做定制执行，如果有覆盖不到的，甚至可以推荐一些自动生成用例执行；
测试执行后，进行充分度评估，包括：一次测试输入的测试参数组合是否充分？执行的覆盖情况是否充分？输出、断言、error 类型是否充分？从而更加全面的评估测试充分度。如果不充分，可以给出是哪一块不充分，需要提升，进而补充相应测试。

以风险驱动执行方式，优点是按需执行，效率和利用率大幅提升。质量深度评估，给出测试建议，量化识别，减少人工盲区，经验得到沉淀，从而提升质量。缺点是对白盒识别能力强依赖，机制较复杂。
第三、风险决策：

风险决策主要解决识别风险，并进行控制后，如何给出决策结论？

先来看一下现实生活中场景，感触会比较深。主要举两个例子：一个是身体体检、一个是风控放贷。

身体体检，去做身体的风险预警：

我们会针对不同的群体，有不同的体检单，比如男生跟女生的体检单可能不太一样。然后每个不同的体检单，体检项上也会有区别，针对不同体检项的结果会根据体检项产生的危害程度，在体检报告上分类型去做决策推荐。比如待就诊的？还是待复查的？还是待关注的？整体是偏专家经验规则化的决策。

风控放贷，决定一个人可不可以放贷，放多少额度：

首先会去过一个黑名单的规则，看一下年龄有没有达到18岁？或者年龄已经八九十岁的？可能直接通过黑名单的机制，就不会给他放贷。

那么没有命中规则的部分呢？就没办法再通过一些确定性的规则去给出结论，那就依赖模型，抽取每个人的一些基础特征，或者是附属的一些特征丢给模型去训练，从而给出信用评分。就像蚂蚁芝麻信用分，基于这个信用分，去决定是否给这个人授信？以及授信额度？整体风控放贷的这个模式，其实是专家经验加风控模型的组合决策方式。

基于两个场景启示，我们提出决策方案主要是基于规则+模型+影响面进行量化决策。首先是规则加模型，给出风险发生概率，然后再结合风险发生之后可能会造成的损失，共同做决策结论。