Skip to content

Latest commit

 

History

History
103 lines (68 loc) · 5.44 KB

README_zh.md

File metadata and controls

103 lines (68 loc) · 5.44 KB

AUITestAgent: 自然语言驱动的GUI异常检测工具

胡永祥1王轩1王颖川1张雨2郭诗雨2陈超轶2王新1,3周扬帆1,3

1复旦大学
2美团
3上海市智能信息处理重点实验室

🌟 项目简介

AUITestAgent是首个能够基于自然语言测试用例,自动化完成终端UI测试驱动、校验全流程的智能化测试工具。仅需输入自然语言形式的测试需求,AUITestAgent通过多个智能代理(Agent)的合作,能够自动化进行从交互到检查的全链路测试过程,包括:自动与移动应用进行交互,然后自动执行对交互过程的检查,最后输出对应的测试结果。

overview

在实现方面,AUITestAgent 从测试需求中提取GUI交互指令,利用动态组织的代理合作应对需求表达的多样性。随后,采用多维数据提取策略,从交互记录中提取与测试需求相关的数据并进行校验。

📺 示例

在美团中使用AUITestAgent

任务:查看景点门票频道中自然风光下第一个景点的评分,检查其评分在不同页面上是否一致

demo1.mp4

demo1

在脸书中使用AUITestAgent

任务:发送一条内容为"Hello everyone"的推文并点赞,检查推文发送后是否在主页显示,检查点赞后点赞按钮是否变为蓝色

demo2.mp4

demo2

📝 实验

我们使用两个自定义基准,交互基准校验基准,评估了AUITestAgent的性能。基准中包括8个广泛使用的商业应用(即美团、小红书、豆瓣、Facebook、Gmail、LinkedIn、Google Play和YouTube Music)。为了提供全面的评估,我们将交互任务的难度分为三个级别:简单(L1)、中等(L2)和困难(L3)。对于每个级别,我们构建了十个交互任务,中英文各半。

我们的实验表明,AUITestAgent准确完成了100%的L1任务,80%的L2任务,50%的L3任务。此外,通过与人工交互进行对比,AUITestAgent进行的交互中有94%与人工交互一致。这些数据表明,AUITestAgent在将自然语言命令转换为GUI交互方面显著优于现有方法。此外,AUITestAgent对注入的GUI功能异常的召回率达到90%,同时保持了仅4.5%的低误报率。AUITestAgent在美团中检测到的新异常进一步展示了其在复杂商业应用GUI测试中的实际优势。

有关详细信息,请参阅我们的论文和评估结果

UI交互实验

有关详细信息,请参阅我们的交互基准

interaction result

基线方法:

功能校验实验

有关详细信息,请参阅我们的校验基准

verification result

由于AUITestAgent是首个专注于自然语言驱动的GUI功能验证的工具,并且该领域尚无现有研究,我们基于多轮对话构建了一种验证方法,并使用GPT-4o作为基线方法。(仅在该实验中使用了这一大模型,在实际业务使用的场景下,我们使用了另一个模型)

📚 引用

如果您发现这项工作对您的研究有帮助,请考虑引用我们的论文。

@misc{hu2024auitestagent,
      title={AUITestAgent: Automatic Requirements Oriented GUI Function Testing}, 
      author={Yongxiang Hu and Xuan Wang and Yingchuan Wang and Yu Zhang and Shiyu Guo and Chaoyi Chen and Xin Wang and Yangfan Zhou},
      year={2024},
      eprint={2407.09018},
      archivePrefix={arXiv},
      primaryClass={cs.SE}
}

🧑 团队介绍

AUITestAgent 是复旦大学周扬帆教授团队和美团到店研发平台合作完成的工作。我们长期在大前端智能化领域深耕,除AUITestAgent之外还有多项技术沉淀,包括vision-ui, AppactionAutoConsis.