AUITestAgent: 自然语言驱动的GUI异常检测工具

胡永祥¹，王轩¹，王颖川¹，张雨²，郭诗雨²，陈超轶²，王新^1,3，周扬帆^1,3

¹复旦大学
²美团
³上海市智能信息处理重点实验室

🌟 项目简介

AUITestAgent是首个能够基于自然语言测试用例，自动化完成终端UI测试驱动、校验全流程的智能化测试工具。仅需输入自然语言形式的测试需求，AUITestAgent通过多个智能代理（Agent）的合作，能够自动化进行从交互到检查的全链路测试过程，包括：自动与移动应用进行交互，然后自动执行对交互过程的检查，最后输出对应的测试结果。

在实现方面，AUITestAgent 从测试需求中提取GUI交互指令，利用动态组织的代理合作应对需求表达的多样性。随后，采用多维数据提取策略，从交互记录中提取与测试需求相关的数据并进行校验。

📺 示例

在美团中使用AUITestAgent

任务：查看景点门票频道中自然风光下第一个景点的评分，检查其评分在不同页面上是否一致

demo1.mp4

在脸书中使用AUITestAgent

任务：发送一条内容为"Hello everyone"的推文并点赞，检查推文发送后是否在主页显示，检查点赞后点赞按钮是否变为蓝色

demo2.mp4

📝 实验

我们使用两个自定义基准，交互基准和校验基准，评估了AUITestAgent的性能。基准中包括8个广泛使用的商业应用（即美团、小红书、豆瓣、Facebook、Gmail、LinkedIn、Google Play和YouTube Music）。为了提供全面的评估，我们将交互任务的难度分为三个级别：简单（L1）、中等（L2）和困难（L3）。对于每个级别，我们构建了十个交互任务，中英文各半。

我们的实验表明，AUITestAgent准确完成了100%的L1任务，80%的L2任务，50%的L3任务。此外，通过与人工交互进行对比，AUITestAgent进行的交互中有94%与人工交互一致。这些数据表明，AUITestAgent在将自然语言命令转换为GUI交互方面显著优于现有方法。此外，AUITestAgent对注入的GUI功能异常的召回率达到90%，同时保持了仅4.5%的低误报率。AUITestAgent在美团中检测到的新异常进一步展示了其在复杂商业应用GUI测试中的实际优势。

有关详细信息，请参阅我们的论文和评估结果。

UI交互实验

有关详细信息，请参阅我们的交互基准。

基线方法：

MobileAgent
AppAgent

功能校验实验

有关详细信息，请参阅我们的校验基准。

由于AUITestAgent是首个专注于自然语言驱动的GUI功能验证的工具，并且该领域尚无现有研究，我们基于多轮对话构建了一种验证方法，并使用GPT-4o作为基线方法。（仅在该实验中使用了这一大模型，在实际业务使用的场景下，我们使用了另一个模型）

📚 引用

如果您发现这项工作对您的研究有帮助，请考虑引用我们的论文。

@misc{hu2024auitestagent,
      title={AUITestAgent: Automatic Requirements Oriented GUI Function Testing}, 
      author={Yongxiang Hu and Xuan Wang and Yingchuan Wang and Yu Zhang and Shiyu Guo and Chaoyi Chen and Xin Wang and Yangfan Zhou},
      year={2024},
      eprint={2407.09018},
      archivePrefix={arXiv},
      primaryClass={cs.SE}
}

🧑 团队介绍

AUITestAgent 是复旦大学周扬帆教授团队和美团到店研发平台合作完成的工作。我们长期在大前端智能化领域深耕，除AUITestAgent之外还有多项技术沉淀，包括vision-ui, Appaction和AutoConsis.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README_zh.md

README_zh.md

AUITestAgent: 自然语言驱动的GUI异常检测工具

🌟 项目简介

📺 示例

在美团中使用AUITestAgent

任务：查看景点门票频道中自然风光下第一个景点的评分，检查其评分在不同页面上是否一致

在脸书中使用AUITestAgent

任务：发送一条内容为"Hello everyone"的推文并点赞，检查推文发送后是否在主页显示，检查点赞后点赞按钮是否变为蓝色

📝 实验

UI交互实验

功能校验实验

📚 引用

🧑 团队介绍

Files

README_zh.md

Latest commit

History

README_zh.md

File metadata and controls

AUITestAgent: 自然语言驱动的GUI异常检测工具

🌟 项目简介

📺 示例

在美团中使用AUITestAgent

任务：查看景点门票频道中自然风光下第一个景点的评分，检查其评分在不同页面上是否一致

在脸书中使用AUITestAgent

任务：发送一条内容为"Hello everyone"的推文并点赞，检查推文发送后是否在主页显示，检查点赞后点赞按钮是否变为蓝色

📝 实验

UI交互实验

功能校验实验

📚 引用

🧑 团队介绍