AUITestAgent是首个能够基于自然语言测试用例,自动化完成终端UI测试驱动、校验全流程的智能化测试工具。仅需输入自然语言形式的测试需求,AUITestAgent通过多个智能代理(Agent)的合作,能够自动化进行从交互到检查的全链路测试过程,包括:自动与移动应用进行交互,然后自动执行对交互过程的检查,最后输出对应的测试结果。
在实现方面,AUITestAgent 从测试需求中提取GUI交互指令,利用动态组织的代理合作应对需求表达的多样性。随后,采用多维数据提取策略,从交互记录中提取与测试需求相关的数据并进行校验。
demo1.mp4
demo2.mp4
我们使用两个自定义基准,交互基准和校验基准,评估了AUITestAgent的性能。基准中包括8个广泛使用的商业应用(即美团、小红书、豆瓣、Facebook、Gmail、LinkedIn、Google Play和YouTube Music)。为了提供全面的评估,我们将交互任务的难度分为三个级别:简单(L1)、中等(L2)和困难(L3)。对于每个级别,我们构建了十个交互任务,中英文各半。
我们的实验表明,AUITestAgent准确完成了100%的L1任务,80%的L2任务,50%的L3任务。此外,通过与人工交互进行对比,AUITestAgent进行的交互中有94%与人工交互一致。这些数据表明,AUITestAgent在将自然语言命令转换为GUI交互方面显著优于现有方法。此外,AUITestAgent对注入的GUI功能异常的召回率达到90%,同时保持了仅4.5%的低误报率。AUITestAgent在美团中检测到的新异常进一步展示了其在复杂商业应用GUI测试中的实际优势。
有关详细信息,请参阅我们的论文和评估结果。
有关详细信息,请参阅我们的交互基准。
基线方法:
有关详细信息,请参阅我们的校验基准。
由于AUITestAgent是首个专注于自然语言驱动的GUI功能验证的工具,并且该领域尚无现有研究,我们基于多轮对话构建了一种验证方法,并使用GPT-4o作为基线方法。(仅在该实验中使用了这一大模型,在实际业务使用的场景下,我们使用了另一个模型)
如果您发现这项工作对您的研究有帮助,请考虑引用我们的论文。
@misc{hu2024auitestagent,
title={AUITestAgent: Automatic Requirements Oriented GUI Function Testing},
author={Yongxiang Hu and Xuan Wang and Yingchuan Wang and Yu Zhang and Shiyu Guo and Chaoyi Chen and Xin Wang and Yangfan Zhou},
year={2024},
eprint={2407.09018},
archivePrefix={arXiv},
primaryClass={cs.SE}
}
AUITestAgent 是复旦大学周扬帆教授团队和美团到店研发平台合作完成的工作。我们长期在大前端智能化领域深耕,除AUITestAgent之外还有多项技术沉淀,包括vision-ui, Appaction和AutoConsis.