🦉 OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation 🦉 OWL: 优化劳动力学习的通用智能体,用于处理现实世界的自动化任务
🦉 OWL 是一个前沿的多智能体协作框架,推动任务自动化的边界,构建在 CAMEL-AI Framework。
我们的愿景是彻底变革 AI 智能体协作解决现实任务的方式。通过利用动态智能体交互,OWL 实现了跨多领域更自然、高效且稳健的任务自动化。
- [2025.03.07]: 我们开源了 🦉 OWL 项目的代码库。
371254613005d51d73c82424e56a1d22.mp4
d106cfbff2c7b75978ee9d5631ebeb75.mp4
- 在线搜索:使用维基百科、谷歌搜索等,进行实时信息检索
- 多模态处理:支持互联网或本地视频、图片、语音处理
- 浏览器操作:借助Playwright框架开发浏览器模拟交互,支持页面滚动、点击、输入、下载、历史回退等功能
- 文件解析:word、excel、PDF、PowerPoint信息提取,内容转文本/Markdown
- 代码执行:编写python代码,并使用解释器运行
- 丰富工具包:提供丰富的工具包,包括ArxivToolkit(学术论文检索)、AudioAnalysisToolkit(音频分析)、CodeExecutionToolkit(代码执行)、DalleToolkit(图像生成)、DataCommonsToolkit(数据共享)、ExcelToolkit(Excel处理)、GitHubToolkit(GitHub交互)、GoogleMapsToolkit(地图服务)、GoogleScholarToolkit(学术搜索)、ImageAnalysisToolkit(图像分析)、MathToolkit(数学计算)、NetworkXToolkit(图形分析)、NotionToolkit(Notion交互)、OpenAPIToolkit(API操作)、RedditToolkit(Reddit交互)、SearchToolkit(搜索服务)、SemanticScholarToolkit(语义学术搜索)、SymPyToolkit(符号计算)、VideoAnalysisToolkit(视频分析)、WeatherToolkit(天气查询)、WebToolkit(网页交互)等多种专业工具,满足各类特定任务需求。
# 克隆 GitHub 仓库
git clone https://github.com/camel-ai/owl.git
# 进入项目目录
cd owl
# 如果你还没有安装 uv,请先安装
pip install uv
# 创建虚拟环境并安装依赖
# 我们支持使用 Python 3.10、3.11、3.12
uv venv .venv --python=3.10
# 激活虚拟环境
# 对于 macOS/Linux
source .venv/bin/activate
# 对于 Windows
.venv\Scripts\activate
# 安装 CAMEL 及其所有依赖
uv pip install -e .
# 完成后退出虚拟环境
deactivate
# 克隆 GitHub 仓库
git clone https://github.com/camel-ai/owl.git
# 进入项目目录
cd owl
# 创建虚拟环境
# 对于 Python 3.10(也适用于 3.11、3.12)
python3.10 -m venv .venv
# 激活虚拟环境
# 对于 macOS/Linux
source .venv/bin/activate
# 对于 Windows
.venv\Scripts\activate
# 从 requirements.txt 安装
pip install -r requirements.txt
# 克隆 GitHub 仓库
git clone https://github.com/camel-ai/owl.git
# 进入项目目录
cd owl
# 创建 conda 环境
conda create -n owl python=3.10
# 激活 conda 环境
conda activate owl
# 选项1:作为包安装(推荐)
pip install -e .
# 选项2:从 requirements.txt 安装
pip install -r requirements.txt
# 完成后退出 conda 环境
conda deactivate
在 owl/.env_template
文件中,你可以找到所有必要的 API 密钥以及各服务的注册网址。要使用这些 API 服务,请按照以下步骤操作:
- 复制并重命名: 复制
.env_template
文件,并将副本重命名为.env
。 - 填写你的密钥: 打开
.env
文件,在相应字段中填入你的 API 密钥。 - 如需使用更多其他模型:请参考我们CAMEL的models文档:https://docs.camel-ai.org/key_modules/models.html#supported-model-platforms-in-camel
注意:为获得最佳性能,我们强烈建议使用 OpenAI 模型。我们通过测试发现,其他模型在处理复杂任务和基准测试时可能会导致性能显著降低。
如果您希望使用Docker运行OWL项目,我们提供了完整的Docker支持:
# 克隆仓库
git clone https://github.com/camel-ai/owl.git
cd owl
# 配置环境变量
cp owl/.env_template owl/.env
# 编辑.env文件,填入您的API密钥
# 选项1:直接使用docker-compose
cd .container
docker-compose up -d
# 在容器中运行OWL
docker-compose exec owl bash -c "xvfb-python run.py"
# 选项2:使用提供的脚本构建和运行
cd .container
chmod +x build_docker.sh
./build_docker.sh
# 在容器中运行OWL
./run_in_docker.sh "您的问题"
更多详细的Docker使用说明,包括跨平台支持、优化配置和故障排除,请参阅 DOCKER_README.md
运行以下示例:
python owl/run.py
我们还提供了一个最小化示例,只需配置LLM的API密钥即可运行:
python owl/run_mini.py
OWL 支持多种 LLM 后端。您可以使用以下脚本来运行不同的模型:
# 使用 Qwen 模型运行
python owl/run_qwen.py
# 使用 Deepseek 模型运行
python owl/run_deepseek.py
# 使用其他 OpenAI 兼容模型运行
python owl/run_openai_compatiable_model.py
你可以通过修改 run.py
脚本来运行自己的任务:
# Define your own task
question = "Task description here."
society = construct_society(question)
answer, chat_history, token_count = run_society(society)
print(f"\033[94mAnswer: {answer}\033[0m")
上传文件时,只需提供文件路径和问题:
# 处理本地文件(例如,文件路径为 `tmp/example.docx`)
question = "给定的 DOCX 文件中有什么内容?文件路径如下:tmp/example.docx"
society = construct_society(question)
answer, chat_history, token_count = run_society(society)
print(f"答案:{answer}")
OWL 将自动调用与文档相关的工具来处理文件并提取答案。
你可以尝试以下示例任务:
- "查询苹果公司的最新股票价格"
- "分析关于气候变化的最新推文情绪"
- "帮我调试这段 Python 代码:[在此粘贴你的代码]"
- "总结这篇研究论文的主要观点:[论文URL]"
OWL 现在包含一个基于网页的用户界面,使与系统交互变得更加容易。要启动网页界面,请运行:
python run_app.py
网页界面提供以下功能:
- 便捷的模型选择:选择不同的模型(OpenAI、Qwen、DeepSeek等)
- 环境变量管理:直接从界面配置API密钥和其他设置
- 交互式聊天界面:通过用户友好的界面与OWL智能体交流
- 任务历史:查看交互的历史记录和结果
网页界面使用Gradio构建,在您的本地机器上运行。除了您配置的模型API调用所需的数据外,不会向外部服务器发送任何数据。
我们提供了一个脚本用于复现 GAIA 上的实验结果。 要复现我们在 GAIA 基准测试中获得的 58.18 分:
- 切换到
gaia58.18
分支:
git checkout gaia58.18
- 运行评估脚本:
python run_gaia_roleplaying.py
- 撰写一篇技术博客,详细介绍我们在现实任务中多智能体协作方面的探索与见解。
- 通过引入更多针对特定领域任务的专业工具,进一步完善工具生态系统。
- 开发更复杂的智能体交互模式和通信协议
源代码采用 Apache 2.0 许可证。
如果你觉得这个仓库对你有帮助,请引用:
@misc{owl2025,
title = {OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation},
author = {{CAMEL-AI.org}},
howpublished = {\url{https://github.com/camel-ai/owl}},
note = {Accessed: 2025-03-07},
year = {2025}
}
加入我们,参与更多讨论!
Q: 为什么启动示例脚本后,我没有看到本地运行Chrome浏览器?
A: 当OWL判断某个任务可以使用非浏览器工具(如搜索、代码分析等)完成时,浏览器就不会启动。只有在判断需要使用浏览器工具的时候,本地才会弹出浏览器窗口,并进行浏览器模拟交互。