OmAgent

🗓️ 更新

09/20/2024: 我们的论文已经被 EMNLP 2024 收录。迈阿密见！🏝
07/04/2024: OmAgent开源项目发布 🎉
06/24/2024: OmAgent论文发布

📖 介绍

OmAgent是一个多模态智能体系统，专注于利用多模态大语言模型能力以及其他多模态算法来做一些有趣的事。OmAgent项目包含一个专为解决多模态任务而设计的轻量级智能体框架omagent_core。我们利用这个框架搭建了超长复杂视频理解系统——OmAgent，当然你可以利用它实现你的任何想法。
OmAgent包括三个核心组成部分:

Video2RAG: 这部分的思想是将长视频理解转换为多模态RAG任务，好处是可以不受视频长度限制，但问题是这样的预处理会损失大量视频细节信息。
DnCLoop: 受到经典算法思想Divide and Conquer启发，我们设计了一个递归的通用任务处理逻辑，它将复杂的问题不断细化形成任务树，并最终使复杂任务变成一组可解得简单任务。
Rewinder Tool: 为了解决Video2RAG过程中信息损失的问题，我们设计了一个可以由智能体自主使用的“进度条”工具。智能体可以决定重看视频的任何细节，寻找他所需要的信息。

🛠️ 安装

python >= 3.10
安装omagent_core
```
cd omagent-core
pip install -e .
```
安装requirements
```
cd ..
pip install -r requirements.txt
```

🚀 快速开始

通用任务处理

创建配置文件并配置一些必要的变量

cd workflows/general && vim config.yaml

配置名	用处
custom_openai_endpoint	调用OpenAI GPT或其他MLLM的API地址，地址格式遵循`{custom_openai_endpoint}/chat/completions`
custom_openai_key	MLLM提供方的api_key
bing_api_key	Bing的api key，用于websearch

设置run.py

def run_agent(task):
    logging.init_logger("omagent", "omagent", level="INFO")
    registry.import_module(project_root=Path(__file__).parent, custom=["./engine"])
    bot_builder = Builder.from_file("workflows/general") # 通用任务处理workflow配置目录
    input = DnCInterface(bot_id="1", task=AgentTask(id=0, task=task))

    bot_builder.run_bot(input)
    return input.last_output


if __name__ == "__main__":
    run_agent("Your Query") # 输入你想问的问题

python run.py启动OmAgent。

视频理解任务

运行准备

创建配置文件并配置一些必要的变量

cd workflows/video_understanding && vim config.yaml

配置MLLM, tools调用的API地址和API key。

配置名	用处
custom_openai_endpoint	调用OpenAI GPT或其他MLLM的API地址，地址格式遵循`{custom_openai_endpoint}/chat/completions`
custom_openai_key	对应调用地址提供方的api_key
bing_api_key	Bing的api key，用于websearch
ovd_endpoint	ovd tool的调用地址。如果你使用OmDet，调用地址应该为`http://host:8000/inf_predict`
ovd_model_id	ovd tool调用使用的模型id。如果你使用OmDet，调用的模型id应该为`OmDet-Turbo_tiny_SWIN_T`

设置run.py

def run_agent(task):
    logging.init_logger("omagent", "omagent", level="INFO")
    registry.import_module(project_root=Path(__file__).parent, custom=["./engine"])
    bot_builder = Builder.from_file("workflows/video_understanding") # 视频理解任务workflow配置目录
    input = DnCInterface(bot_id="1", task=AgentTask(id=0, task=task))

    bot_builder.run_bot(input)
    return input.last_output


if __name__ == "__main__":
    run_agent("") # 问题会在console中提示你输入

python run.py启动OmAgent。输入你想要处理的视频路径，稍等片刻，输入你想问的问题，OmAgent会根据问题回答你。

🔗 相关工作

如果您对多模态算法，大语言模型以及智能体技术感兴趣，欢迎进一步了解我们的研究工作：

🔆 How to Evaluate the Generalization of Detection? A Benchmark for Comprehensive Open-Vocabulary Detection(AAAI24)
🏠 Github Repository

🔆 OmDet: Large-scale vision-language multi-dataset pre-training with multimodal detection network(IET Computer Vision)
🏠 Github Repository

⭐️ 引用

如果您发现我们的仓库对您有帮助，请引用我们的论文：

@article{zhang2024omagent,
  title={OmAgent: A Multi-modal Agent Framework for Complex Video Understanding with Task Divide-and-Conquer},
  author={Zhang, Lu and Zhao, Tiancheng and Ying, Heting and Ma, Yibo and Lee, Kyusong},
  journal={arXiv preprint arXiv:2406.16620},
  year={2024}
}

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README_ZH.md

README_ZH.md

OmAgent

🗓️ 更新

📖 介绍

🛠️ 安装

🚀 快速开始

通用任务处理

视频理解任务

相关环境准备

运行准备

🔗 相关工作

⭐️ 引用

Files

README_ZH.md

Latest commit

History

README_ZH.md

File metadata and controls

OmAgent

🗓️ 更新

📖 介绍

🛠️ 安装

🚀 快速开始

通用任务处理

视频理解任务

相关环境准备

运行准备

🔗 相关工作

⭐️ 引用