近日,国际顶会EMNLP 2024揭晓论文录用结果,联汇科技论文《OmAgent: A Multi-modal Agent Framework for Complex Video Understanding with Task Divide-and-Conquer》(OmAgent: 一种基于分而治之策略的复杂视频理解多模态智能体框架)被EMNLP 2024录用,标志着联汇科技在智能体领域的创新成就再次得到国际认可。
EMNLP 2024(The 2024 Conference on Empirical Methods in Natural Language Processing)是计算机语言学和自然语言处理领域的三大顶级国际会议之一,其涉及领域包括但不限于机器翻译、文本生成、文本分类、信息抽取、问答系统、语言模型等研究方向,是CCF推荐的B类国际学术会议,在清华计算机学术推荐列表中认定为A类会议,在相关领域享有极高的学术声誉。
联汇科技本次论文围绕OmAgent——一种基于分而治之策略的复杂视频理解多模态智能体框架展开,在多模态大型语言模型(MLLMs)迅速发展的背景下,需要对视频内容的进行深入理解的复杂多模态任务越来越多。然而在处理类似于长时间监控录像或完整电影的超长视频数据时,大模型仍面临巨大挑战,数据量庞大且计算需求高成为了主要的桎梏。此外,如先提取关键帧再将视频内容对齐到文本的传统方法,往往会导致关键信息的严重丢失。
为克服这些局限,联汇科技提出OmAgent多模态智能体框架,它结合了目前最新的RAG(Retrieval augmented generation)和任务驱动型智能体技术,能够高效存储并检索查询相关的特定视频帧,最大程度保留视频中的细节。该框架引入了分而治之思想,具备自主拆分问题推理的能力,能够根据需求动态调用API和各类工具,提升特定视频帧检索的精准性和灵活性,显著增强了对长视频的理解能力,极大程度上减少了信息损失。广泛的实验结果表明,OmAgent在处理多种视频类型和复杂任务时表现优异,展示了强大的视频理解能力。
OmAgent的先进性不仅在于其处理复杂视频理解任务的能力,更为未来多模态智能体技术的创新应用开辟了更多可能,联汇科技将始终以技术为先,持续引领智能体发展的先进趋势,推动更多创新应用加速实现。
目前,OmAgent智能体框架已强势开源。开源仓库github搜索om-ai-lab或OmAgent即可体验
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
文章投诉热线:157 3889 8464 投诉邮箱:7983347 16@qq.com