如您有工作需要分享,欢迎联系:aigc_to_future
作者:EgoLife团队
解读:AI生成未来
文章链接:https://arxiv.org/pdf/2503.03803
项目链接:https://egolife-ai.github.io/
亮点直击
超长时间跨度的多模态数据集:EgoLife数据集通过一周的连续记录,提供了300小时的多模态、多视角数据,能够捕捉长期行为模式和社会互动。 生活导向的问答任务:EgoLifeQA任务设计贴近实际生活需求,如物品定位、健康习惯跟踪等,推动了AI在日常生活辅助中的应用。 集成系统EgoButler:结合EgoGPT和EgoRAG,系统能够处理长上下文问答和多模态数据,提供个性化、上下文感知的AI辅助。 技术突破:通过多模态数据融合、身份识别和长上下文问答技术,EgoButler系统在自我中心AI领域取得了显著进展,为未来的研究和应用提供了坚实基础。
总结速览
解决的问题
现有数据集的局限性:现有数据集(如Epic-Kitchen和Ego4D)记录时间短,视角单一,无法捕捉长期行为模式和社会互动的复杂性。 个性化AI助手的挑战:需要开发能够理解超长期行为模式、多模态数据(视觉、音频等)以及多视角互动的AI系统,以提供个性化的生活辅助。 长上下文问答的难题:如何从长时间跨度的多模态数据中提取信息,回答与日常生活相关的复杂问题(如物品定位、健康习惯跟踪等)。
提出的方案
EgoLife数据集:通过6名参与者在一周内的持续记录,收集了300小时的多模态、多视角的自我中心数据,并辅以第三人称视角的同步视频和毫米波设备数据。 EgoLifeQA任务:设计了一套长上下文、生活导向的问答任务,评估AI助手在日常生活场景中的有效性。 EgoButler系统:集成了EgoGPT(轻量级的多模态模型)和EgoRAG(检索增强生成模块),用于处理长上下文问答和个性化辅助。
应用的技术
多模态数据融合:结合视觉、音频和语言数据,开发了EgoGPT模型,用于自我中心视频理解。 身份识别与跟踪:通过多模态数据实现个体识别和跟踪,支持个性化服务。 长上下文问答:利用EgoRAG模块,从长时间跨度的数据中检索相关信息,生成上下文感知的回答。
达到的效果
数据集丰富性:EgoLife数据集提供了前所未有的长时间、多模态、多视角的生活数据,填补了现有数据集的空白。 任务实用性:EgoLifeQA任务涵盖了日常生活中的实际需求,如物品定位、健康习惯跟踪等,推动了生活导向AI的发展。 系统性能:EgoButler系统在长上下文问答和多模态理解方面表现出色,为未来的自我中心AI助手奠定了基础。
EgoLife 数据集与基准
数据收集
概述
EgoLife 数据集是在七天内收集的,六名志愿者居住在一个名为 EgoHouse 的定制环境中(如下图 1 所示)。每位参与者都佩戴了 Meta Aria 眼镜 ,并捕捉了多模态的自我中心视频。为了增强数据集的第三人称视角,15 个 strategically 放置的 GoPro 相机从多个角度记录了参与者的活动。此外,毫米波雷达提供了空间和运动数据,支持对日常事件和互动进行同步、全面的多模态分析。
EgoLife 活动
在这一周内,参与者被要求在倒数第二天组织一个地球日派对。为了准备,他们举行了会议和讨论,排练了表演(如音乐和舞蹈),练习并分享了烹饪技巧,并按照地球日的主题装饰了房子。活动还延伸到房子之外,参与者去购物和观光,并在购物中心等地点获得了录制许可。下图 3 显示了一周的活动时间表,EgoLife 周的详细日记见附录。
保持信息丰富且连贯的捕捉
确保每对智能眼镜在参与者醒着的时间内每天至少记录六小时。为了实现这一点,主要研究者积极监控参与者,并在观察到长时间被动行为(如躺着刷抖音)时,提供温和的提示以鼓励他们参与有意义的活动。由于存储限制,录制被分为三小时一段。为了保持数据的连续性,眼镜每三小时被收集一次以进行数据上传和存储清理,这一过程大约需要一小时。在此期间,参与者被要求在房间内休息或进行非必要的活动,以防止录制片段中的逻辑中断。
语言
EgoLife 数据集的主要语言是中文。所有标注(转录、字幕、问答)主要使用中文,并翻译成英文。
数据清理
为了确保同步性、参与者隐私以及标注和数据发布的准备,实施了严格的数据清理过程,如下图 4 所示。
转录标注
在同步所有自我中心视频后,开始了转录标注,将六名参与者的音频轨道合并为一个,并应用语音识别生成初始的时间戳转录。使用开源的 diarization 算法,我们区分了说话者并生成了包含重叠对话的初步转录。然后,对这 50 小时的转录进行了准确性审查。之后,我们将音频分成六个轨道,每个参与者一个。审查员对每个轨道进行了细化,只保留每个参与者能听到的语音,最终生成一个准确指示每行由谁说的最终转录。
字幕标注
字幕工具是一个带有配音功能的视频编辑软件。将所有视频分成 5 分钟的片段,并将其减慢到 0.8 倍速,允许标注者通过不间断的详细叙述提供高信息密度的内容。叙述涵盖了所有动作、互动和显著的环境细节。当没有特定动作发生时,标注者描述了参与者的注意力和周围环境中的显著特征。叙述通过转录工具转换为文本,然后进行审查和校正,为每个视频片段生成同步、时间对齐的文本描述。
初始标注或"叙述"由 361K 个简短的、类似字幕的短语组成,平均每个叙述持续 2.65 秒。使用 GPT-4o-mini,将相关短语合并为 25K 个"合并字幕",形成与特定视频片段对齐的连贯句子。然后,通过将这些字幕与代表性帧(以 1 FPS 采样)和相应的转录配对,并由 GPT-4o 进行总结,将这些"合并字幕"扩展为"视觉-音频字幕",这些字幕丰富了视觉和语音上下文,并由人工标注者验证(见图 1 中的示例)。这些字幕有两个主要用途:训练 EgoGPT 和自动生成下一部分的问答候选。
EgoLifeQA 标注
对于问答标注,我们设计了五种类型的问题来评估长期生活助手的能力:
EntityLog:测试长期记忆,关注对象的详细信息,如最后使用时间、位置、价格等。 EventRecall:询问过去的事件,并回忆上次执行关键任务的细节。 HabitInsight:关注个人习惯模式。 RelationMap:查找人际互动。这评估了人物识别的性能。 TaskMaster:基于先前的行动分配任务(例如,当墨水不足时提醒购买笔)。
每种问题类型的示例可以在下图 5 中找到。为每种类型设计了提示,并将"视觉-音频字幕"分批输入 GPT-4o,生成每位参与者约 100K 个时间戳问题。这些 AI 生成的问题以 SRT 文件的形式提供给标注者,使他们能够与相关视频片段同步查看每个问题。这些问题并非最终标注,而是作为标注者的过滤和灵感工具,帮助他们识别有价值的实例。仅保留需要至少五分钟前信息的问题,优先选择那些需要更长依赖性和强烈现实相关性的问题。这一简化过程使得能够高效创建适合长上下文推理和实际现实任务的高质量问答数据集。
经过严格的选择和细化过程,将 100K 个问答候选过滤为每位参与者 1K 个高质量问题——不到原始池的 1%——以进行进一步的细致修订。这最后一轮策划产生了每位参与者精心制作的 500 个问答集。标注者还为多选题生成了干扰项,正式将 EgoLifeQA 确立为多选题回答的基准。此外,他们标注了是否需要音频来回答问题,并指定了检索正确答案所需的回溯时间(认证长度)。统计细节见下图 6。
EgoButler:代理自我中心生活助手
EgoButler 旨在解决 EgoLifeQA 提出的复杂任务。它由两个核心子系统组成:EgoGPT(系统 I)用于片段级全模态理解,EgoRAG(系统 II)用于长上下文问答。管道如图 7 所示。
系统 I:用于片段理解的 EgoGPT
EgoGPT 在 EgoButler 中有两个主要功能。首先,它执行连续视频字幕生成:处理每个 30 秒的片段,使用视觉和音频输入生成字幕。这种多模态字幕生成为 EgoRAG 检索任务提供了即时理解和有价值的上下文。其次,EgoGPT 通过利用 EgoRAG 检索到的线索来协助问答。
为了更好地与自我中心视频领域对齐并融入音频理解,我们引入了 EgoIT-99K,这是一个多样且具有代表性的自我中心视频数据集(详见下表 3),其问答对来自使用针对动作、对象和事件定制的提示生成的视频标注(见附录 F)。该数据集用于在 LLaVA-OneVision 上微调 EgoGPT,将带有音频的视频作为训练数据。由于 LLaVA-OneVision 基于 Qwen2,我们开发了一个类似于 Ola 的音频分支,使用 Whisper Large v3编码音频,并在 LibriSpeech 上训练音频投影模块。从 LLaVA-OneVision 的音频投影模块开始,我们使用 EgoIT-99K 进行最终阶段的微调。为了个性化,我们在 EgoLife 第一天的视频上微调 EgoGPT,使 EgoLifeQA 中的问题具有身份识别能力。我们将 EgoGPT(EgoIT-99K+D1)定义为个性化版本,将 EgoGPT(EgoIT-99K)定义为非个性化基线。
系统 II:用于长上下文问答的 EgoRAG
为了解决长时间跨度的长上下文场景,EgoRAG——一个检索增强生成(RAG)系统——增强了记忆和查询能力,实现个性化和长期理解。它采用两阶段方法:
记忆库构建
在第一阶段,EgoRAG 与 EgoGPT 集成,提取视频片段字幕并将其存储在结构化记忆模块中,确保高效检索时间戳上下文信息。字幕由 EgoGPT 连续生成,并由语言模型按小时和天级别总结,形成可扩展检索的多级记忆库。记忆库 包括:
其中 表示片段特征, 表示文本描述, 表示时间戳摘要(每小时、每天)。
内容检索与响应生成
当提出问题时,EgoRAG 首先通过检索更高级别的摘要 来假设相关时间窗口,并从天细化到小时进行搜索。在选定的窗口内,使用基于相关性的评分函数进行细粒度检索:
其中 平衡视觉和文本相关性。选择前 个最相关的片段:
检索到的内容随后被输入到语言模型(如 EgoGPT、GPT-4o 等)中,以生成一个基于信息的响应:
这种分层检索策略确保响应既具有上下文相关性,又在计算上高效。
EgoButler 中的集成与协同作用
EgoGPT 和 EgoRAG 共同构成了 EgoButler 系统,将高效的视频解释与长上下文记忆相结合。EgoGPT 持续收集个性化的自我中心数据,而 EgoRAG 检索并提供相关线索,从而实现准确且上下文感知的响应。
实验
实现细节
在三个自我中心数据集上评估 EgoGPT(7B):EgoSchema、EgoPlanBench 和 EgoThink,在适用的情况下每个片段使用 32 个视频帧以确保公平比较。对于 EgoLifeQA,在此版本中对 Jake 的 500 个问答进行了快速评估。为了比较不同模型,我们将它们集成到 EgoButler 框架中作为字幕生成器,替换 EgoGPT,同时与 EgoRAG 协作完成问答任务。最终响应由 GPT-4o 统一生成以确保公平评估(见公式 4)。EgoRAG 遵循一个简单的检索流程:基于文本的相似性检索(在公式 2 中设置 )选择前 3 个最相关的 30 秒片段作为 EgoGPT 及其替代模型的输入。使用 GPT-4o-mini 进行重新查询,并预存储结果以确保公平性。
EgoGPT 的主要结果
下表 4 展示了 EgoGPT 与最先进的商业和开源模型在自我中心基准上的性能比较。借助 EgoIT-99K 数据集,EgoGPT 在这些基准上表现出色,其中 EgoGPT(EgoIT-99K+D1)取得了最高的平均分。
在下表 5 中,EgoGPT 在识别个体和有效整合全模态信息方面的能力使其与缺乏个性化适应的通用商业模型(如 GPT-4o 和 Gemini-1.5-Pro)区分开来。然而,尽管 EgoGPT 在某些领域(特别是 RelationMap 和全模态整合)表现出显著优势,但任务本身仍然具有挑战性,仍有很大的改进空间。
EgoRAG 的效果
下表 6 强调了 EgoRAG 在长上下文问答中的影响。像 Gemini-1.5-Pro 和 EgoGPT 这样的模型无法处理超过 40 小时的超长视频。为了解决这个问题,将视频分割成 30 分钟的片段,并直接在每个片段中提出问题。这使得模型无需 EgoRAG 即可回答问题。然而,这种分段方法由于缺乏全局上下文,常常导致幻觉和错误答案,特别是对于需要从其他片段中获取线索的问题。EgoRAG 通过跨片段检索相关证据来缓解这些问题,显著提高了准确性。对于跨越 24 小时以上的查询,EgoGPT+EgoRAG 得分为 35.4,优于 EgoGPT 和 Gemini-1.5-Pro,展示了长期检索的关键作用。
EgoGPT 变体的分析
下表 7 展示了 EgoGPT 变体在 EgoRAG 记忆库构建中的关键见解。使用人工字幕标注有助于获得最高分,强调了高质量字幕对于更好检索和性能的重要性。在 EgoGPT 变体中,仅音频模型表现最弱,而仅视觉模型表现更好,表明仅音频信息可能不足以解决 EgoLifeQA。结合视觉和音频输入的变体表现最佳。通过额外的 EgoLife 第一天字幕数据带来的持续改进,突显了融入参与者特定信息以及领域特定泛化的重要性。
定性结果
下图 8 展示了 EgoGPT 的优势和 EgoRAG 的效果。与 Gemini-1.5-Pro 相比,EgoGPT(EgoIT-99K+D1)在个性化和生成上下文相关字幕方面自然表现出色,尽管存在显著限制。EgoGPT 的语音理解仍然不完整。它在理解人类笑声和情感方面存在困难,可能是由于其对 ASR 训练数据的依赖。身份识别是另一个挑战。由于它在 EgoLife 第一天进行了微调,它倾向于过度拟合早期观察结果。例如,如果一个人在第一天穿了蓝色衬衫,EgoGPT 可能会将后来穿蓝色的不同人误认为是同一个人,揭示了其当前个性化策略的局限性。
EgoRAG 通过检索长上下文证据来补充 EgoGPT,但其检索机制缺乏多步推理。它执行单次搜索,没有迭代优化或逐步推理,当直接检索中缺少相关信息时容易失败。这种缺乏容错性意味着如果 EgoRAG 无法找到支持证据,它就无法提供答案,而不是围绕缺失信息进行推理。
这些发现突显了未来需要立即改进的关键领域:增强语音理解、优化个性化策略,并融入更高级的检索推理技术以提高错误恢复能力。
结论与展望
EgoLife,一个开创性的数据集和基准,标志着在超长自我中心视频理解方面迈出了重要一步。除了其首次关注的重点外,EgoLife 还释放了巨大的未开发潜力。六名参与者的超长协作多视角记录为探索同步人类行为提供了独特的机会,而自我-外部对齐则为研究共享环境中自然日常动态提供了新的见解。校准的摄像头与毫米波雷达和 WiFi 等多模态信号相结合,辅以详细的标注,为在复杂的时间和空间背景下建模人类生活的多样化方法铺平了道路。
回到构建多模态 AI 助手的愿景,本工作提供了探索,希望这些探索能够激发这一充满前景领域的进一步研究。EgoLife 只是一个开始——我们梦想着未来这项工作能够激发集体探索,使 AI 成为人类生活中真正高效、富有同理心和变革性的伴侣。
参考文献
[1] EgoLife: Towards Egocentric Life Assistant
致谢
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。同时,欢迎给个星标⭐,以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进,共同探索未知,见证一个充满希望和伟大的未来!
技术交流
加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!
没有评论:
发表评论