IAMFlow:无需训练的叙事长视频生成身份感知记忆框架

针对自回归视频生成中长期一致性与记忆退化问题,研究提出IAMFlow,一种无需训练的实体身份感知记忆框架。传统方法依赖预设策略压缩历史帧或基于粗粒度注意力检索关键帧,难以应对提示词中实体指代变化导致的身份漂移与属性丢失。IAMFlow通过大语言模型提取实体视觉属性并分配全局ID,结合视觉语言模型异步验证渲染帧属性,实现显式实体追踪。为保持计算效率,框架引入异步视觉验证、自适应提示词转换及模型量化等加速策略。此外,研究构建NarraStream-Bench基准,包含324个多提示脚本及三维评估协议。实验表明,IAMFlow在NarraStream-Bench上以2.56分优势超越最强基线,并在60秒多提示设置下实现1.39倍加速,显著提升了长视频生成的叙事连贯性与生成效率。

自回归视频生成技术在视觉保真度和交互性方面取得了显著进步,但在生成长叙事视频时,仍面临长期一致性和记忆退化的严峻挑战。当提示词随时间推移发生演变,且实体指代关系发生变化时,现有解决方案往往难以维持角色的身份一致性。大多数现有方法要么使用预定义策略压缩历史帧,要么基于粗略的隐式注意力信号检索关键帧,这些方法在处理实体身份漂移、角色重复以及属性丢失等问题上存在固有缺陷。为了解决这一核心痛点,本文提出了IAMFlow,这是一种无需训练的、具有身份感知能力的记忆框架。该框架的核心贡献在于显式地建模和追踪持久化实体的身份,从而确保在提示词转换过程中生成的一致性。通过引入这种显式的身份管理机制,IAMFlow能够有效应对复杂叙事场景下的动态变化,为长视频生成提供了一种新的技术路径,解决了以往方法中因隐式匹配不准确而导致的生成质量下降问题,为后续研究提供了重要的参考方向。

在技术方法层面,IAMFlow采用了一种协同工作的多模态架构来构建其身份感知记忆系统。具体而言,系统首先利用大型语言模型(LLM)对每一帧的提示词进行深度解析,提取出包含视觉属性的实体,并为每个实体分配唯一的全球唯一标识符(Global ID)。这种基于ID的分配机制使得系统能够明确区分不同的角色和对象,避免了传统方法中因特征相似而导致的混淆。与此同时,系统引入了视觉语言模型(VLM)作为异步验证模块,对渲染出的视频帧进行属性核查与 refinement。VLM通过对比渲染帧与提示词中的实体描述,修正可能出现的属性偏差,从而实现了从隐式相似度匹配到显式实体追踪的转变。为了克服多模态模型并行处理带来的计算瓶颈,IAMFlow设计了一套系统性的推理加速流水线。

该流水线包括异步视觉验证机制,允许视频渲染与属性验证并行进行;自适应提示词转换策略,动态调整输入以优化计算负载;以及模型量化技术,进一步降低显存占用和计算延迟。这些策略共同作用,使得框架在保持高精度的同时,显著提升了运行效率。为了全面评估IAMFlow的性能,本文构建了一个名为NarraStream-Bench的新基准测试,专门针对叙事流式视频生成任务。该基准包含324个多提示脚本,涵盖了六个不同的叙事维度,并设计了一个三维评估协议,该协议不仅集成了传统的视频生成评价指标,还引入了基于多模态大型语言模型的评估方法,以更全面地衡量视频的叙事连贯性和视觉质量。在广泛的实验结果中,IAMFlow尽管无需进行额外的训练,但在NarraStream-Bench上取得了最佳的整体性能,比最强的基线方法高出2.56分。特别是在60秒的多提示生成设置下,IAMFlow实现了1.39倍的加速比,超过了目前最高效的基线方法。

消融实验进一步揭示了异步验证和显式ID追踪机制对提升身份一致性的关键作用,证明了所提方法在解决长视频生成中的记忆退化问题上的有效性和优越性。IAMFlow的提出对开源社区和工业落地具有深远的意义。首先,其无需训练的特性使得研究者可以直接将其应用于现有的视频生成模型,降低了技术门槛和计算成本,促进了相关技术的快速迭代。其次,显式身份感知记忆机制为长视频生成提供了可解释性强、稳定性高的解决方案,有助于推动AI视频生成在影视制作、游戏开发等需要高度叙事连贯性的行业中的实际应用。此外,NarraStream-Bench基准的建立为学术界提供了一个标准化的评估平台,有助于统一衡量长视频生成技术的进步,激发更多针对叙事一致性的研究。未来,随着多模态模型的进一步发展和计算资源的优化,IAMFlow框架有望成为长视频生成领域的基础设施之一,推动AI生成内容向更复杂、更自然的叙事形态演进,为内容创作者提供更强大的工具支持。