告别全局重构:HDSL以层次化DSL重塑3D室内场景的精准生成与局部编辑
针对现有大语言模型在3D室内场景生成中难以精确定位局部几何结构的痛点,最新研究提出了层次化描述场景语言(HDSL)。该方案采用类XML/CSS的树状结构,将房间、物体及支撑面转化为带局部坐标的层级节点,极大简化了递归规划。结合基于LLM代理的流水线与分层检索增强生成(HRAG)技术,HDSL不仅在全量生成中实现了更高的对象覆盖率与文本对齐度,更在局部编辑任务中将Token消耗降低5.22倍,运行时间缩短6.19倍,有效解决了传统方法需全量重绘导致的效率低下与内容丢失问题,为高保真3D内容创作提供了新范式。
当前,利用自然语言指令驱动3D室内场景的生成与编辑已成为计算机视觉与图形学交叉领域的热点,但如何构建一种既能被大语言模型(LLM)高效生成又能支持精确修改的中间表示形式,仍是一个未决难题。现有的基于LLM的系统通常依赖场景图或全局约束列表作为中间层,这些表示虽然紧凑,却往往缺乏对局部几何细节的具体描述,导致基于指令的编辑操作难以准确定位到特定区域或物体,容易产生"牵一发而动全身"的错误修改。为了解决这一痛点,本研究将场景构建问题重新定义为结构化程序生成与局部程序修复任务,并创新性地提出了层次化描述场景语言(HDSL)。HDSL借鉴了XML和CSS的设计哲学,专为结构化3D室内场景设计,其核心贡献在于提供了一种层级分明、语义清晰的表达框架,使得复杂的室内空间规划变得可递归处理,同时为后续的局部编辑提供了精准的索引基础,从而在保持生成灵活性的同时显著提升了几何结构的可控性。 在技术实现层面,HDSL通过将房间、功能区域、具体物体以及支撑表面建模为一个包含局部坐标信息的树状结构,实现了对场景几何拓扑的精细化描述。整个生成流水线由多个LLM代理协同工作:首先,代理负责生成HDSL子树,并引入有界验证机制以确保语法和逻辑的正确性;其次,对于树中的非虚拟节点,系统通过多模态资产检索将其映射为具体的3D模型资源,实现从抽象描述到具体资产的落地;最后,针对可能出现的边界冲突或物体碰撞问题, pipeline 应用力导向布局优化算法进行自动修复,确保场景的物理合理性。在编辑环节,研究团队设计了分层检索增强生成(HRAG)机制。当用户提出修改指令时,系统首先检索出受影响的HDSL子树,引导LLM仅在该局部上下文中进行重写,避免了全量重新生成的高昂成本。随后,通过确定性的三路合并算法,将修改后的子树无缝整合回原始场景结构中,这种设计既保证了编辑的原子性,又最大程度地维持了场景其他部分的稳定性。 为了验证HDSL的有效性,研究团队在复现的基准测试中进行了详尽的实验评估。在生成任务方面,与现有的全量文本到场景(text-to-scene)基线方法相比,HDSL在平均对象覆盖率、文本与场景的对齐程度以及生成耗时等关键指标上均表现出显著优势。同时,在几何保真度等硬性指标上,HDSL的表现与近期最先进的仅布局(layout-only)复现方法保持竞争力,证明了其在保证语义丰富度的同时并未牺牲几何质量。在编辑任务的评估中,HRAG机制展现了极高的效率与准确性:实验数据显示,该方法将Token消耗量降低了5.22倍,运行时间缩短了6.19倍,极大地提升了交互响应速度。更重要的是,在八组成对的编辑测试中,HDSL均能生成有效的领域特定语言代码,并且在修改目标物体的同时,能够更好地保留场景中无关物体的状态,避免了传统方法中常见的全局重构导致的意外变动。 这项研究对3D内容创作社区及工业应用具有深远的意义。首先,HDSL作为一种标准化的中间表示语言,为LLM与3D引擎之间的交互提供了通用的接口,有望成为未来智能3D创作工具的基础设施。其次,通过引入类似软件工程中"局部程序修复"的理念,该研究为解决大模型在长上下文窗口下的幻觉与不一致性问题提供了新的思路,即通过结构化约束和局部化处理来降低模型的认知负荷。对于游戏开发、虚拟现实室内设计以及数字孪生构建等领域,HDSL提供的高效生成与精准编辑能力能够大幅降低人工建模的成本,加速从概念设计到最终渲染的流程。此外,开源社区可以基于HDSL开发更多插件与工具链,进一步丰富3D资产库与编辑功能,推动AIGC在三维空间理解与生成方向的标准化与规模化落地。