HDSL: 계층적 도메인 특화 언어와 LLM 에이전트 기반 3D 실내 장면 생성 및 국소 편집

이 논문은 텍스트 기반 3D 실내 장면 생성 및 편집에서 기존 대규모 언어 모델 시스템이 의존하는 장면 그래프나 전역 제약 목록이 미세한 공간적 구체성이 부족하여 국소 기하 구조를 정확히 특정하기 어렵다는 과제에 대응한다. 계층적 기술 장면 언어(HDSL)를 제안한다. HDSL은 XML/CSS 스타일의 도메인 특화 언어로, 방, 영역, 객체, 지지면을 국소 좌표가 포함된 트리 구조로 표현하여 재귀적 계획 및 편집 검색을 크게 단순화한다. 연구는 LLM 에이전트 기반 파이프라인을 구축하여 경계 검증을 통해 HDSL 서브트리를 생성하고, 멀티모달 애셋 검색을 통해 비가상 노드를 그라운딩하며, 힘 기반 레이아웃 최적화로 충돌 오류를 해결한다. 편집에서는 계층적 검색 증강 생성(HRAG) 기법을 제안하여 관련 서브트리를 정확히 검색해 국소 재작성을 수행하고 결정론적三路 병합으로 결과를 통합한다. 실험 결과 HDSL은 객체 커버리지, 텍스트-장점 정렬, 생성 시간에서 전체 텍스트-장면 베이스라인을 능가하며, 기하학적 지표에서는 최신 레이아웃 방법과 필적하는 것으로 나타났다. HRAG은 편집 시 토큰 소비를 5.22배, 실행 시간을 6.19배 줄이며 무관한 장면 객체를 효과적으로 보존한다.

배경

자연어 처리와 컴퓨터 그래픽스의 융합은 텍스트 기반 3D 실내 장면 생성 및 편집 분야에서 급격한 진전을 이루고 있으나, 여전히 해결되지 않은 핵심 과제가 존재한다. 대규모 언어 모델(LLM)이 효율적으로 생성할 수 있으면서도 정밀한 수정을 지원하는 중간 표현(intermediate representation)의 부재가 그것이다. 기존의 LLM 기반 시스템들은 주로 장면 그래프(scene graph)나 전역 제약 목록(global constraint list)을 구조적 골자로 활용한다. 이러한 표현 방식은 컴팩트하다는 장점이 있지만, 국소 기하학적 세부 사항을 정확히 기술하는 데 필요한 공간적 구체성이 결여되어 있다. 결과적으로 사용자가 특정 영역이나 객체에 대한 편집 명령을 내릴 때, 시스템은 이를 정확히 위치特定하지 못해 사소한 조정이 전체 장면에 의도치 않은 변화를 유발하는 '연쇄 오류'를 빈번하게 발생시킨다.

이러한 한계를 극복하기 위해 최근 연구진은 장면 구축 문제를 구조화된 프로그램 생성 및 국소 프로그램 복구(local program repair) 작업으로 재정의했다. 이 패러다임 전환의 산물이 바로 계층적 기술 장면 언어(HDSL)다. XML과 CSS의 설계 철학에서 영감을 받아 개발된 HDSL은 구조화된 3D 실내 환경을 위해 특화된 도메인 특화 언어(DSL)다. 복잡한 실내 공간 계획을 재귀적으로 처리 가능한 단위로 조직화함으로써, HDSL은 후속 국소 편집을 위한 견고한 인덱스 기반을 제공한다. 이 접근법은 LLM 고유의 생성 유연성을 유지하면서도 기하 구조의 제어 가능성을 획기적으로 향상시켜, 기존 전역 재구성 방법론에서 흔히 발생하던 비효율성과 불안정성을 해소한다.

심층 분석

HDSL 프레임워크의 핵심은 방, 기능적 영역, 구체적 객체, 그리고 지지면을 국소 좌표 정보가 포함된 트리 구조로 모델링한다는 점에 있다. 이러한 계층적 위상(topology)은 단순한 객체 목록을 넘어 공간 인식이 가능한 그래프를 통해 장면 기하학을 세밀하게 기술한다. 생성 파이프라인은 여러 LLM 에이전트의 협업을 통해 orchestration된다. 초기 단계에서 에이전트들은 HDSL 서브트리를 생성하며, 구문과 논리적 제약 조건을 엄격히 준수하도록 보장하는 경계 검증(bounded verification) 메커니즘을 도입한다. 이 과정은 복잡한 공간 작업에서 무제약 LLM 출력물에 자주 나타나는 환각(hallucination)과 구조적 불일치를 방지하는 데 결정적인 역할을 한다.

구조적 생성 이후, 파이프라인은 추상적 설명을 구체적인 3D 애셋으로 그라운딩(grounding)하는 과정을 수행한다. HDSL 트리 내의 비가상(non-fictional) 노드에 대해 시스템은 멀티모달 애셋 검색을 활용해 텍스트 설명자를 특정 3D 모델 리소스에 매핑한다. 이는 생성된 장면이 구조적으로 건전할 뿐만 아니라 사용자의 의도와 시각적으로도 일관되도록 보장한다. 또한 물리적 타당성을 확보하기 위해 힘 기반 레이아웃 최적화(force-directed layout optimization) 알고리즘이 적용된다. 이 구성 요소는 경계 충돌이나 객체 간 충돌을 자동으로 감지하고 해결하여, 사용자의 수동 개입 없이도 최종 장면이 기본적인 물리 법칙을 준수하도록 만든다.

HDSL의 편집 능력은 계층적 검색 증강 생성(HRAG)이라는 신규 기법에 의해 구동된다. 사용자가 수정 명령을 제출하면 시스템은 전체 장면을 재생성하지 않는다. 대신 HRAG는 변경 사항의 영향을 받는 특정 HDSL 서브트리를 정밀하게 검색한다. 이어 LLM은 이 국소적 문맥 내에서만 재작성을 수행하도록 유도되며, 이는 전체 장면 재생성과 관련된 계산 오버헤드를 극적으로 줄인다. 수정된 서브트리는 결정론적三路 병합(deterministic three-way merging) 알고리즘을 통해 원래 장면 구조로 통합된다. 이 방법은 편집의 원자성(atomocity)을 보장하면서도 무관한 장면 구성 요소의 안정성을 유지하여, 변경 사항을 관련 공간 도메인으로 효과적으로 격리한다.

산업 영향

재현된 벤치마크에서 수행된 실증 평가는 HDSL이 기존 방법론보다 상당한 개선을 제공함을 보여준다. 생성 작업 측면에서 HDSL은 평균 객체 커버리지, 텍스트-장면 정렬도, 생성 시간 등 주요 지표에서 전체 텍스트-장면(text-to-scene) 베이스라인을 능가한다. 이러한 결과는 계층적 구조가 편집뿐만 아니라 LLM이 채워 넣을 수 있는 더 조직화된 스캐폴드를 제공함으로써 초기 생성 프로세스도 강화한다는 것을 시사한다. furthermore,硬性 기하 충실도(metrics of geometric fidelity) 측면에서 HDSL은 최신 레이아웃 전용 재현 방법들과 경쟁력 있는 성능을 유지하며, 의미론적 풍부함의 추가가 기하학적 품질의 희생으로 이어지지 않음을 입증했다.

편집 단계에서의 효율성 증가는 산업 응용 분야에서 특히 주목할 만하다. 실험 데이터에 따르면 HRAG 메커니즘은 전통적인 전체 재생성 접근법 대비 토큰 소비량을 5.22배 감소시키고 실행 시간을 6.19배 단축시킨다. 이러한 효율성의 비약적 향상은 상호작용 응답 속도의 가속화로 직결되며, 실시간 반복 설계를 실현 가능하게 만든다. 8쌍의 편집 테스트 시리즈에서 HDSL은 일관되게 유효한 도메인 특화 언어 코드를 생성했으며, 결정적으로 장면 내 무관한 객체의 상태를 성공적으로 보존했다. 이는 전역 재구성에 의존하는 방법들에서 흔했던 우발적 수정 문제를 회피한 것이다.

이러한 기술적 진보는 3D 콘텐츠 제작 커뮤니티 및 관련 산업에 깊은 영향을 미친다. HDSL을 표준화된 중간 표현으로 확립함으로써, 이 연구는 LLM과 3D 엔진 간 상호작용을 위한 보편적 인터페이스를 제공한다. 이러한 표준화는 향후 지능형 3D 창작 도구의 기반 인프라가 될 것으로 예상된다. 게임 개발, 가상 현실 인테리어 디자인, 디지털 트윈 구축 등의 분야에서는 고정밀 생성과 정밀 편집 기능이 수동 모델링 비용을 크게 절감시킨다. 이는 개념 설계부터 최종 렌더링까지의 워크플로우를 가속화하여, 창작자가 하위 수준의 기하학적 조정보다는 상위 수준의 예술적 방향성에 집중할 수 있도록 한다.

전망

HDSL과 연관된 LLM 에이전트 파이프라인의 도입은 긴 문맥(long-context) 시나리오에서 대형 모델의 인지 부하를 관리하는 새로운 관점을 제시한다. 소프트웨어 공학의 '국소 프로그램 복구' 개념을 차용함으로써, 이 연구는 구조적 제약과 국소화 처리가 환각 및 불일치 문제를 효과적으로 완화할 수 있음을 입증했다. 이 접근법은 AI 주도 그래픽스의 보다 광범위한 트렌드를 시사한다. 즉, 단일(monolithic) 생성에서 모듈식이며 검증 가능하고 편집 가능한 구성 요소로의 이동이다. LLM이 계속 진화함에 따라, 복잡한 생성 작업에서 신뢰성을 보장하기 위해 이러한 구조화된 중간 언어의 통합은 표준 관행이 될 가능성이 높다.

향후 HDSL의 오픈소스 잠재력은 커뮤니티 주도 혁신을 위한 상당한 기회를 제공한다. 개발자들은 이 표준화된 언어 위에 플러그인과 툴체인을 구축하여 3D 애셋 라이브러리를 풍부하게 하고 편집 기능을 확장할 수 있다. 이러한 생태계 성장은 3차원 공간 이해 및 생성 분야에서 AIGC의 한계를 넓히는 데 필수적이다. 더 많은 도구가 HDSL을 채택함에 따라 다양한 3D 소프트웨어 패키지와 AI 모델 간의 상호 운용성이 개선되어 전문가들을 위한 더 일관되고 효율적인 워크플로우가 조성될 것이다.

궁극적으로 HDSL의 성공은 유연성과 정밀성 사이의 균형을 어떻게 맞추느냐에 달려 있다. 현재의 결과는 이 균형이 달성 가능하며, 확장 가능하고 표준화된 3D 콘텐츠 생산을 위한 viable path를 제공함을 나타낸다. 미래 연구는 HDSL을 야외 환경이나 동적 장면으로 확장하여 그래픽스에서 계층적 도메인 특화 언어의 한계를 추가로 테스트할 수 있을 것이다. 현재로서는 이 프레임워크가 3D 장면 생성을 단순한 자동화 프로세스를 넘어 제어 가능하고 상호작용적인 디자인 파트너로 만드는 데 있어 중요한 진전임을 보여준다.

Sources

arXiv