HDSL:階層型ドメイン固有言語とLLMエージェントに基づく3D室内シーン生成と局所編集

本論文は、テキスト駆動型の3D室内シーン生成と編集において、既存の大規模言語モデルシステムが依存するシーングラフやグローバル制約リストでは局所的な幾何構造を正確に特定することが困難であるという課題に対処する。階層的記述シーン言語(HDSL)を提案する。HDSLはXML/CSSスタイルのドメイン固有言語であり、部屋、領域、オブジェクト、支持面を局所座標付きのツリー構造として表現し、再帰的計画と編集検索を大幅に簡素化する。研究では、LLMエージェントベースのパイプラインを構築し、境界検証を通じてHDSLサブツリーを生成し、マルチモーダルアセット検索により非フィクションノードをグラウンディングし、力指向レイアウト最適化で衝突エラーを解決する。編集においては、階層的検索拡張生成(HRAG)技術を提案し、関連サブツリーを正確に検索して局所的書き換えを行い、決定論的三者間マージで結果を統合する。実験により、HDSLはオブジェクトカバレッジ、テキスト-シーンアライメント、生成時間においてフルテキストからシーンへのベースラインを上回り、幾何学的指標では最先端のレイアウト手法に匹敵することが示された。HRAGは編集時のトークン消費を5.22倍、実行時間を6.19倍削減し、無関係なシーンオブジェクトを効果的に保持する。

背景と概要

自然言語の指示を用いて3D室内シーンの生成や編集を行う技術は、コンピュータビジョンとグラフィクスの融合領域で注目されています。しかし、大規模言語モデル(LLM)が効率的に生成でき、かつ精密な修正をサポートする中間表現形式の構築は、依然として解決されていない課題です。既存のLLMベースのシステムは、シーングラフやグローバルな制約リストを中間層として依存しています。これらの表現はコンパクトですが、局所的な幾何学的詳細に対する具体的な記述が欠如している傾向があります。

その結果、指示に基づく編集操作において特定の領域や物体を正確に特定することが困難になり、「一部の変更が全体に影響を与える」といった誤った修正が生じやすくなります。この痛点を解決するため、本研究はシーン構築の問題を「構造化されたプログラム生成」と「局所的なプログラム修復」のタスクとして再定義し、階層的記述シーン言語(HDSL)を新たに提案しました。HDSLはXMLやCSSの設計哲学を取り入れ、構造化された3D室内シーン専用に設計されています。

このアプローチの核心は、階層が明確で意味的にクリアな表現フレームワークを提供することにあります。これにより、複雑な室内空間の計画を再帰的に処理可能とし、後続の局所編集のための正確なインデックス基盤を整備します。生成の柔軟性を維持しつつ、幾何構造の制御可能性を大幅に向上させることが可能となりました。

深掘り分析

HDSLの技術的な実装において、部屋、機能エリア、具体的な物体、そして支持面は、局所座標情報を含むツリー構造としてモデル化されます。これにより、シーンの幾何学的トポロジーに対するきめ細かい記述が可能になります。生成パイプラインは複数のLLMエージェントが協調して動作します。まず、エージェントがHDSLの部分木(サブツリー)を生成し、構文および論理の正しさを保証するために境界検証メカニズムを導入します。

次に、ツリー内の非仮想ノードに対して、マルチモーダルなアセット検索を通じて具体的な3Dモデルリソースへマッピングを行います。これにより、抽象的な記述から具体的なアセットへの落地を実現します。最後に、発生しうる境界の衝突や物体同士の干渉問題に対し、力指向レイアウト最適化アルゴリズムを適用して自動修復を行い、シーンの物理的な妥当性を確保します。

編集プロセスでは、階層的検索拡張生成(HRAG)メカニズムが設計されました。ユーザーが修正指示を出すと、システムは影響を受けるHDSL部分木を検索し、LLMに対してその局所的な文脈内でのみ書き換えを行うよう誘導します。これは、全量再生成に伴う高昂なコストを回避するための重要なステップです。

その後、決定論的な三路マージアルゴリズムを用いて、修正された部分木を元のシーン構造へとシームレスに統合します。この設計は編集のアトミック性を保証すると同時に、シーンの他の部分の安定性を最大限に維持します。局所変更を関連する空間ドメイン内に効果的に隔離することが可能となります。

業界への影響

HDSLの有効性を検証するため、再現されたベンチマークにおいて詳細な実験評価が行われました。生成タスクにおいて、既存の全量テキストからシーンへのベースライン手法と比較すると、HDSLは平均オブジェクト覆盖率、テキストとシーンの整合性、そして生成時間といった主要指標で顕著な優位性を示しました。

さらに、幾何学的忠実度などのハードな指標においても、HDSLのパフォーマンスは最近の最先端であるレイアウトのみの再現手法と同等の競争力を保っています。これは、意味的な豊かさを保証しながら、幾何学的品質を犠牲にしていないことを証明するものです。編集タスクの評価では、HRAGメカニズムが極めて高い効率と精度を発揮しました。

実験データによると、この手法はToken消費量を5.22倍削減し、実行時間を6.19倍短縮しました。これにより、インタラクティブな応答速度が大幅に向上し、リアルタイムな反復設計の実現可能性が高まりました。8組のペア編集テストにおいて、HDSLは一貫して有効なドメイン固有言語コードを生成しました。

特筆すべきは、目標物体を修正しながらも、シーン内の無関係な物体の状態をより良く保持できた点です。従来のグローバル再構築手法で頻発していた意図しない変動を回避することに成功しており、産業応用における信頼性の向上に大きく寄与しています。

今後の展望

この研究は、3Dコンテンツ制作コミュニティおよび産業応用に対して深い意義を持っています。HDSLは標準化された中間表現言語として、LLMと3Dエンジンの間の相互作用に対する普遍的なインターフェースを提供します。これは将来のインテリジェントな3D制作ツールのインフラストラクチャとなる可能性があります。

ソフトウェア工学における「局所的プログラム修復」の概念を導入することで、長いコンテキストウィンドウ下での大規模モデルの幻覚や不整合性问题に対処する新たな思路を示しました。構造化された制約と局所化处理により、モデルの認知負荷を低減する効果が期待できます。

ゲーム開発、バーチャルリアリティを用いた室内デザイン、デジタルツインの構築などの分野において、HDSLが提供する高效な生成と精密な編集能力は、手動モデリングのコストを大幅に削減します。概念設計から最終レンダリングまでのプロセスを加速し、クリエイターが低レベルの幾何学的調整ではなく、高レベルの芸術的ディレクションに集中することを可能にします。

オープンソースコミュニティはHDSLに基づいて、より多くのプラグインやツールチェーンを開発し、3Dアセットライブラリと編集機能をさらに充実させることができます。これは、AIGCの三次元空間理解と生成方向における標準化と規模化された落地を推進する原動力となるでしょう。

Sources