배경

2026년 1월, Databricks는 머신러닝 추론 성능을 극대화하기 위한 기술적 접근 방식에 대한 심층 사례 연구를 공개하며 데이터 엔지니어링 커뮤니티의 주목을 받았다. 이 연구는 Databricks 환경에서 ML 추론 워크로드를 스케일링할 때 'Liquid' 포맷을 사용할지, 아니면 기존 'Partitioned' 방식을 고수할지, 그리고 데이터에 'Salt'를 추가해야 할지 여부를 결정하는 데 필요한 실증적 데이터를 제공한다. 이 주제는 단순한 기술적 선택을 넘어, 대규모 AI 모델의 실시간 추론 비용을 절감하고 처리 지연 시간을 최소화하는 핵심 전략으로 부상했다. 특히 2026년 초 AI 인프라 투자가 급증하는 상황에서, 효율적인 데이터 관리 전략의 중요성이 더욱 부각되고 있다.

Databricks는 Lakehouse 아키텍처를 통해 데이터 웨어하우스와 데이터 레이크의 장점을 결합한 플랫폼으로 널리 알려져 있다. 그러나 대규모 언어 모델(LLM)이나 추천 시스템과 같은 복잡한 ML 모델의 추론 단계에서는 데이터의 물리적 저장 구조가 성능에 지대한 영향을 미친다. 기존 파티션 기반 접근 방식은 특정 쿼리 패턴에 최적화되어 있었으나, 동적이고 불규칙한 추론 요청 패턴에서는 병목 현상을 일으키곤 했다. 반면, Apache Iceberg와 같은 테이블 포맷을 기반으로 한 Liquid Clustering은 데이터의 물리적 재배열 없이도 균일한 데이터 분포를 유지할 수 있어, 추론 파이프라인의 효율성을 혁신적으로 개선할 가능성이 제기되었다.

이 사례 연구는 이러한 기술적 가설을 실제 비즈니스 시나리오에서 검증했다. 연구진은 다양한 워크로드 패턴(배치 추론, 실시간 스트리밍 추론 등) 하에서 Liquid 포맷과 파티션된 테이블의 성능 차이를 정량적으로 분석했다. 또한, 데이터 스캔 효율성을 높이기 위한 'Salt' 기법의 적용 여부가 I/O 부하와 메모리 사용량에 미치는 영향을 상세히 다뤘다. 이 분석은 데이터 과학자와 MLOps 엔지니어들이 자신의 특정 USE CASE에 맞는 최적의 데이터 아키텍처를 설계하는 데 필수적인 기준을 제공한다.

심층 분석

기술적 차원의 심층 비교

Liquid Clustering과 Partitioning의 핵심 차이는 데이터의 물리적 조직 방식에 있다. 파티션은 주로 정적 컬럼(예: 날짜, 지역)을 기준으로 데이터를 분리하므로, 쿼리 필터링 시 불필요한 파티션을 스킵할 수 있는 장점이 있다. 그러나 파티션 키의 선택이 부적절하거나 데이터 분포가 편향될 경우, '스키너링' 문제나 '데이터 편향'이 발생하여 특정 노드에 부하가 집중되는 문제가 발생한다. 이는 ML 추론 시 배치 처리 속도의 불일치를 초래하고, 전체 시스템의 SLA(서비스 수준 계약) 준수를 어렵게 만든다. 이에 비해 Liquid Clustering은 데이터의 물리적 위치를 자동으로 최적화하여, 어떤 쿼리 패턴에서도 균일한 데이터 분포를 유지하도록 설계되었다. 이는 특히 고차원 벡터 검색이나 실시간 개인화 추천과 같은 복잡한 ML 추론 작업에서 일관된 성능을 보장한다.

'Salt' 기법은 데이터의 균일성을 높이기 위해 임의의 값(소금)을 추가하여 파티션 키의 분포를 평준화하는 전통적인 방법이다. 이는 특정 파티션에 데이터가 몰리는 것을 방지하지만, 쿼리 실행 시 추가적인 조인 연산이나 데이터 변환 오버헤드를 발생시킬 수 있다. 연구 결과, Liquid 포맷을 사용할 경우 Salt 기법의 필요성이 크게 감소함을 보였다. Liquid Clustering은 내부적으로 데이터 분포를 지속적으로 모니터링하고 재배열하므로, 수동적인 Salt 추가 없이도 데이터 스캐닝 효율성을 극대화할 수 있다. 이는 개발자의 유지보수 부담을 줄이고, 시스템의 자동화 수준을 높이는 데 기여한다.

또한, 이 연구는 Databricks의 Photon 엔진과 같은 차세대 쿼리 엔진과의 시너지 효과를 강조한다. Photon은 C++로 작성되어 JVM 오버헤드를 제거하고 병렬 처리 성능을 극대화한다. Liquid 포맷과 Photon의 결합은 데이터 로딩 및 스캔 속도를 기존 파티션 방식 대비 최대 3배까지 향상시킬 수 있는 것으로 나타났다. 이는 실시간 추론 지연 시간을 밀리초 단위로 줄이는 데 결정적인 역할을 하며, 사용자 경험을 크게 개선한다. 특히, 대용량 벡터 임베이션을 처리하는 RAG(검색 증강 생성) 애플리케이션에서 이러한 성능 향상은 더 정확한 답변 생성과 빠른 응답 속도로 직결된다.

실증 데이터와 성능 지표

실제 테스트 환경에서 수집된 데이터는 Liquid 포맷의 우위를 명확히 보여준다. 대용량 테이블(수십 테라바이트 규모)에 대해 수행된 벤치마크 결과, Liquid Clustering을 적용한 경우 쿼리 실행 시간이 평균 40% 이상 단축되었다. 특히, 데이터 분포가 불균일한 시나리오에서 그 차이는 더욱 두드러졌다. 파티션 방식은 특정 쿼리에서 200% 이상의 성능 저하를 보인 반면, Liquid 방식은 모든 쿼리 유형에서 안정적인 성능을 유지했다. 또한, 데이터 업데이트 및 병합 작업(Merge operations)에서도 Liquid 포맷이 더 빠른 속도와 낮은 리소스 소모를 기록했다. 이는 ML 모델의 재학습 데이터 파이프라인에서 실시간 데이터 반영 속도를 높이는 데 중요한 의미를 가진다.

메모리 사용량 측면에서도 Liquid 포맷은 효율성을 입증했다. 파티션 방식은 불필요한 파티션 메타데이터 로딩으로 인해 메모리 사용량이 증가하는 경향이 있었으나, Liquid는 필요한 데이터 블록만 효율적으로 로드하여 메모리 오버헤드를 25% 이상 절감했다. 이는 GPU 기반 추론 노드에서 메모리 병목 현상을 줄이고, 더 많은 동시 요청을 처리할 수 있는 기반을 마련한다. 또한, 스토리지 비용 측면에서도 Liquid 포맷은 데이터 중복을 최소화하고 압축 효율을 높여, 장기적으로 저장 비용을 절감하는 효과를 가져왔다.

산업 영향

MLOps 생태계의 재편

이러한 기술적 진보는 MLOps 생태계에 깊은 영향을 미치고 있다. 과거 ML 모델의 배포는 모델 자체의 최적화에 집중되었으나, 이제는 데이터 파이프라인의 효율성이 모델 성능과 직결됨이 인식되고 있다. Databricks의 Liquid 포맷 도입은 데이터 엔지니어링과 머신러닝 엔지니어링 간의 경계를 모호하게 하며, 통합된 워크플로우를 요구한다. 기업들은 이제 모델 아키텍처뿐만 아니라 데이터 저장 및 처리 아키텍처도 함께 고려해야 하는 '엔드투엔드 ML 최적화' 시대로 진입했다.

또한, 이 변화는 클라우드 벤더들의 경쟁 구도에도 영향을 준다. AWS, Azure, GCP 등 주요 클라우드 제공자들은 Databricks와의 통합을 강화하며, Lakehouse 기반의 ML 서비스 경쟁을 치열하게 하고 있다. Liquid 포맷과 같은 고급 데이터 관리 기술은 클라우드 마이그레이션 시 데이터 이동 비용과 시간을 줄이는 핵심 요소로 작용한다. 기업들은 이러한 기술을 활용하여 온프레미스 데이터 센터에서 클라우드 기반 Lakehouse로의 전환을 가속화하고 있으며, 이는 전체 AI 인프라 시장의 성장 동력이 되고 있다.

인재 시장에서도 변화가 감지된다. 단순한 모델링 능력뿐만 아니라, 대규모 데이터 처리와 최적화 능력을 갖춘 'ML 플랫폼 엔지니어'에 대한 수요가 급증하고 있다. 기업들은 Liquid Clustering, Spark 최적화, Databricks 관리 등 구체적인 기술 역량을 갖춘 인재를 확보하기 위해 경쟁하고 있으며, 이는 관련 교육 및 인증 프로그램의 활성화로 이어지고 있다. 이러한 인재 흐름은 AI 산업의 성숙도를 높이고, 더robust한 AI 시스템을 구축하는 데 기여할 전망이다.

전망

단기적 영향과 채택 가속화

향후 3~6개월 내, Databricks를 사용하는 기업들은 Liquid 포맷 채택을 본격적으로 검토할 것으로 예상된다. 특히 실시간 추론이 중요한 금융, 전자상거래, 게임 산업에서는 성능 개선 효과가 즉각적으로 나타날 것이므로, 우선적으로 도입이 진행될 것이다. 또한, Databricks 플랫폼의 업데이트를 통해 Liquid Clustering이 더 쉽게 구성되고 관리될 수 있는 도구들이 제공될 것으로 보인다. 이는 기술 진입 장벽을 낮추고, 중소기업 및 스타트업의 채택을 촉진할 것이다.

개발자 커뮤니티에서는 Liquid 포맷과 기존 파티션 방식의 비교 분석 자료가 쏟아져 나올 전망이다. 실제 적용 사례와 함께 최적의 설정 파라미터, 주의사항 등이 공유되며, 업계 표준으로 자리 잡아갈 것이다. 또한, 관련 오픈소스 도구들과의 통합도 활발해질 것으로 보여, 생태계의 확장이 예상된다.

장기적 트렌드와 진화

12~18개월 이후, 데이터 저장 포맷의 표준은 Liquid Clustering과 같은 동적 최적화 방식으로 이동할 가능성이 높다. 정적 파티션은 특수한 케이스를 제외하고는 점차 퇴출되거나 레거시 기술로 분류될 것이다. 이는 AI 시스템이 더 복잡하고 실시간화됨에 따라, 데이터의 유연하고 효율적인 관리가 필수적이기 때문이다. 또한, AI 모델의 추론 비용 절감은 기업의 AI 투자 수익률(ROI)을 높이는 핵심 요소로 부각될 것이다. 효율적인 데이터 파이프라인은 직접적인 비용 절감뿐만 아니라, 더 빠르고 정확한 비즈니스 의사결정을 가능하게 하여 경쟁 우위를 제공한다.

마지막으로, 이 기술적 진보는 AI의 민주화를 가속화할 것이다. 복잡한 데이터 최적화 작업을 자동화함으로써, 데이터 과학자들이 모델 개발에 더 집중할 수 있는 환경을 제공한다. 이는 더 많은 기업이 AI를 활용하여 혁신을 주도할 수 있는 기반을 마련하며, 궁극적으로 AI 산업 전반의 성장과 성숙도를 높이는 데 기여할 것이다. Databricks의 이러한 기술적 리더십은 향후 AI 인프라 시장의 방향성을 설정하는 중요한 지표가 될 것이다.