Kreuzberg:用 Rust 構建的文檔提取層,75+ 格式通喫的 RAG 基礎設施
Kreuzberg 是一個用 Rust 編寫的高性能文檔文本提取庫,定位於文件格式與 AI 應用之間的橋樑層。支持 PDF、Word、Excel、PowerPoint、圖片、郵件、壓縮包、學術文獻等 8 大類共 75+ 種文件格式的文本提取。對於構建 RAG 系統、文檔分析工具或任何需要將人類可讀格式轉換爲機器可讀內容的場景,Kreuzberg 提供了開箱即用的統一接口。Rust 實現帶來的性能優勢使其在大規模文檔處理管線中表現出色,尤其適合需要高吞吐量的企業級 AI 數據預處理流程。
項目概述
Kreuzberg 是一個用 Rust 編寫的文檔文本提取庫,專注於解決一個被低估但極其關鍵的問題:如何從各種"人類格式"的文件中高效提取出"機器可讀"的純文本內容。
核心能力
| 文檔類別 | 支持格式 |
|---------|---------|
| 文檔類 | PDF、Word(.docx/.doc)、RTF、ODT |
| 表格類 | Excel(.xlsx/.xls)、CSV、ODS |
| 演示類 | PowerPoint(.pptx/.ppt)、ODP |
| 圖片類 | PNG、JPEG、TIFF、BMP(OCR 提取) |
| 郵件類 | EML、MSG、MBOX |
| 壓縮包 | ZIP、TAR、GZ、7Z |
| 學術類 | LaTeX、BibTeX、Markdown |
| 其他 | HTML、XML、JSON、YAML、純文本 |
爲什麼選擇 Kreuzberg
- **統一接口**:不再爲每種格式寫不同的解析邏輯,一個 API 搞定所有
- **Rust 性能**:比 Python 實現快 5-10 倍,內存佔用更低
- **RAG 友好**:輸出結構化文本,直接可用於向量化和檢索增強生成
- **零配置 OCR**:圖片和掃描 PDF 自動走 OCR 流程
行業趨勢關聯
隨着 **RAG** 架構成爲企業 AI 應用的標準範式,高質量的文檔預處理成爲整個管線的瓶頸。Kreuzberg 這類工具的出現,反映了 **Open Source AI** 基礎設施正在向更底層、更專業化的方向發展。結合 **AI Coding** 工具鏈的成熟,開發者可以更快速地構建端到端的文檔智能管線。