Horizon：AI驱动的多源新闻聚合与智能简报生成器

Horizon是一个开源的AI新闻聚合工具，能自动从Hacker News、Reddit、GitHub、RSS订阅和Telegram频道等多个来源抓取内容，通过Claude/GPT-4/Gemini等AI模型对每条新闻评分（0-10分），过滤低质量内容并自动跨平台去重。对高分新闻自动搜索补充背景知识、收集社区讨论，最终生成中英双语结构化日报。支持GitHub Actions定时运行，自动发布到GitHub Pages作为每日简报网站。单一JSON配置文件即可自定义所有来源和阈值。

信息过载时代的个人情报员

每天，Hacker News上有数百条新讨论，Reddit的技术社区发出上千条帖子，GitHub的Trending榜单每小时都在刷新，还有无数RSS订阅和Telegram频道在不停推送。

对于一个想保持技术视野的人来说，这已经不是"阅读"，而是"溺水"。

Horizon，一个诞生于GitHub的开源项目，试图用AI替你完成这项吃力不讨好的工作：多源抓取、自动评分、智能筛选、知识补充，最终输出一份结构化的每日简报，自动发布到静态网站。

---

项目定位：不是RSS阅读器，是情报处理流水线

市面上不缺RSS阅读器，Feedly、Inoreader们已经做得相当成熟。但Horizon的野心不在于"让你更方便地读更多内容"，而在于**替你完成大部分阅读决策**。

核心差异在于：传统阅读器是信息的"搬运工"，Horizon是信息的"编辑"。

它不只是把内容聚合在一起，而是让AI对每一条内容进行评判：这条消息有多少技术深度？有多新颖？对行业的影响力有多大？只有评分超过阈值的内容才会进入下一步处理。

这一设计哲学更接近一个专业的新闻编辑室，而不是订阅聚合器。

---

架构解析：六阶段流水线

Horizon的处理流程由六个阶段组成，每个阶段职责清晰，可独立调试：

第一阶段：Fetch（多源并发抓取）

支持的信息源涵盖：

**Hacker News**：技术社区的标杆性讨论平台，覆盖编程、创业、科学等话题
**Reddit**：可配置多个子版块（subreddit），如r/MachineLearning、r/programming
**GitHub Trending**：捕捉社区关注的新兴开源项目
**RSS订阅**：兼容任意标准RSS/Atom源，可添加技术博客、学术预印本等
**Telegram频道**：直接从Telegram频道抓取消息，适合国内外技术社区

抓取采用并发设计，多源同时进行，减少总等待时间。

第二阶段：Deduplicate（跨平台去重）

同一条新闻往往会同时出现在多个平台——Hacker News上的热门项目当天可能就登上Reddit和GitHub Trending。Horizon通过URL归一化和内容指纹识别，将不同平台指向同一内容的条目合并，避免重复出现在最终简报中。

第三阶段：Score（AI智能评分）

这是Horizon区别于传统工具的核心环节。

每条去重后的内容都会被送入AI模型进行评估，评分维度包括：

**技术深度**：内容是否具有实质性的技术含量，而非泛泛而谈
**新颖性**：是否提出了新观点、新工具或新方法
**影响力**：对行业或社区的潜在影响程度

最终输出0-10的综合评分，可在配置文件中设置默认阈值（系统默认6.0分）。

支持的AI后端相当丰富：Claude（Anthropic）、GPT-4（OpenAI）、Gemini（Google）、DeepSeek、豆包（Doubao），以及任何兼容OpenAI API格式的模型服务。这意味着用户可以根据成本和效果自由切换，也可以接入私有化部署的模型。

第四阶段：Filter（质量过滤）

评分低于阈值的内容在此阶段被丢弃。这是信息密度提升的关键一步——大量低质量、重复性、与个人关注点无关的内容在进入后续环节之前已被清除。

过滤阈值可以精细配置：不同信息源可以设置不同的阈值，甚至可以针对不同话题类别设置差异化标准。

第五阶段：Enrich（知识补充）

对通过筛选的高分内容，Horizon不满足于只展示原始标题和摘要，还会主动进行知识补充：

**背景知识搜索**：通过网络搜索或知识库查询，补充与该话题相关的背景信息
**社区讨论收集**：整理该内容在各平台的讨论热点和主要观点分歧

这一步让最终简报不只是"新闻列表"，而是"有上下文的知识摘要"。

第六阶段：Deploy（生成与发布）

处理完成后，Horizon将结果生成结构化的Markdown报告，并通过GitHub Pages自动部署为静态网站，形成可访问的每日简报页面。整个发布流程通过GitHub Actions配置定时触发，无需人工干预。

---

使用门槛：单一JSON配置搞定一切

Horizon的设计者显然考虑了使用体验。所有配置——信息源列表、AI模型选择、评分阈值、输出格式——统一在单个JSON配置文件中管理，不需要修改任何代码。

对于没有服务器的用户，GitHub Actions提供了免费的定时执行环境：每天定时触发抓取流程，生成的简报自动推送到GitHub Pages，形成一个零成本的个人信息订阅站。

部署流程大致分为三步：

1. Fork仓库，修改配置文件（信息源、AI API Key、过滤阈值）

2. 在GitHub Settings中添加AI服务的API Key作为Secret

3. 开启GitHub Actions，等待第一次自动运行

---

背后的技术逻辑：RAG思想的工程化应用

从架构视角看，Horizon本质上是将RAG（检索增强生成）的思想应用于新闻聚合领域。

传统RAG的流程是：检索相关文档 → 将文档作为上下文 → 生成回答。

Horizon的流程与此高度同构：抓取多源内容（检索）→ AI评分筛选（相关性判断）→ 补充背景知识（上下文增强）→ 生成结构化简报（输出生成）。

这种类比揭示了一个更广泛的趋势：随着AI推理成本持续下降，越来越多原本需要人工判断的信息处理环节，开始被AI流水线接管。Horizon是这一趋势在"个人信息管理"这一垂直场景中的具体实践。

---

适用场景与人群

适合使用Horizon的场景：

技术研究者或工程师，需要持续跟踪特定技术领域动态
投资人或分析师，需要每日汇总多个行业信息源
内容创作者，需要高效获取话题素材
想要建立团队共享信息简报的小型团队

不太适合的场景：

对"发现意外内容"有强烈需求的用户（过滤机制会降低随机性）
不愿意配置API Key、维护GitHub仓库的普通用户

---

小结

Horizon的出现，代表了一类新型个人工具的成熟：**不依赖平台算法，完全由用户定义规则，由AI执行判断的自主信息管理系统**。

它的价值不仅在于节省时间，更在于将"信息获取决策权"归还给用户——你决定看什么，你设置标准，AI替你执行筛选。这与依赖社交平台推荐算法的信息获取方式有着根本性的不同。

随着AI API成本持续降低、GitHub Actions等免费CI/CD工具的普及，类似Horizon这样的"个人AI信息流水线"，将在未来成为高信息密度工作者的标配工具之一。