Horizon:AI驱动的多源新闻聚合与智能简报生成器

Horizon是一个开源的AI新闻聚合工具,能自动从Hacker News、Reddit、GitHub、RSS订阅和Telegram频道等多个来源抓取内容,通过Claude/GPT-4/Gemini等AI模型对每条新闻评分(0-10分),过滤低质量内容并自动跨平台去重。对高分新闻自动搜索补充背景知识、收集社区讨论,最终生成中英双语结构化日报。支持GitHub Actions定时运行,自动发布到GitHub Pages作为每日简报网站。单一JSON配置文件即可自定义所有来源和阈值。

信息过载时代的个人情报员

每天,Hacker News上有数百条新讨论,Reddit的技术社区发出上千条帖子,GitHub的Trending榜单每小时都在刷新,还有无数RSS订阅和Telegram频道在不停推送。

对于一个想保持技术视野的人来说,这已经不是"阅读",而是"溺水"。

Horizon,一个诞生于GitHub的开源项目,试图用AI替你完成这项吃力不讨好的工作:多源抓取、自动评分、智能筛选、知识补充,最终输出一份结构化的每日简报,自动发布到静态网站。

---

项目定位:不是RSS阅读器,是情报处理流水线

市面上不缺RSS阅读器,Feedly、Inoreader们已经做得相当成熟。但Horizon的野心不在于"让你更方便地读更多内容",而在于**替你完成大部分阅读决策**。

核心差异在于:传统阅读器是信息的"搬运工",Horizon是信息的"编辑"。

它不只是把内容聚合在一起,而是让AI对每一条内容进行评判:这条消息有多少技术深度?有多新颖?对行业的影响力有多大?只有评分超过阈值的内容才会进入下一步处理。

这一设计哲学更接近一个专业的新闻编辑室,而不是订阅聚合器。

---

架构解析:六阶段流水线

Horizon的处理流程由六个阶段组成,每个阶段职责清晰,可独立调试:

第一阶段:Fetch(多源并发抓取)

支持的信息源涵盖:

  • **Hacker News**:技术社区的标杆性讨论平台,覆盖编程、创业、科学等话题
  • **Reddit**:可配置多个子版块(subreddit),如r/MachineLearning、r/programming
  • **GitHub Trending**:捕捉社区关注的新兴开源项目
  • **RSS订阅**:兼容任意标准RSS/Atom源,可添加技术博客、学术预印本等
  • **Telegram频道**:直接从Telegram频道抓取消息,适合国内外技术社区

抓取采用并发设计,多源同时进行,减少总等待时间。

第二阶段:Deduplicate(跨平台去重)

同一条新闻往往会同时出现在多个平台——Hacker News上的热门项目当天可能就登上Reddit和GitHub Trending。Horizon通过URL归一化和内容指纹识别,将不同平台指向同一内容的条目合并,避免重复出现在最终简报中。

第三阶段:Score(AI智能评分)

这是Horizon区别于传统工具的核心环节。

每条去重后的内容都会被送入AI模型进行评估,评分维度包括:

  • **技术深度**:内容是否具有实质性的技术含量,而非泛泛而谈
  • **新颖性**:是否提出了新观点、新工具或新方法
  • **影响力**:对行业或社区的潜在影响程度

最终输出0-10的综合评分,可在配置文件中设置默认阈值(系统默认6.0分)。

支持的AI后端相当丰富:Claude(Anthropic)、GPT-4(OpenAI)、Gemini(Google)、DeepSeek、豆包(Doubao),以及任何兼容OpenAI API格式的模型服务。这意味着用户可以根据成本和效果自由切换,也可以接入私有化部署的模型。

第四阶段:Filter(质量过滤)

评分低于阈值的内容在此阶段被丢弃。这是信息密度提升的关键一步——大量低质量、重复性、与个人关注点无关的内容在进入后续环节之前已被清除。

过滤阈值可以精细配置:不同信息源可以设置不同的阈值,甚至可以针对不同话题类别设置差异化标准。

第五阶段:Enrich(知识补充)

对通过筛选的高分内容,Horizon不满足于只展示原始标题和摘要,还会主动进行知识补充:

  • **背景知识搜索**:通过网络搜索或知识库查询,补充与该话题相关的背景信息
  • **社区讨论收集**:整理该内容在各平台的讨论热点和主要观点分歧

这一步让最终简报不只是"新闻列表",而是"有上下文的知识摘要"。

第六阶段:Deploy(生成与发布)

处理完成后,Horizon将结果生成结构化的Markdown报告,并通过GitHub Pages自动部署为静态网站,形成可访问的每日简报页面。整个发布流程通过GitHub Actions配置定时触发,无需人工干预。

---

使用门槛:单一JSON配置搞定一切

Horizon的设计者显然考虑了使用体验。所有配置——信息源列表、AI模型选择、评分阈值、输出格式——统一在单个JSON配置文件中管理,不需要修改任何代码。

对于没有服务器的用户,GitHub Actions提供了免费的定时执行环境:每天定时触发抓取流程,生成的简报自动推送到GitHub Pages,形成一个零成本的个人信息订阅站。

部署流程大致分为三步:

1. Fork仓库,修改配置文件(信息源、AI API Key、过滤阈值)

2. 在GitHub Settings中添加AI服务的API Key作为Secret

3. 开启GitHub Actions,等待第一次自动运行

---

背后的技术逻辑:RAG思想的工程化应用

从架构视角看,Horizon本质上是将RAG(检索增强生成)的思想应用于新闻聚合领域。

传统RAG的流程是:检索相关文档 → 将文档作为上下文 → 生成回答。

Horizon的流程与此高度同构:抓取多源内容(检索)→ AI评分筛选(相关性判断)→ 补充背景知识(上下文增强)→ 生成结构化简报(输出生成)。

这种类比揭示了一个更广泛的趋势:随着AI推理成本持续下降,越来越多原本需要人工判断的信息处理环节,开始被AI流水线接管。Horizon是这一趋势在"个人信息管理"这一垂直场景中的具体实践。

---

同类工具横向对比

与现有工具相比,Horizon的定位相对独特:

| 工具 | 核心能力 | 局限 |

|------|----------|------|

| Feedly/Inoreader | 多源RSS聚合,阅读体验好 | 无AI筛选,内容量大 |

| Perplexity | AI搜索,实时信息 | 被动响应,不主动聚合 |

| Morning Brew等 | 人工编辑简报 | 无法个性化,更新频率固定 |

| **Horizon** | AI全自动聚合+评分+简报生成 | 需要一定技术门槛,初始配置较繁琐 |

Horizon的核心优势在于**完全可定制的全自动化**——你可以精确控制关注哪些来源、AI用什么标准打分、哪些内容值得展示,而无需依赖任何第三方平台的算法决策。

---

适用场景与人群

适合使用Horizon的场景:

  • 技术研究者或工程师,需要持续跟踪特定技术领域动态
  • 投资人或分析师,需要每日汇总多个行业信息源
  • 内容创作者,需要高效获取话题素材
  • 想要建立团队共享信息简报的小型团队

不太适合的场景:

  • 对"发现意外内容"有强烈需求的用户(过滤机制会降低随机性)
  • 不愿意配置API Key、维护GitHub仓库的普通用户

---

小结

Horizon的出现,代表了一类新型个人工具的成熟:**不依赖平台算法,完全由用户定义规则,由AI执行判断的自主信息管理系统**。

它的价值不仅在于节省时间,更在于将"信息获取决策权"归还给用户——你决定看什么,你设置标准,AI替你执行筛选。这与依赖社交平台推荐算法的信息获取方式有着根本性的不同。

随着AI API成本持续降低、GitHub Actions等免费CI/CD工具的普及,类似Horizon这样的"个人AI信息流水线",将在未来成为高信息密度工作者的标配工具之一。