Horizon:AI驱动的多源新闻聚合与智能简报生成器
Horizon是一个开源的AI新闻聚合工具,能自动从Hacker News、Reddit、GitHub、RSS订阅和Telegram频道等多个来源抓取内容,通过Claude/GPT-4/Gemini等AI模型对每条新闻评分(0-10分),过滤低质量内容并自动跨平台去重。对高分新闻自动搜索补充背景知识、收集社区讨论,最终生成中英双语结构化日报。支持GitHub Actions定时运行,自动发布到GitHub Pages作为每日简报网站。单一JSON配置文件即可自定义所有来源和阈值。
信息过载时代的个人情报员
每天,Hacker News上有数百条新讨论,Reddit的技术社区发出上千条帖子,GitHub的Trending榜单每小时都在刷新,还有无数RSS订阅和Telegram频道在不停推送。
对于一个想保持技术视野的人来说,这已经不是"阅读",而是"溺水"。
Horizon,一个诞生于GitHub的开源项目,试图用AI替你完成这项吃力不讨好的工作:多源抓取、自动评分、智能筛选、知识补充,最终输出一份结构化的每日简报,自动发布到静态网站。
---
项目定位:不是RSS阅读器,是情报处理流水线
市面上不缺RSS阅读器,Feedly、Inoreader们已经做得相当成熟。但Horizon的野心不在于"让你更方便地读更多内容",而在于**替你完成大部分阅读决策**。
核心差异在于:传统阅读器是信息的"搬运工",Horizon是信息的"编辑"。
它不只是把内容聚合在一起,而是让AI对每一条内容进行评判:这条消息有多少技术深度?有多新颖?对行业的影响力有多大?只有评分超过阈值的内容才会进入下一步处理。
这一设计哲学更接近一个专业的新闻编辑室,而不是订阅聚合器。
---
架构解析:六阶段流水线
Horizon的处理流程由六个阶段组成,每个阶段职责清晰,可独立调试:
第一阶段:Fetch(多源并发抓取)
支持的信息源涵盖:
- **Hacker News**:技术社区的标杆性讨论平台,覆盖编程、创业、科学等话题
- **Reddit**:可配置多个子版块(subreddit),如r/MachineLearning、r/programming
- **GitHub Trending**:捕捉社区关注的新兴开源项目
- **RSS订阅**:兼容任意标准RSS/Atom源,可添加技术博客、学术预印本等
- **Telegram频道**:直接从Telegram频道抓取消息,适合国内外技术社区
抓取采用并发设计,多源同时进行,减少总等待时间。
第二阶段:Deduplicate(跨平台去重)
同一条新闻往往会同时出现在多个平台——Hacker News上的热门项目当天可能就登上Reddit和GitHub Trending。Horizon通过URL归一化和内容指纹识别,将不同平台指向同一内容的条目合并,避免重复出现在最终简报中。
第三阶段:Score(AI智能评分)
这是Horizon区别于传统工具的核心环节。
每条去重后的内容都会被送入AI模型进行评估,评分维度包括:
- **技术深度**:内容是否具有实质性的技术含量,而非泛泛而谈
- **新颖性**:是否提出了新观点、新工具或新方法
- **影响力**:对行业或社区的潜在影响程度
最终输出0-10的综合评分,可在配置文件中设置默认阈值(系统默认6.0分)。
支持的AI后端相当丰富:Claude(Anthropic)、GPT-4(OpenAI)、Gemini(Google)、DeepSeek、豆包(Doubao),以及任何兼容OpenAI API格式的模型服务。这意味着用户可以根据成本和效果自由切换,也可以接入私有化部署的模型。
第四阶段:Filter(质量过滤)
评分低于阈值的内容在此阶段被丢弃。这是信息密度提升的关键一步——大量低质量、重复性、与个人关注点无关的内容在进入后续环节之前已被清除。
过滤阈值可以精细配置:不同信息源可以设置不同的阈值,甚至可以针对不同话题类别设置差异化标准。
第五阶段:Enrich(知识补充)
对通过筛选的高分内容,Horizon不满足于只展示原始标题和摘要,还会主动进行知识补充:
- **背景知识搜索**:通过网络搜索或知识库查询,补充与该话题相关的背景信息
- **社区讨论收集**:整理该内容在各平台的讨论热点和主要观点分歧
这一步让最终简报不只是"新闻列表",而是"有上下文的知识摘要"。
第六阶段:Deploy(生成与发布)
处理完成后,Horizon将结果生成结构化的Markdown报告,并通过GitHub Pages自动部署为静态网站,形成可访问的每日简报页面。整个发布流程通过GitHub Actions配置定时触发,无需人工干预。
---
使用门槛:单一JSON配置搞定一切
Horizon的设计者显然考虑了使用体验。所有配置——信息源列表、AI模型选择、评分阈值、输出格式——统一在单个JSON配置文件中管理,不需要修改任何代码。
对于没有服务器的用户,GitHub Actions提供了免费的定时执行环境:每天定时触发抓取流程,生成的简报自动推送到GitHub Pages,形成一个零成本的个人信息订阅站。
部署流程大致分为三步:
1. Fork仓库,修改配置文件(信息源、AI API Key、过滤阈值)
2. 在GitHub Settings中添加AI服务的API Key作为Secret
3. 开启GitHub Actions,等待第一次自动运行
---
背后的技术逻辑:RAG思想的工程化应用
从架构视角看,Horizon本质上是将RAG(检索增强生成)的思想应用于新闻聚合领域。
传统RAG的流程是:检索相关文档 → 将文档作为上下文 → 生成回答。
Horizon的流程与此高度同构:抓取多源内容(检索)→ AI评分筛选(相关性判断)→ 补充背景知识(上下文增强)→ 生成结构化简报(输出生成)。
这种类比揭示了一个更广泛的趋势:随着AI推理成本持续下降,越来越多原本需要人工判断的信息处理环节,开始被AI流水线接管。Horizon是这一趋势在"个人信息管理"这一垂直场景中的具体实践。
---
同类工具横向对比
与现有工具相比,Horizon的定位相对独特:
| 工具 | 核心能力 | 局限 |
|------|----------|------|
| Feedly/Inoreader | 多源RSS聚合,阅读体验好 | 无AI筛选,内容量大 |
| Perplexity | AI搜索,实时信息 | 被动响应,不主动聚合 |
| Morning Brew等 | 人工编辑简报 | 无法个性化,更新频率固定 |
| **Horizon** | AI全自动聚合+评分+简报生成 | 需要一定技术门槛,初始配置较繁琐 |
Horizon的核心优势在于**完全可定制的全自动化**——你可以精确控制关注哪些来源、AI用什么标准打分、哪些内容值得展示,而无需依赖任何第三方平台的算法决策。
---
适用场景与人群
适合使用Horizon的场景:
- 技术研究者或工程师,需要持续跟踪特定技术领域动态
- 投资人或分析师,需要每日汇总多个行业信息源
- 内容创作者,需要高效获取话题素材
- 想要建立团队共享信息简报的小型团队
不太适合的场景:
- 对"发现意外内容"有强烈需求的用户(过滤机制会降低随机性)
- 不愿意配置API Key、维护GitHub仓库的普通用户
---
小结
Horizon的出现,代表了一类新型个人工具的成熟:**不依赖平台算法,完全由用户定义规则,由AI执行判断的自主信息管理系统**。
它的价值不仅在于节省时间,更在于将"信息获取决策权"归还给用户——你决定看什么,你设置标准,AI替你执行筛选。这与依赖社交平台推荐算法的信息获取方式有着根本性的不同。
随着AI API成本持续降低、GitHub Actions等免费CI/CD工具的普及,类似Horizon这样的"个人AI信息流水线",将在未来成为高信息密度工作者的标配工具之一。