🎯 系统简介

AI-Digest 是一个专业的 AI 资讯聚合与智能摘要生成系统,旨在帮助用户高效获取、处理和浏览 AI 领域的最新资讯。系统采用模块化架构设计,支持多种部署方式,提供完整的 Web 管理界面。

🤖

智能内容抓取

支持 RSS/Atom、Hacker News、Reddit 等多种数据源,自动抓取最新 AI 资讯

AI 驱动摘要

集成 OpenAI、Claude、Gemini 等多个 LLM,智能生成高质量中文摘要

🔍

智能去重

基于相似度算法的高性能去重系统,确保内容唯一性

📊

数据持久化

SQLite 数据库存储,支持全文搜索、归档管理和数据导出

🎨

现代化界面

Vue 3 + Vite 构建的响应式 Web 界面,提供优雅的用户体验

🚀

灵活部署

支持 Docker、Cloudflare Pages 等多种部署方式

🏗️ 系统架构

AI-Digest 采用三层架构设计,由三个子系统组成:

👤 用户访问 🎨 AI-Digest-UI (前端界面) Vue 3 + Vite · 现代化 Web 管理控制台 Dashboard · 数据源管理 · 日志查看 · 系统配置 ⚙️ AI-Digest-OS (后端服务) FastAPI · RESTful API + 任务调度 JWT认证 · 任务调度 · GitHub监控 · 日志管理 🚀 AI-Digest-Pro (核心引擎) Python 核心引擎 · 内容抓取与智能处理 多源抓取 · LLM处理 · 智能去重 · 站点生成 · 数据持久化

AI-Digest-Pro (核心引擎)

内容抓取、处理、生成的核心逻辑层

  • 多源内容抓取器 (Fetcher)
  • LLM 集成处理器 (Processor)
  • 静态站点生成器 (Generator)
  • 智能去重引擎 (Deduplicator)
  • 数据库管理 (Database)

AI-Digest-OS (后端服务)

提供 RESTful API 和用户认证服务

  • FastAPI Web 框架
  • JWT 认证系统
  • 构建任务管理
  • 日志查询接口
  • GitHub 仓库监控

AI-Digest-UI (前端界面)

现代化的 Web 管理控制台

  • Vue 3 响应式框架
  • 数据源管理界面
  • 构建触发与监控
  • 系统配置管理
  • 实时日志查看

🔧 技术栈

后端技术

  • Python 3.9+ - 主要开发语言
  • FastAPI - 现代 Web 框架
  • SQLite - 嵌入式数据库
  • Feedparser - RSS/Atom 解析
  • BeautifulSoup4 - HTML 解析
  • Trafilatura - 内容提取
  • Jinja2 - 模板引擎
  • Playwright - 无头浏览器

前端技术

  • Vue 3 - 渐进式前端框架
  • Vite - 现代构建工具
  • Vue Router - 路由管理
  • Axios - HTTP 客户端
  • Pagefind - 静态搜索引擎

AI 集成

  • OpenAI API - GPT 系列模型
  • Anthropic Claude - Claude 系列模型
  • Google Gemini - Gemini 系列模型
  • Groq - 高速推理服务
  • Ollama - 本地模型支持

部署技术

  • Docker - 容器化部署
  • Docker Compose - 多容器编排
  • Cloudflare Pages - 静态站点托管
  • GitHub Actions - CI/CD 自动化

📈 核心特性详解

1. 多源内容聚合

系统支持从多种数据源自动抓取 AI 相关资讯:

  • RSS/Atom 订阅源:支持任意 RSS/Atom 格式的新闻源,自动解析标题、链接、发布时间等元数据
  • Hacker News:通过 Algolia API 抓取 AI 相关讨论,支持热度排序
  • Reddit:抓取 r/MachineLearning、r/artificial 等子版块的热门内容
  • 自定义源:可通过配置文件灵活添加新的数据源,支持 HTML 页面抓取

2. 智能内容处理

采用多级处理流程确保内容质量:

  • 内容提取:使用 Trafilatura 和 Playwright 双重方案提取网页正文,抓取成功率达 90%+
  • 标题验证:AI 驱动的标题相关性检查,过滤无关内容
  • 智能摘要:使用 LLM 生成高质量中英文双语摘要,控制在 200-300 字
  • 内容去重:基于标题相似度算法,自动识别并去除重复内容
  • 优先级评分:根据关键词和来源计算热度和关注度分数,智能排序

3. 数据持久化与管理

完善的数据存储和管理机制:

  • SQLite 数据库:轻量级嵌入式数据库,支持数万篇文章存储
  • 索引优化:为日期、URL、分类等字段建立索引,提升查询性能
  • 批量操作:支持批量插入和更新,性能提升 2-3 倍
  • 数据归档:自动归档历史数据,支持按日期、分类查询
  • 内容保留:可配置内容保留期限(1-90天),自动清理过期内容

4. 静态站点生成

生成高性能的静态网站:

  • Jinja2 模板引擎:灵活的模板系统,易于定制
  • 响应式设计:完美适配桌面和移动设备
  • 双语支持:中英文内容自由切换
  • 全文搜索:集成 Pagefind 静态搜索引擎
  • SEO 优化:语义化 HTML,搜索引擎友好

📊 性能指标

性能指标 优化前 优化后 提升幅度
RSS 抓取速度 ~200秒 ~50秒 4倍
AI 处理(有缓存) ~300秒 ~90秒 3.3倍
数据库批量插入 ~10秒 ~3秒 3.3倍
网页抓取成功率 ~40% ~90%+ 2.25倍
API 成本(有缓存) $10 $5-7 节省 30-50%

🚀 快速开始

查看 快速开始指南 在 5 分钟内部署系统,或者: