AI-Digest 系统概述
智能化 AI 资讯聚合与摘要生成系统
🎯 系统简介
AI-Digest 是一个专业的 AI 资讯聚合与智能摘要生成系统,旨在帮助用户高效获取、处理和浏览 AI 领域的最新资讯。系统采用模块化架构设计,支持多种部署方式,提供完整的 Web 管理界面。
智能内容抓取
支持 RSS/Atom、Hacker News、Reddit 等多种数据源,自动抓取最新 AI 资讯
AI 驱动摘要
集成 OpenAI、Claude、Gemini 等多个 LLM,智能生成高质量中文摘要
智能去重
基于相似度算法的高性能去重系统,确保内容唯一性
数据持久化
SQLite 数据库存储,支持全文搜索、归档管理和数据导出
现代化界面
Vue 3 + Vite 构建的响应式 Web 界面,提供优雅的用户体验
灵活部署
支持 Docker、Cloudflare Pages 等多种部署方式
🏗️ 系统架构
AI-Digest 采用三层架构设计,由三个子系统组成:
AI-Digest-Pro (核心引擎)
内容抓取、处理、生成的核心逻辑层
- 多源内容抓取器 (Fetcher)
- LLM 集成处理器 (Processor)
- 静态站点生成器 (Generator)
- 智能去重引擎 (Deduplicator)
- 数据库管理 (Database)
AI-Digest-OS (后端服务)
提供 RESTful API 和用户认证服务
- FastAPI Web 框架
- JWT 认证系统
- 构建任务管理
- 日志查询接口
- GitHub 仓库监控
AI-Digest-UI (前端界面)
现代化的 Web 管理控制台
- Vue 3 响应式框架
- 数据源管理界面
- 构建触发与监控
- 系统配置管理
- 实时日志查看
🔧 技术栈
后端技术
- Python 3.9+ - 主要开发语言
- FastAPI - 现代 Web 框架
- SQLite - 嵌入式数据库
- Feedparser - RSS/Atom 解析
- BeautifulSoup4 - HTML 解析
- Trafilatura - 内容提取
- Jinja2 - 模板引擎
- Playwright - 无头浏览器
前端技术
- Vue 3 - 渐进式前端框架
- Vite - 现代构建工具
- Vue Router - 路由管理
- Axios - HTTP 客户端
- Pagefind - 静态搜索引擎
AI 集成
- OpenAI API - GPT 系列模型
- Anthropic Claude - Claude 系列模型
- Google Gemini - Gemini 系列模型
- Groq - 高速推理服务
- Ollama - 本地模型支持
部署技术
- Docker - 容器化部署
- Docker Compose - 多容器编排
- Cloudflare Pages - 静态站点托管
- GitHub Actions - CI/CD 自动化
📈 核心特性详解
1. 多源内容聚合
系统支持从多种数据源自动抓取 AI 相关资讯:
- RSS/Atom 订阅源:支持任意 RSS/Atom 格式的新闻源,自动解析标题、链接、发布时间等元数据
- Hacker News:通过 Algolia API 抓取 AI 相关讨论,支持热度排序
- Reddit:抓取 r/MachineLearning、r/artificial 等子版块的热门内容
- 自定义源:可通过配置文件灵活添加新的数据源,支持 HTML 页面抓取
2. 智能内容处理
采用多级处理流程确保内容质量:
- 内容提取:使用 Trafilatura 和 Playwright 双重方案提取网页正文,抓取成功率达 90%+
- 标题验证:AI 驱动的标题相关性检查,过滤无关内容
- 智能摘要:使用 LLM 生成高质量中英文双语摘要,控制在 200-300 字
- 内容去重:基于标题相似度算法,自动识别并去除重复内容
- 优先级评分:根据关键词和来源计算热度和关注度分数,智能排序
3. 数据持久化与管理
完善的数据存储和管理机制:
- SQLite 数据库:轻量级嵌入式数据库,支持数万篇文章存储
- 索引优化:为日期、URL、分类等字段建立索引,提升查询性能
- 批量操作:支持批量插入和更新,性能提升 2-3 倍
- 数据归档:自动归档历史数据,支持按日期、分类查询
- 内容保留:可配置内容保留期限(1-90天),自动清理过期内容
4. 静态站点生成
生成高性能的静态网站:
- Jinja2 模板引擎:灵活的模板系统,易于定制
- 响应式设计:完美适配桌面和移动设备
- 双语支持:中英文内容自由切换
- 全文搜索:集成 Pagefind 静态搜索引擎
- SEO 优化:语义化 HTML,搜索引擎友好
📊 性能指标
| 性能指标 | 优化前 | 优化后 | 提升幅度 |
|---|---|---|---|
| RSS 抓取速度 | ~200秒 | ~50秒 | 4倍 |
| AI 处理(有缓存) | ~300秒 | ~90秒 | 3.3倍 |
| 数据库批量插入 | ~10秒 | ~3秒 | 3.3倍 |
| 网页抓取成功率 | ~40% | ~90%+ | 2.25倍 |
| API 成本(有缓存) | $10 | $5-7 | 节省 30-50% |
🚀 快速开始
查看 快速开始指南 在 5 分钟内部署系统,或者: