AI-Digest-Pro
核心引擎 - 内容抓取与智能处理
📋 子系统概述
AI-Digest-Pro 是系统的核心引擎,负责从多个数据源抓取AI资讯、使用LLM生成智能摘要、去重处理,并生成静态HTML网站。
🎯 主要功能
多源内容抓取
支持RSS/Atom、Hacker News、Reddit等20+数据源,并发抓取提升效率
LLM智能处理
集成OpenAI、Claude、Gemini等多个LLM,生成高质量中英文摘要
智能去重
基于标题相似度算法,自动识别并移除重复内容
静态站点生成
使用Jinja2模板引擎生成响应式HTML网站
🔧 技术栈
- Python 3.9+ - 主要开发语言
- Feedparser - RSS/Atom解析
- Trafilatura - 网页内容提取
- Playwright - 无头浏览器(增强版抓取)
- OpenAI SDK - LLM API集成
- SQLite - 轻量级数据库
- Jinja2 - 模板引擎
- Pagefind - 静态搜索引擎
📂 项目结构
ai-digest-pro/
├── core/ # 核心模块
│ ├── fetcher.py # 内容抓取
│ ├── processor.py # AI处理
│ ├── generator.py # 网站生成
│ ├── database.py # 数据库
│ └── deduplicator.py # 去重
├── templates/ # HTML模板
├── static/ # 静态资源
├── output/ # 生成的网站
├── data/ # 数据库文件
├── main.py # 主程序入口
└── config.yaml # 配置文件
🚀 使用方式
基本使用
python main.py
清除今天数据
python main.py --clear-today
一键重建并部署
./rebuild.sh # Linux/Mac
rebuild.bat # Windows