📋 子系统概述

AI-Digest-Pro 是系统的核心引擎,负责从多个数据源抓取AI资讯、使用LLM生成智能摘要、去重处理,并生成静态HTML网站。

🎯 主要功能

多源内容抓取

支持RSS/Atom、Hacker News、Reddit等20+数据源,并发抓取提升效率

LLM智能处理

集成OpenAI、Claude、Gemini等多个LLM,生成高质量中英文摘要

智能去重

基于标题相似度算法,自动识别并移除重复内容

静态站点生成

使用Jinja2模板引擎生成响应式HTML网站

🔧 技术栈

  • Python 3.9+ - 主要开发语言
  • Feedparser - RSS/Atom解析
  • Trafilatura - 网页内容提取
  • Playwright - 无头浏览器(增强版抓取)
  • OpenAI SDK - LLM API集成
  • SQLite - 轻量级数据库
  • Jinja2 - 模板引擎
  • Pagefind - 静态搜索引擎

📂 项目结构

ai-digest-pro/
├── core/                  # 核心模块
│   ├── fetcher.py        # 内容抓取
│   ├── processor.py      # AI处理
│   ├── generator.py      # 网站生成
│   ├── database.py       # 数据库
│   └── deduplicator.py   # 去重
├── templates/            # HTML模板
├── static/              # 静态资源
├── output/              # 生成的网站
├── data/                # 数据库文件
├── main.py              # 主程序入口
└── config.yaml          # 配置文件

🚀 使用方式

基本使用

python main.py

清除今天数据

python main.py --clear-today

一键重建并部署

./rebuild.sh  # Linux/Mac
rebuild.bat   # Windows