内容源采集 ↓ 数据库存储 ↓ 分类 / 专题 / 封面处理 ↓ 前台页面展示 ↓ 用户浏览与互动 ↓ GA4 / GSC 数据反馈 ↓ 持续优化
平台每 30 分钟自动从多个内容源采集热点,覆盖新闻、视频、科技、娱乐、社会等领域。
数据源: 微博热搜 B站热门 36氪 网易新闻 IT之家 GitHub Trending
定时任务(每30分钟) ↓ collector.py 并发抓取各平台 ↓ classify() 自动分类 + refine_category() 二次纠偏 ↓ save_hots() 写入数据库 ↓ fetch_covers.py 封面本地化 ↓ topic_builder.py 专题聚合 ↓ timeline_builder.py 时间线生成
采集任务通过 Lock 文件防重复,Lock 写入进程 PID,进程异常后自动清理,保证链路稳定。
| 分类 | URL | 主要数据源 |
|---|---|---|
| 科技数码 | /category/tech | GitHub、IT之家、36氪 |
| 热点资讯 | /category/news | 微博、网易 |
| 娱乐吃瓜 | /category/ent | 微博、B站 |
| 社会热点 | /category/social | 微博、网易 |
| 生活观点 | /category/life | 微博、36氪 |
| 开源项目 | /opensource | GitHub Trending |
分类 URL 使用英文路径,利于 SEO。中文旧链接自动 301 跳转到英文路径,保留历史页面权重。
首页定位为热点门户,按优先级展示:
🆕 最新视频(按采集时间倒序) 🔥 热门视频(按热度排序) 📊 平台热榜(微博 / B站 / 36氪 / 网易) 🔥 热点图文(有封面的高热度文章) ⚡ 实时热点动态(飙升 / 新上榜 / 持续关注) 📌 今日热点事件(专题入口)
完整的用户留存链路,提升停留时间与连续浏览深度:
首页「🆕 最新视频」 ↓ 视频详情页 /p/xxx ↓ 左侧:当前视频播放 右侧:20条最新视频推荐 ↓ 视频播放结束 ↓ 弹出倒计时:「▶ 即将播放下一条 5s」 [立即播放] [✕ 取消] ↓ 5秒后自动跳转下一条
热点内容入库 ↓ 识别关键词 / 实体 ↓ 生成专题(/topic/xxx) ↓ 聚合相关文章 + 时间线 ↓ AI 补全 description / keywords ↓ 进入 Sitemap → Google 收录长尾词
真实采集封面(/static/covers/12345.jpg) ↓ 无真实封面 / 低质量(尺寸不足或文件 < 5KB) 分类图池轮换(tech_1.jpg / hot_2.jpg ...) ↓ 最终兜底 分类默认图(/static/covers/tech.jpg)
| 项目 | 状态 |
|---|---|
| 分类 URL 英文化 | ✅ |
| 中文旧 URL 301 跳转 | ✅ |
| Sitemap 自动更新 | ✅ |
| Canonical 规范化 | ✅ |
| 专题页 description / keywords | ✅ |
| 脏 topic URL 拦截 → 404 | ✅ |
| 图片质量过滤 | ✅ |
| 已收录页面 | 8110 页 |
| 平均排名 | 7.1 |
| GA4 指标 | 当前 | 目标 |
|---|---|---|
| 活跃用户 | 224 | 持续增长 |
| 平均互动时长 | ~3秒 | 15~30秒 |
| 每用户浏览页数 | 1.x | 2.x+ |
| 参与率 | 3.58% | 10%+ |
自动采集热点(每30分钟) ↓ 分类 + 专题 + 封面自动处理 ↓ 首页 / 分类页 / 专题页 / 视频页展示 ↓ 用户浏览 → 视频连续播放 → 专题深度阅读 ↓ GA4 统计停留时间 / 浏览页数 ↓ GSC 统计收录 / 曝光 / 点击 ↓ 根据数据优化内容权重和页面结构