🔥 热搜汇 · 站点逻辑说明

网页版架构与运作逻辑 · 最后更新:2026-06

一、整体架构

内容源采集
↓
数据库存储
↓
分类 / 专题 / 封面处理
↓
前台页面展示
↓
用户浏览与互动
↓
GA4 / GSC 数据反馈
↓
持续优化

二、内容采集逻辑

平台每 30 分钟自动从多个内容源采集热点,覆盖新闻、视频、科技、娱乐、社会等领域。

数据源: 微博热搜 B站热门 36氪 网易新闻 IT之家 GitHub Trending

定时任务(每30分钟)
↓
collector.py 并发抓取各平台
↓
classify() 自动分类 + refine_category() 二次纠偏
↓
save_hots() 写入数据库
↓
fetch_covers.py 封面本地化
↓
topic_builder.py 专题聚合
↓
timeline_builder.py 时间线生成

采集任务通过 Lock 文件防重复,Lock 写入进程 PID,进程异常后自动清理,保证链路稳定。

三、分类体系

分类URL主要数据源
科技数码/category/techGitHub、IT之家、36氪
热点资讯/category/news微博、网易
娱乐吃瓜/category/ent微博、B站
社会热点/category/social微博、网易
生活观点/category/life微博、36氪
开源项目/opensourceGitHub Trending

分类 URL 使用英文路径,利于 SEO。中文旧链接自动 301 跳转到英文路径,保留历史页面权重。

四、首页展示逻辑

首页定位为热点门户,按优先级展示:

🆕 最新视频(按采集时间倒序)
🔥 热门视频(按热度排序)
📊 平台热榜(微博 / B站 / 36氪 / 网易)
🔥 热点图文(有封面的高热度文章)
⚡ 实时热点动态(飙升 / 新上榜 / 持续关注)
📌 今日热点事件(专题入口)

五、视频浏览链路

完整的用户留存链路,提升停留时间与连续浏览深度:

首页「🆕 最新视频」
↓
视频详情页 /p/xxx
↓
左侧:当前视频播放
右侧:20条最新视频推荐
↓
视频播放结束
↓
弹出倒计时:「▶ 即将播放下一条 5s」
[立即播放]  [✕ 取消]
↓
5秒后自动跳转下一条

六、专题聚合逻辑

热点内容入库
↓
识别关键词 / 实体
↓
生成专题(/topic/xxx)
↓
聚合相关文章 + 时间线
↓
AI 补全 description / keywords
↓
进入 Sitemap → Google 收录长尾词

七、封面处理优先级

真实采集封面(/static/covers/12345.jpg)
↓ 无真实封面 / 低质量(尺寸不足或文件 < 5KB)
分类图池轮换(tech_1.jpg / hot_2.jpg ...)
↓ 最终兜底
分类默认图(/static/covers/tech.jpg)

八、SEO 结构

项目状态
分类 URL 英文化
中文旧 URL 301 跳转
Sitemap 自动更新
Canonical 规范化
专题页 description / keywords
脏 topic URL 拦截 → 404
图片质量过滤
已收录页面8110 页
平均排名7.1

九、数据反馈

GA4 指标当前目标
活跃用户224持续增长
平均互动时长~3秒15~30秒
每用户浏览页数1.x2.x+
参与率3.58%10%+

十、整体闭环

自动采集热点(每30分钟)
↓
分类 + 专题 + 封面自动处理
↓
首页 / 分类页 / 专题页 / 视频页展示
↓
用户浏览 → 视频连续播放 → 专题深度阅读
↓
GA4 统计停留时间 / 浏览页数
↓
GSC 统计收录 / 曝光 / 点击
↓
根据数据优化内容权重和页面结构