← 返回信息流
Agent SkillLINUX DO · AI·1 小时前

开发者求助:AI辅助B站视频推荐系统的架构与记忆设计

原标题:做了个 AI 辅助的B站视频推荐原型,想请教项目架构、长期记忆和 token 成本控制

速览

一位开发者开源了名为BiliClimb的AI辅助B站视频推荐原型,旨在通过AI整理个人视频库并生成渐进式学习路径。该项目采用多模型协作架构,涉及用户画像提取、视频分类及智能推荐等环节,但面临上下文爆炸和Token成本过高的问题。作者发帖寻求关于个人长期记忆架构设计、状态信息精炼以及多AI工作流Token优化的专业建议。

AI 深度解读

背景

在 B 站(Bilibili)浏览视频时,用户往往面临首页推荐算法带来的娱乐化内容干扰,难以专注于系统性学习。为了解决这一问题,开发者 divisioncassini05-lab 构建了一个名为 BiliClimb 的开源项目。该项目的核心目标是将个人收藏的 B 站视频库转化为“渐进式学习路径”,通过 AI 辅助实现个性化的视频推荐。

该项目目前处于半成品阶段,作者在使用 AI 辅助编码过程中发现项目复杂度急剧上升,底层架构变得不透明(黑箱化),且面临长期记忆管理、多模型协作以及 Token 成本控制等技术瓶颈。因此,作者发起此帖,旨在向社区请教关于个人画像架构、长期记忆设计以及多 AI 协作工作流优化的专业思路。

核心内容

BiliClimb 是一个基于 AI 辅助的个人视频库管理系统,旨在通过结构化数据分析和智能推荐,帮助用户从碎片化的视频收藏中构建有序的学习体系。其核心逻辑是通过脚本抓取用户标记的视频,导入本地视频库,并结合用户画像与实时状态,由 AI 模型推荐下一个最适合观看的视频。

1. 系统架构与模块划分

作者将系统解耦为五个独立的 AI 任务模块(A0-A4),以应对单一模型无法胜任所有任务的现实:

  • A0(前台入口与状态提取)
    • 作为用户交互的前端,提供类似普通聊天模型的体验。
    • 主要功能包括记录用户看完视频后的反馈,以及在闲聊中提取“当前状态”(如考试压力、疲劳程度)和“长期状态”(如兴趣偏好、偶像博主)。
    • 架构上细分为两个子模型:前端聊天模型(可使用较弱模型以节约成本)和后端状态提取模型(需较强模型以确保信息提取准确性)。
  • A1(长期画像构建)
    • 唯一任务是总结用户的长期画像。
    • 执行频率为每日一次,基于 A0 提取的信息及用户反馈进行分析。
    • 输出分为三类:原始画像、供其他模型读取的短画像、以及证据池(Evidence Pool)。
  • A2(视频库处理)
    • 负责将导入的视频库进行结构化处理,包括分类、打标签、生成视频摘要(videocard)。
    • 同时负责保存用户的观看记录。
  • A3(智能推荐引擎)
    • 核心推荐模块,依据 A2 的结构化视频库、A0 的当前状态、A1 的长期画像进行推荐。
    • 采用两阶段筛选策略:先确定推荐方向(类别),再在缩小后的视频库中进行精准推荐,避免全量扫描。
    • 推荐结果需附带推荐理由。
  • A4(每日复盘)
    • 基于当天状态、观看记录、推荐记录和反馈生成每日复盘报告。
    • 单独设立模块是为了允许使用与 A0 不同的模型,以优化成本或效果。

2. 工作流设计

  1. 数据导入:通过脚本在 B 站标记视频,导出 JSON 文件,导入本地工具的视频库。
  2. 日常交互:用户通过 A0 进行闲聊或反馈。A0 实时提取状态信息并更新系统。
  3. 触发推荐:当用户明确要求推荐视频时,A0 调用 A3。A3 综合多维度数据生成推荐列表及理由,由 A0 转述给用户。
  4. 反馈闭环:用户观看后向 A0 反馈,系统更新当前状态、观看记录和反馈数据。
  5. 定期整理:A1 每日运行,更新长期画像;A4 每日运行,生成复盘。

3. 当前痛点与待解决问题

  • 长期记忆架构不明:如何区分稳定状态与临时状态?如何避免随着时间推移,输入上下文无限膨胀导致 Token 成本爆炸?如何精炼信息?
  • Token 成本控制:多模型协作导致实测 Token 消耗巨大。虽然初步设想通过程序辅助格式处理、使用不同强度的模型(如 A2 使用弱模型)来优化,但缺乏成熟方案。
  • 功能缺失:插件视频库无法翻页,插件与本地工具的视频库自动同步功能尚未实现。

关键要点

  • 模块化 AI 协作:项目采用多模型分工策略(A0-A4),而非单一模型通吃,以平衡功能需求与成本。
  • 状态分层管理:在 A0 中明确区分“当前状态”(临时、情境依赖)和“长期状态”(持久、兴趣偏好),为后续画像构建提供基础。
  • 画像数据隔离:A1 生成的长期画像分为“原始画像”、“短画像”和“证据池”,旨在限制其他模型读取的数据量,减少上下文负担。
  • 推荐策略优化:A3 推荐模块采用“先定向、后筛选”的两阶段机制,避免每次推荐都遍历整个视频库,以降低计算和 Token 成本。
  • 成本敏感设计:作者意识到 Token 成本是主要瓶颈,尝试通过模型分级(强弱搭配)和程序辅助预处理来缓解压力。
  • 开源与透明:项目完全开源,作者承认代码由 AI(Codex)生成且存在理解偏差,保持诚实并寻求社区反馈。

意义与影响

BiliClimb 项目展示了个人开发者利用 AI 构建复杂个性化应用的前沿实践,其价值不仅在于工具本身,更在于其探索出的架构思路:

  1. 个人知识管理的 AI 化范式:项目提供了一种将非结构化视频内容转化为结构化学习路径的方法论,强调了“用户画像”与“上下文状态”在个性化推荐中的核心作用。
  2. 多 Agent 协作的实战案例:通过 A0-A4 的分工,项目直观地呈现了多 AI Agent 协作的潜在架构。这种解耦设计为其他开发者处理复杂任务流(如记忆管理、推荐、复盘)提供了参考模板。
  3. 成本控制与效率平衡的探索:项目直面 AI 应用中的 Token 成本痛点,提出的“模型分级”、“两阶段推荐”、“证据池”等思路,对于在资源受限环境下构建大规模 AI 应用具有重要的借鉴意义。
  4. 社区驱动的开发模式:作者公开半成品并寻求架构建议,体现了开源社区在解决复杂工程问题上的协作价值,有助于推动个人 AI 应用开发的最佳实践沉淀。
查看原文 →linux.do