← 返回信息流
Agent SkillLINUX DO · AI·1 小时前

开源Chrome插件Browser AI Assistant v3.0发布

原标题:【开源推广】史上最强 Chrome 浏览器 AI 工作台插件《Browser AI Assistant v3.0.0》 来啦!

速览

该项目是一款基于网页上下文的Chrome侧边栏AI助手,支持多模型渠道、视觉输入及数据同步。它不仅是聊天工具,更集成了浏览器自动化、调试分析和工具调用,旨在打造可横向拓展的浏览器AI工作台。

AI 深度解读

深度解读:Browser AI Assistant v3.0.0 —— 从“聊天框”到“浏览器 AI 工作台”的范式转变

背景

在当前的 AI 应用生态中,浏览器插件往往局限于简单的“侧边栏聊天框”模式。用户在使用 AI 辅助工作时,常面临以下痛点:

  1. 上下文割裂:需要让 AI 理解当前网页内容时,必须手动复制粘贴,效率低下且容易遗漏信息。
  2. 多标签页管理困难:难以在多个网页标签之间整理和关联上下文信息。
  3. 调试与分析能力缺失:缺乏对页面请求、源码、Source Map 及运行时信息的深度分析能力。
  4. 数据孤岛与同步不便:对话记录、提示词配置等数据难以跨设备同步或导出保存。

针对上述问题,开发者 AhYi8 推出了开源项目 Browser AI Assistant v3.0.0。该项目不再将自己定位为单一的对话插件,而是旨在构建一个整合了“网页上下文、聊天、工具调用、浏览器自动化、调试分析、导出、同步”的完整浏览器 AI 工作台。其核心理念是通过模块化、接口化的设计,降低耦合性,实现横向拓展和生态兼容。

核心内容

Browser AI Assistant 是一个基于当前网页上下文的 Chrome 侧边栏 AI 助手,支持多模型渠道、视觉图片输入、聊天历史、隐私模式和数据同步。其核心功能体系可划分为基础配置、基础功能、高级功能及聊天体验四个维度。

1. 基础配置与渠道管理

项目强调高度的可配置性,以满足不同用户的技术需求:

  • 多模型支持:支持配置多个 OpenAI CompatibleAnthropic 端点。用户可分别指定“默认对话模型”和“会话标题生成模型”,实现模型能力的精细化分配。
  • 网络搜索集成:支持 Tavily 网络搜索配置,具备多秘钥自动轮询机制,确保搜索服务的稳定性。
  • 智能上下文提取:提供提取规则配置,支持通过 CSS/XPath 精准提取网页指定元素作为上下文,而非粗暴地抓取全网页内容(全网页内容仅作为兜底策略),从而提升 Token 利用率和回答相关性。
  • 聊天偏好设置:支持全局系统提示词配置、AI 请求失败重试次数、基础聊天参数(temperature、max_token、top_k)以及工具调用和快捷键配置。
  • 多端同步:支持 Chrome SyncWebDav 和 S3 兼容存储三种远程备份方式。用户可设置备份前缀以区分不同备份,并支持自动定时同步,确保配置和对话数据的多端一致性。
  • 提示词管理:内置提示词增删改查功能,并支持在聊天面板中通过 / 命令快捷调用常用提示词。

2. 基础功能

  • 多标签页上下文对话:允许用户基于多个打开标签页的内容构建统一的对话上下文,实现跨页面信息的综合分析与问答。
  • 会话管理:支持文件夹分类管理,提供对话的增删改查及归档功能,便于长期知识沉淀。
  • 后台会话处理:切换会话时,当前会话在后台继续运行,不会强行中断,完成后通过提醒通知用户,保障长任务执行的连续性。
  • 基础工具调用:内置获取当前系统时间、Tavily 网络搜索等实用工具。
  • 数据导出与复制:支持将完整对话消息导出为 Markdown、Word、PDF 格式。同时,在用户或 AI 消息气泡下提供“重新生成”、“复制为 Markdown”、“复制为图片”等快捷操作按钮。

3. 高级功能:浏览器自动化与调试

这是该插件区别于普通聊天插件的核心竞争力。基于 chrome.debugger 模式,插件能够深入浏览器底层进行自动化操作和调试分析,具体包括:

  • Network 分析:支持请求列表查看、详情读取、等待特定请求、请求对比及参数候选分析。
  • JS 资源索引:提供 JS 资源索引、源码搜索及同源 JS 补位功能。
  • Source Map 处理:支持 Source Map 候选发现、压缩代码位置映射及原始源码片段提取,极大降低前端调试难度。
  • Runtime 运行时分析:提供运行时全局摘要、模块搜索及函数描述。
  • Replay 重放沙箱:支持受控请求重放,用于复现特定网络行为。
  • Full Access 完全访问模式:允许在用户显式授权下执行脚本、页面 fetch、读取 Network 原文详情及 Storage 数据。
  • 通用浏览器工具:集成页面观测、元素检查、截图、控制台采集、交互操作及现场诊断等功能。

4. 权限控制体系

为了平衡功能强大性与安全性,插件设计了三级权限控制:

  • 普通模式:默认限制高风险能力,保障基础使用安全。
  • 受控增强模式:遇到敏感字段、请求重放、上下文扩展等边界操作时,需用户确认并发放一次性授权。
  • 完全访问模式:仅在用户显式选择后,才开放最高权限工具,适用于高级开发者或特定调试场景。

5. 聊天体验优化

  • Markdown 渲染:支持代码块专用渲染,包括语言标签识别、换行切换、展开/收起及复制反馈。
  • 滚动优化:优化消息列表滚动逻辑,确保用户查看历史消息时,新消息的进入不会强行将视图拉到底部,提升阅读体验。
  • 进度与稳定性:支持 AI 请求重试进度展示,并修复了工具调用过程中的 DSML 协议泄漏、工具附件展示异常及阶段性总结重复显示等已知问题。

关键要点

  • 定位升级:从简单的“AI 聊天插件”升级为“浏览器 AI 工作台”,强调横向拓展能力和对浏览器底层操作的深度集成。
  • 上下文精准化:通过 CSS/XPath 提取规则,实现非全页抓取的精准上下文注入,优化 Token 使用效率。
  • 多模型与多端同步:原生支持 OpenAI Compatible 和 Anthropic 端点,提供 Chrome Sync、WebDav、S3 三种同步方案,解决数据孤岛问题。
  • 深度调试能力:利用 chrome.debugger 实现 Network、JS、Source Map、Runtime 等维度的深度分析与自动化,填补了现有 AI 插件在开发者工具领域的空白。
  • 安全的权限机制:引入三级权限控制(普通、受控增强、完全访问),在提供强大自动化能力的同时,通过用户确认机制保障操作安全。
  • 模块化架构:开发过程中注重接口化与低耦合,实现工具注册表机制,支持动态增删/启用/禁用任意工具,为后续功能拓展奠定基础。
  • 未来路线图:计划集成 MCP (Model Context Protocol) 功能,实现无损的 Skill 生态集成,并探索 AI 驱动的自动化爬虫及 Token 监控功能。

意义与影响

Browser AI Assistant v3.0.0 的出现标志着浏览器 AI 助手从“被动问答”向“主动辅助与自动化操作”的演进。

  1. 提升开发者与研究人员的工作流效率:通过整合调试分析、源码搜索和请求重放功能,该插件为前端开发者、逆向工程师及安全研究人员提供了一个集成的 AI 辅助环境,显著减少了在不同工具间切换的成本。
  2. 推动 AI 与浏览器原生能力的深度融合:项目展示了如何利用 chrome.debugger 等原生 API 突破传统 LLM 仅能处理文本的限制,使 AI 能够直接感知和操作浏览器环境,为构建更智能的浏览器自动化代理(Agent)提供了有价值的参考案例。
  3. 开源生态的示范效应:作为在 LINUX DO 社区推广的开源项目,其模块化设计和清晰的权限控制机制,为其他浏览器插件开发者提供了良好的架构参考,有助于推动开源社区在 AI 工具链领域的标准化与创新。
  4. 数据主权与隐私保护的实践:通过支持多种本地及私有云
查看原文 →linux.do