Agent SkillLINUX DO · AI·1 小时前

开源Chrome插件Browser AI Assistant v3.0发布

原标题：【开源推广】史上最强 Chrome 浏览器 AI 工作台插件《Browser AI Assistant v3.0.0》来啦！

速览

该项目是一款基于网页上下文的Chrome侧边栏AI助手，支持多模型渠道、视觉输入及数据同步。它不仅是聊天工具，更集成了浏览器自动化、调试分析和工具调用，旨在打造可横向拓展的浏览器AI工作台。

AI 深度解读

深度解读：Browser AI Assistant v3.0.0 —— 从“聊天框”到“浏览器 AI 工作台”的范式转变

背景

在当前的 AI 应用生态中，浏览器插件往往局限于简单的“侧边栏聊天框”模式。用户在使用 AI 辅助工作时，常面临以下痛点：

上下文割裂：需要让 AI 理解当前网页内容时，必须手动复制粘贴，效率低下且容易遗漏信息。
多标签页管理困难：难以在多个网页标签之间整理和关联上下文信息。
调试与分析能力缺失：缺乏对页面请求、源码、Source Map 及运行时信息的深度分析能力。
数据孤岛与同步不便：对话记录、提示词配置等数据难以跨设备同步或导出保存。

针对上述问题，开发者 AhYi8 推出了开源项目 Browser AI Assistant v3.0.0。该项目不再将自己定位为单一的对话插件，而是旨在构建一个整合了“网页上下文、聊天、工具调用、浏览器自动化、调试分析、导出、同步”的完整浏览器 AI 工作台。其核心理念是通过模块化、接口化的设计，降低耦合性，实现横向拓展和生态兼容。

核心内容

Browser AI Assistant 是一个基于当前网页上下文的 Chrome 侧边栏 AI 助手，支持多模型渠道、视觉图片输入、聊天历史、隐私模式和数据同步。其核心功能体系可划分为基础配置、基础功能、高级功能及聊天体验四个维度。

1. 基础配置与渠道管理

项目强调高度的可配置性，以满足不同用户的技术需求：

多模型支持：支持配置多个 OpenAI Compatible 和 Anthropic 端点。用户可分别指定“默认对话模型”和“会话标题生成模型”，实现模型能力的精细化分配。
网络搜索集成：支持 Tavily 网络搜索配置，具备多秘钥自动轮询机制，确保搜索服务的稳定性。
智能上下文提取：提供提取规则配置，支持通过 CSS/XPath 精准提取网页指定元素作为上下文，而非粗暴地抓取全网页内容（全网页内容仅作为兜底策略），从而提升 Token 利用率和回答相关性。
聊天偏好设置：支持全局系统提示词配置、AI 请求失败重试次数、基础聊天参数（temperature、max_token、top_k）以及工具调用和快捷键配置。
多端同步：支持 Chrome Sync、WebDav 和 S3 兼容存储三种远程备份方式。用户可设置备份前缀以区分不同备份，并支持自动定时同步，确保配置和对话数据的多端一致性。
提示词管理：内置提示词增删改查功能，并支持在聊天面板中通过 / 命令快捷调用常用提示词。

2. 基础功能

多标签页上下文对话：允许用户基于多个打开标签页的内容构建统一的对话上下文，实现跨页面信息的综合分析与问答。
会话管理：支持文件夹分类管理，提供对话的增删改查及归档功能，便于长期知识沉淀。
后台会话处理：切换会话时，当前会话在后台继续运行，不会强行中断，完成后通过提醒通知用户，保障长任务执行的连续性。
基础工具调用：内置获取当前系统时间、Tavily 网络搜索等实用工具。
数据导出与复制：支持将完整对话消息导出为 Markdown、Word、PDF 格式。同时，在用户或 AI 消息气泡下提供“重新生成”、“复制为 Markdown”、“复制为图片”等快捷操作按钮。

3. 高级功能：浏览器自动化与调试

这是该插件区别于普通聊天插件的核心竞争力。基于 chrome.debugger 模式，插件能够深入浏览器底层进行自动化操作和调试分析，具体包括：

Network 分析：支持请求列表查看、详情读取、等待特定请求、请求对比及参数候选分析。
JS 资源索引：提供 JS 资源索引、源码搜索及同源 JS 补位功能。
Source Map 处理：支持 Source Map 候选发现、压缩代码位置映射及原始源码片段提取，极大降低前端调试难度。
Runtime 运行时分析：提供运行时全局摘要、模块搜索及函数描述。
Replay 重放沙箱：支持受控请求重放，用于复现特定网络行为。
Full Access 完全访问模式：允许在用户显式授权下执行脚本、页面 fetch、读取 Network 原文详情及 Storage 数据。
通用浏览器工具：集成页面观测、元素检查、截图、控制台采集、交互操作及现场诊断等功能。

4. 权限控制体系

为了平衡功能强大性与安全性，插件设计了三级权限控制：

普通模式：默认限制高风险能力，保障基础使用安全。
受控增强模式：遇到敏感字段、请求重放、上下文扩展等边界操作时，需用户确认并发放一次性授权。
完全访问模式：仅在用户显式选择后，才开放最高权限工具，适用于高级开发者或特定调试场景。

5. 聊天体验优化

Markdown 渲染：支持代码块专用渲染，包括语言标签识别、换行切换、展开/收起及复制反馈。
滚动优化：优化消息列表滚动逻辑，确保用户查看历史消息时，新消息的进入不会强行将视图拉到底部，提升阅读体验。
进度与稳定性：支持 AI 请求重试进度展示，并修复了工具调用过程中的 DSML 协议泄漏、工具附件展示异常及阶段性总结重复显示等已知问题。

关键要点

定位升级：从简单的“AI 聊天插件”升级为“浏览器 AI 工作台”，强调横向拓展能力和对浏览器底层操作的深度集成。
上下文精准化：通过 CSS/XPath 提取规则，实现非全页抓取的精准上下文注入，优化 Token 使用效率。
多模型与多端同步：原生支持 OpenAI Compatible 和 Anthropic 端点，提供 Chrome Sync、WebDav、S3 三种同步方案，解决数据孤岛问题。
深度调试能力：利用 chrome.debugger 实现 Network、JS、Source Map、Runtime 等维度的深度分析与自动化，填补了现有 AI 插件在开发者工具领域的空白。
安全的权限机制：引入三级权限控制（普通、受控增强、完全访问），在提供强大自动化能力的同时，通过用户确认机制保障操作安全。
模块化架构：开发过程中注重接口化与低耦合，实现工具注册表机制，支持动态增删/启用/禁用任意工具，为后续功能拓展奠定基础。
未来路线图：计划集成 MCP (Model Context Protocol) 功能，实现无损的 Skill 生态集成，并探索 AI 驱动的自动化爬虫及 Token 监控功能。

意义与影响

Browser AI Assistant v3.0.0 的出现标志着浏览器 AI 助手从“被动问答”向“主动辅助与自动化操作”的演进。

提升开发者与研究人员的工作流效率：通过整合调试分析、源码搜索和请求重放功能，该插件为前端开发者、逆向工程师及安全研究人员提供了一个集成的 AI 辅助环境，显著减少了在不同工具间切换的成本。
推动 AI 与浏览器原生能力的深度融合：项目展示了如何利用 chrome.debugger 等原生 API 突破传统 LLM 仅能处理文本的限制，使 AI 能够直接感知和操作浏览器环境，为构建更智能的浏览器自动化代理（Agent）提供了有价值的参考案例。
开源生态的示范效应：作为在 LINUX DO 社区推广的开源项目，其模块化设计和清晰的权限控制机制，为其他浏览器插件开发者提供了良好的架构参考，有助于推动开源社区在 AI 工具链领域的标准化与创新。
数据主权与隐私保护的实践：通过支持多种本地及私有云

查看原文 →linux.do