← 返回信息流
GitHub 热榜GitHub Trending · 日·1 小时前

SIA:自主提升AI系统性能的自改进框架

原标题:hexo-ai/sia
Python1,066 stars+177 今日

速览

SIA是一个自改进AI框架,能够自主提升任何AI系统(包括模型或智能体)在特定基准任务上的表现。它通过自动化迭代优化机制,无需人工干预即可持续改进系统性能,适用于需要高效基准测试与性能调优的AI开发场景。

AI 深度解读

这是什么

SIA (Self Improving AI) 是一个基于 Python 的开源框架,旨在实现 AI 系统的自主性能提升。它是论文《Self Improving AI with Harness & Weight Updates》(Hebbar et al., 2026)的官方实现。

SIA 的核心机制是一个自我改进循环(Self-Improving Loop),通过协调三种不同类型的 AI Agent,让一个语言模型 Agent 不仅更新任务特定 Agent 的权重(Weights),还更新其代码逻辑(Harness)。该项目在 GitHub 上已获得 1066+ Star,主语言为 Python。

解决的问题

传统 AI 应用往往面临以下瓶颈:

  1. 静态模型局限:预训练模型在面对特定领域任务(如法律推理、科学计算)时,性能往往难以突破基线。
  2. 人工迭代成本高:优化 Agent 的代码逻辑(Harness)和模型参数通常需要大量的人工调试和专家知识。
  3. 复杂任务自动化难:在需要编写、运行并迭代完整 ML 流水线(如 MLE-Bench 竞赛)或优化底层 GPU 内核时,缺乏自动化的闭环反馈机制。

SIA 通过引入“元-Agent”、“目标-Agent”和“反馈-Agent”的协同工作流,解决了上述问题,实现了从任务描述到最终高性能解决方案的全自动化迭代。

核心功能

SIA 的运行依赖于三个核心 Agent 的协作:

  • Meta-Agent(元智能体)
    • 读取任务描述,生成初始的 Target Agent。
    • 负责整体流程的编排。
  • Target / Task Specific Agent(目标/任务特定智能体)
    • 尝试完成具体任务。
    • 记录其动作、代码执行结果及性能指标。
  • Feedback/Improvement Agent(反馈/改进智能体)
    • 审查 Target Agent 的性能日志。
    • 识别改进点,并生成对 Target Agent 代码或权重的更新补丁。

关键特性:

  • 双重更新机制:不仅优化模型权重(Weight Updates),还优化代码逻辑(Harness Updates)。
  • 多 Provider 支持:支持 OpenAI、Anthropic (Claude)、Google (Gemini) 等多种 LLM 提供商。
  • 内置任务集:预置了 gpqalawbenchlongcot-chessspaceship-titanic 四个任务。
  • 可视化仪表盘:内置 Web 界面,实时展示每一代(Generation)的代码变更、评估分数、准确率趋势及执行轨迹。

亮点 / 与同类相比

SIA 在多个基准测试中展现了显著的性能优势,远超基线模型:

  1. LawBench(法律基准)
    • 在预测中国法院案件描述中的刑事罪名(191个类别)任务中,SIA-W+H 达到了 70.1% 的 Top-1 准确率,击败了此前 45% 的 SOTA。
  2. GPU 内核优化
    • 在 AlphaFold-3 的 Triangle Multiplicative Update 内核优化任务中,实现了 14x 的加速比,同时保持正确性并满足 H100 延迟目标。
  3. 科学计算
    • 在单细胞 RNA 测序去噪任务中,MSEnorm 分数达到 0.289,优于此前 SOTA 的 0.220。
  4. MLE-Bench Hard
    • 在包含真实 Kaggle 机器学习竞赛的 MLE-Bench Hard 基准中,SIA 在所有测试代次中均排名 No.1

对比优势

  • 相比仅依赖 Prompt Engineering 的工具,SIA 通过代码级(Harness)和权重级(Weight)的双重迭代,实现了更深层次的优化。
  • 相比需要手动配置复杂环境的框架,SIA 提供了标准化的 Profile 配置和自动化的 MLE-Bench 数据集准备工具。

适合谁用 / 上手

适合人群:

  • 希望自动化优化 AI Agent 性能的研究人员和工程师。
  • 需要针对特定领域(如法律、生物信息学)微调模型逻辑和权重的团队。
  • 对 GPU 内核优化或复杂 ML 流水线自动化感兴趣的开发者。

快速上手指南:

  1. 安装环境

    python3 -m venv .venv && source .venv/bin/activate
    
  2. 选择 Agent 实现并安装

    • 若使用 Claude 模型:
      pip install 'sia-agent[claude]'
      export ANTHROPIC_API_KEY="..."
      
    • 若使用多提供商(OpenAI, Gemini 等):
      pip install 'sia-agent[openhands]'
      # 导出相应的 API Key,如 OPENAI_API_KEY, GEMINI_API_KEY 等
      
  3. 运行示例: 以 gpqa 任务为例,运行 5 代自我改进循环:

    sia run --task gpqa --max_gen 5 --run_id 1
    
  4. 查看结果

    • 代码和日志保存在 runs/run_{run_id}/gen_{n}/ 目录下。
    • 启动 Web 仪表盘实时查看:
      sia web
      
      访问 http://127.0.0.1:8000 即可看到详细的性能图表和代码变更。
  5. 自定义任务: 可以通过准备特定的任务目录结构(包含 data/public/data/private/)或使用 sia.prepare_mlebench_dataset 命令从 MLE-Bench 竞赛中自动拉取数据来扩展 SIA 的能力。

查看原文 →github.com