GitHub 热榜GitHub Trending · 日·1 小时前

SIA：自主提升AI系统性能的自改进框架

原标题：hexo-ai/sia

Python★ 1,066 stars+177 今日

速览

SIA是一个自改进AI框架，能够自主提升任何AI系统（包括模型或智能体）在特定基准任务上的表现。它通过自动化迭代优化机制，无需人工干预即可持续改进系统性能，适用于需要高效基准测试与性能调优的AI开发场景。

AI 深度解读

这是什么

SIA (Self Improving AI) 是一个基于 Python 的开源框架，旨在实现 AI 系统的自主性能提升。它是论文《Self Improving AI with Harness & Weight Updates》（Hebbar et al., 2026）的官方实现。

SIA 的核心机制是一个自我改进循环（Self-Improving Loop），通过协调三种不同类型的 AI Agent，让一个语言模型 Agent 不仅更新任务特定 Agent 的权重（Weights），还更新其代码逻辑（Harness）。该项目在 GitHub 上已获得 1066+ Star，主语言为 Python。

解决的问题

传统 AI 应用往往面临以下瓶颈：

静态模型局限：预训练模型在面对特定领域任务（如法律推理、科学计算）时，性能往往难以突破基线。
人工迭代成本高：优化 Agent 的代码逻辑（Harness）和模型参数通常需要大量的人工调试和专家知识。
复杂任务自动化难：在需要编写、运行并迭代完整 ML 流水线（如 MLE-Bench 竞赛）或优化底层 GPU 内核时，缺乏自动化的闭环反馈机制。

SIA 通过引入“元-Agent”、“目标-Agent”和“反馈-Agent”的协同工作流，解决了上述问题，实现了从任务描述到最终高性能解决方案的全自动化迭代。

核心功能

SIA 的运行依赖于三个核心 Agent 的协作：

Meta-Agent（元智能体）：
- 读取任务描述，生成初始的 Target Agent。
- 负责整体流程的编排。
Target / Task Specific Agent（目标/任务特定智能体）：
- 尝试完成具体任务。
- 记录其动作、代码执行结果及性能指标。
Feedback/Improvement Agent（反馈/改进智能体）：
- 审查 Target Agent 的性能日志。
- 识别改进点，并生成对 Target Agent 代码或权重的更新补丁。

关键特性：

双重更新机制：不仅优化模型权重（Weight Updates），还优化代码逻辑（Harness Updates）。
多 Provider 支持：支持 OpenAI、Anthropic (Claude)、Google (Gemini) 等多种 LLM 提供商。
内置任务集：预置了 gpqa、lawbench、longcot-chess、spaceship-titanic 四个任务。
可视化仪表盘：内置 Web 界面，实时展示每一代（Generation）的代码变更、评估分数、准确率趋势及执行轨迹。

亮点 / 与同类相比

SIA 在多个基准测试中展现了显著的性能优势，远超基线模型：

LawBench（法律基准）：
- 在预测中国法院案件描述中的刑事罪名（191个类别）任务中，SIA-W+H 达到了 70.1% 的 Top-1 准确率，击败了此前 45% 的 SOTA。
GPU 内核优化：
- 在 AlphaFold-3 的 Triangle Multiplicative Update 内核优化任务中，实现了 14x 的加速比，同时保持正确性并满足 H100 延迟目标。
科学计算：
- 在单细胞 RNA 测序去噪任务中，MSEnorm 分数达到 0.289，优于此前 SOTA 的 0.220。
MLE-Bench Hard：
- 在包含真实 Kaggle 机器学习竞赛的 MLE-Bench Hard 基准中，SIA 在所有测试代次中均排名 No.1。

对比优势：

相比仅依赖 Prompt Engineering 的工具，SIA 通过代码级（Harness）和权重级（Weight）的双重迭代，实现了更深层次的优化。
相比需要手动配置复杂环境的框架，SIA 提供了标准化的 Profile 配置和自动化的 MLE-Bench 数据集准备工具。

适合谁用 / 上手

适合人群：

希望自动化优化 AI Agent 性能的研究人员和工程师。
需要针对特定领域（如法律、生物信息学）微调模型逻辑和权重的团队。
对 GPU 内核优化或复杂 ML 流水线自动化感兴趣的开发者。

快速上手指南：

安装环境：

python3 -m venv .venv && source .venv/bin/activate

选择 Agent 实现并安装：

若使用 Claude 模型：

pip install 'sia-agent[claude]'
export ANTHROPIC_API_KEY="..."

若使用多提供商（OpenAI, Gemini 等）：

pip install 'sia-agent[openhands]'
# 导出相应的 API Key，如 OPENAI_API_KEY, GEMINI_API_KEY 等

运行示例：以 gpqa 任务为例，运行 5 代自我改进循环：
```
sia run --task gpqa --max_gen 5 --run_id 1
```
查看结果：
- 代码和日志保存在 runs/run_{run_id}/gen_{n}/ 目录下。
- 启动 Web 仪表盘实时查看：
```
sia web
```
  访问 http://127.0.0.1:8000 即可看到详细的性能图表和代码变更。
自定义任务：可以通过准备特定的任务目录结构（包含 data/public/ 和 data/private/）或使用 sia.prepare_mlebench_dataset 命令从 MLE-Bench 竞赛中自动拉取数据来扩展 SIA 的能力。

查看原文 →github.com