AI 技术博客 · 大模型 / 工程实践 / 论文精选

技术博客Hugging Face Blog·2 小时前

如何针对特定语言、领域或口音微调 Nemotron 3.5 语音识别模型

How to Fine-Tune Nemotron 3.5 ASR for Your Language, Domain, or Accent

详解如何针对特定语言、领域或口音微调 Nemotron 3.5 ASR 模型。

huggingface.co

技术博客Hugging Face Blog·3 小时前

EVA-Bench Data 2.0发布：覆盖3大领域121种工具213个场景

EVA-Bench Data 2.0: 3 Domains, 121 Tools, 213 Scenarios

EVA-Bench Data 2.0数据集发布，涵盖3大领域、121种工具及213个场景。

huggingface.co

技术博客OpenAI Blog·3 小时前

Endava利用AI Agent重塑软件交付流程

How Endava is redesigning software delivery around AI agents

Endava借助AI Agent、ChatGPT Enterprise和Codex加速软件交付并构建AI原生文化。

openai.com

技术博客Hugging Face Blog·4 小时前

利用任务种子合成问答数据助力Nemotron预训练

Task-Seeded Synthetic Q&A Generation for Nemotron Pretraining

Nemotron预训练采用任务种子合成问答生成技术提升模型性能。

huggingface.co

技术博客arXiv cs.AI·11 小时前

Meta-Agent Challenge：当前AI能否自主开发智能体系统

The Meta-Agent Challenge: Are Current Agents Capable of Autonomous Agent Development?

提出MAC基准测试，评估前沿模型自主开发智能体的能力，发现其表现远逊于人工设计。

arxiv.org

技术博客arXiv cs.AI·11 小时前

BiNSGPS：双向神经符号交互突破几何难题求解瓶颈

BiNSGPS: Geometry Problem Solving via Bidirectional Neuro-Symbolic Interaction

提出BiNSGPS框架，通过MLLM与符号求解器的双向交互解决几何问题求解中的幻觉与僵化问题。

arxiv.org

技术博客arXiv cs.CL·11 小时前

SePO：通过自我进化优化提示词的智能代理

SePO: Self-Evolving Prompt Agent for System Prompt Optimization

SePO通过自我进化搜索优化提示词，在五大基准测试中显著超越现有方法。

arxiv.org

技术博客arXiv cs.AI·11 小时前

StepPRM-RTL：基于步骤过程奖励的大模型RTL代码生成微调框架

StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis

StepPRM-RTL结合过程奖励与检索增强微调，显著提升大模型生成RTL代码的正确性与推理能力。

arxiv.org

技术博客arXiv cs.CL·11 小时前

SCORE框架：通过联合生成与评估实现深度研究自进化

Self-Evolving Deep Research via Joint Generation and Evaluation

提出SCORE框架，通过共享参数联合优化评估器与求解器，解决深度研究缺乏真值及奖励设计难题。

arxiv.org

技术博客arXiv cs.AI·11 小时前

Trivium：将时间后悔作为因果记忆控制器的首要目标

Trivium: Temporal Regret as a First-Class Objective for Causal-Memory Controllers

提出时间后悔与认知后悔，解决AI系统重复犯错问题，实现因果模型自我修正。

arxiv.org

技术博客arXiv cs.AI·11 小时前

Neetyabhas：基于理性智能体的不确定性感知公共政策优化框架

Neetyabhas: A Framework for Uncertainty-Aware Public Policy Optimization in Rational Agent-Based Models

提出Neetyabhas框架，结合个体行为与不确定性，优化公共卫生政策。

arxiv.org

技术博客arXiv cs.CL·11 小时前

SaliMory：为对话代理构建认知记忆框架

SaliMory: Orchestrating Cognitive Memory for Conversational Agents

SaliMory通过分层奖励训练单一模型管理记忆，显著提升对话代理个性化与准确性。

arxiv.org

技术博客arXiv cs.CL·11 小时前

微调任务特定Transformer在Reddit虚假信息分类中超越零样本大模型

Long Live Fine-Tuning: Task-Specific Transformers Outperform Zero-Shot LLMs for Misinformation Response Classification on Reddit

研究显示，针对Reddit虚假信息分类，微调模型性能显著优于零样本大模型，且成本更低。

arxiv.org

技术博客arXiv cs.CL·11 小时前

利用大模型分析社交媒体数据评估建筑工人安全态度

Listening to the Workforce: Measuring Construction Worker Safety Attitudes from Social Media Discourse Using LLMs

研究构建CSAF框架，利用大模型分析Reddit帖子，精准量化建筑工人安全态度。

arxiv.org

技术博客arXiv cs.AI·11 小时前

Parthenon Law：一种自我进化的法律智能体框架

Parthenon Law: A Self-Evolving Legal-Agent Framework

Parthenon Law通过自我进化机制显著提升法律智能体在复杂案件中的表现。

arxiv.org

技术博客arXiv cs.AI·11 小时前

基于亲和强化学习在《Fog of Love》中塑造AI美德行为

Fog of Love: Engineering Virtuous Agent Behavior with Affinity-based Reinforcement Learning in a Game Environment

研究将亲和强化学习应用于《Fog of Love》游戏，提升AI在多智能体环境中的竞争与合作表现。

arxiv.org

技术博客arXiv cs.AI·11 小时前

SMAC-Talk：面向大模型的多智能体自然语言协作基准

SMAC-Talk: A Natural Language Extension of the StarCraft Multi-Agent Challenge for Large Language Models

发布SMAC-Talk基准，评估大模型在多智能体协作中的自然语言沟通与信任机制。

arxiv.org

技术博客arXiv cs.AI·11 小时前

BiasGRPO：利用组相对策略优化稳定大模型偏见缓解

BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization

提出BiasGRPO框架，通过组相对基线稳定高方差奖励景观下的LLM偏见缓解。

arxiv.org

技术博客arXiv cs.AI·11 小时前

PEEL框架：构建可解释、负责任的AI研究新范式

Thinking Through Signs: PEEL as a Semiotic Scaffolding for Epistemically Accountable AI-Enabled Research

提出PEEL框架，结合Voyant与Claude揭示AI研究中的系统性扭曲。

arxiv.org

技术博客arXiv cs.CL·11 小时前

跨领域大模型AI生成文本检测的语言特征系统性分析

A Systematic Analysis of Linguistic Features in AI-Generated Text Detection Across Domains and Models

研究评估284项语言特征在跨模型和跨领域检测AI生成文本的鲁棒性。

arxiv.org