技术博客Hugging Face Blog·2 小时前
如何针对特定语言、领域或口音微调 Nemotron 3.5 语音识别模型
How to Fine-Tune Nemotron 3.5 ASR for Your Language, Domain, or Accent

详解如何针对特定语言、领域或口音微调 Nemotron 3.5 ASR 模型。

huggingface.co
技术博客Hugging Face Blog·3 小时前
EVA-Bench Data 2.0发布:覆盖3大领域121种工具213个场景
EVA-Bench Data 2.0: 3 Domains, 121 Tools, 213 Scenarios

EVA-Bench Data 2.0数据集发布,涵盖3大领域、121种工具及213个场景。

huggingface.co
技术博客OpenAI Blog·3 小时前
Endava利用AI Agent重塑软件交付流程
How Endava is redesigning software delivery around AI agents

Endava借助AI Agent、ChatGPT Enterprise和Codex加速软件交付并构建AI原生文化。

openai.com
技术博客Hugging Face Blog·4 小时前
利用任务种子合成问答数据助力Nemotron预训练
Task-Seeded Synthetic Q&A Generation for Nemotron Pretraining

Nemotron预训练采用任务种子合成问答生成技术提升模型性能。

huggingface.co
技术博客arXiv cs.AI·11 小时前
Meta-Agent Challenge:当前AI能否自主开发智能体系统
The Meta-Agent Challenge: Are Current Agents Capable of Autonomous Agent Development?

提出MAC基准测试,评估前沿模型自主开发智能体的能力,发现其表现远逊于人工设计。

arxiv.org
技术博客arXiv cs.AI·11 小时前
BiNSGPS:双向神经符号交互突破几何难题求解瓶颈
BiNSGPS: Geometry Problem Solving via Bidirectional Neuro-Symbolic Interaction

提出BiNSGPS框架,通过MLLM与符号求解器的双向交互解决几何问题求解中的幻觉与僵化问题。

arxiv.org
技术博客arXiv cs.CL·11 小时前
SePO:通过自我进化优化提示词的智能代理
SePO: Self-Evolving Prompt Agent for System Prompt Optimization

SePO通过自我进化搜索优化提示词,在五大基准测试中显著超越现有方法。

arxiv.org
技术博客arXiv cs.AI·11 小时前
StepPRM-RTL:基于步骤过程奖励的大模型RTL代码生成微调框架
StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis

StepPRM-RTL结合过程奖励与检索增强微调,显著提升大模型生成RTL代码的正确性与推理能力。

arxiv.org
技术博客arXiv cs.CL·11 小时前
SCORE框架:通过联合生成与评估实现深度研究自进化
Self-Evolving Deep Research via Joint Generation and Evaluation

提出SCORE框架,通过共享参数联合优化评估器与求解器,解决深度研究缺乏真值及奖励设计难题。

arxiv.org
技术博客arXiv cs.AI·11 小时前
Trivium:将时间后悔作为因果记忆控制器的首要目标
Trivium: Temporal Regret as a First-Class Objective for Causal-Memory Controllers

提出时间后悔与认知后悔,解决AI系统重复犯错问题,实现因果模型自我修正。

arxiv.org
技术博客arXiv cs.AI·11 小时前
Neetyabhas:基于理性智能体的不确定性感知公共政策优化框架
Neetyabhas: A Framework for Uncertainty-Aware Public Policy Optimization in Rational Agent-Based Models

提出Neetyabhas框架,结合个体行为与不确定性,优化公共卫生政策。

arxiv.org
技术博客arXiv cs.CL·11 小时前
SaliMory:为对话代理构建认知记忆框架
SaliMory: Orchestrating Cognitive Memory for Conversational Agents

SaliMory通过分层奖励训练单一模型管理记忆,显著提升对话代理个性化与准确性。

arxiv.org
技术博客arXiv cs.CL·11 小时前
微调任务特定Transformer在Reddit虚假信息分类中超越零样本大模型
Long Live Fine-Tuning: Task-Specific Transformers Outperform Zero-Shot LLMs for Misinformation Response Classification on Reddit

研究显示,针对Reddit虚假信息分类,微调模型性能显著优于零样本大模型,且成本更低。

arxiv.org
技术博客arXiv cs.CL·11 小时前
利用大模型分析社交媒体数据评估建筑工人安全态度
Listening to the Workforce: Measuring Construction Worker Safety Attitudes from Social Media Discourse Using LLMs

研究构建CSAF框架,利用大模型分析Reddit帖子,精准量化建筑工人安全态度。

arxiv.org
技术博客arXiv cs.AI·11 小时前
Parthenon Law:一种自我进化的法律智能体框架
Parthenon Law: A Self-Evolving Legal-Agent Framework

Parthenon Law通过自我进化机制显著提升法律智能体在复杂案件中的表现。

arxiv.org
技术博客arXiv cs.AI·11 小时前
基于亲和强化学习在《Fog of Love》中塑造AI美德行为
Fog of Love: Engineering Virtuous Agent Behavior with Affinity-based Reinforcement Learning in a Game Environment

研究将亲和强化学习应用于《Fog of Love》游戏,提升AI在多智能体环境中的竞争与合作表现。

arxiv.org
技术博客arXiv cs.AI·11 小时前
SMAC-Talk:面向大模型的多智能体自然语言协作基准
SMAC-Talk: A Natural Language Extension of the StarCraft Multi-Agent Challenge for Large Language Models

发布SMAC-Talk基准,评估大模型在多智能体协作中的自然语言沟通与信任机制。

arxiv.org
技术博客arXiv cs.AI·11 小时前
BiasGRPO:利用组相对策略优化稳定大模型偏见缓解
BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization

提出BiasGRPO框架,通过组相对基线稳定高方差奖励景观下的LLM偏见缓解。

arxiv.org
技术博客arXiv cs.AI·11 小时前
PEEL框架:构建可解释、负责任的AI研究新范式
Thinking Through Signs: PEEL as a Semiotic Scaffolding for Epistemically Accountable AI-Enabled Research

提出PEEL框架,结合Voyant与Claude揭示AI研究中的系统性扭曲。

arxiv.org
技术博客arXiv cs.CL·11 小时前
跨领域大模型AI生成文本检测的语言特征系统性分析
A Systematic Analysis of Linguistic Features in AI-Generated Text Detection Across Domains and Models

研究评估284项语言特征在跨模型和跨领域检测AI生成文本的鲁棒性。

arxiv.org