如何针对特定语言、领域或口音微调 Nemotron 3.5 语音识别模型
How to Fine-Tune Nemotron 3.5 ASR for Your Language, Domain, or Accent
详解如何针对特定语言、领域或口音微调 Nemotron 3.5 ASR 模型。
EVA-Bench Data 2.0发布:覆盖3大领域121种工具213个场景
EVA-Bench Data 2.0: 3 Domains, 121 Tools, 213 Scenarios
EVA-Bench Data 2.0数据集发布,涵盖3大领域、121种工具及213个场景。
Endava利用AI Agent重塑软件交付流程
How Endava is redesigning software delivery around AI agents
Endava借助AI Agent、ChatGPT Enterprise和Codex加速软件交付并构建AI原生文化。
利用任务种子合成问答数据助力Nemotron预训练
Task-Seeded Synthetic Q&A Generation for Nemotron Pretraining
Nemotron预训练采用任务种子合成问答生成技术提升模型性能。
Meta-Agent Challenge:当前AI能否自主开发智能体系统
The Meta-Agent Challenge: Are Current Agents Capable of Autonomous Agent Development?
提出MAC基准测试,评估前沿模型自主开发智能体的能力,发现其表现远逊于人工设计。
BiNSGPS:双向神经符号交互突破几何难题求解瓶颈
BiNSGPS: Geometry Problem Solving via Bidirectional Neuro-Symbolic Interaction
提出BiNSGPS框架,通过MLLM与符号求解器的双向交互解决几何问题求解中的幻觉与僵化问题。
SePO:通过自我进化优化提示词的智能代理
SePO: Self-Evolving Prompt Agent for System Prompt Optimization
SePO通过自我进化搜索优化提示词,在五大基准测试中显著超越现有方法。
StepPRM-RTL:基于步骤过程奖励的大模型RTL代码生成微调框架
StepPRM-RTL: Stepwise Process-Reward Guided LLM Fine-Tuning for Enhanced RTL Synthesis
StepPRM-RTL结合过程奖励与检索增强微调,显著提升大模型生成RTL代码的正确性与推理能力。
SCORE框架:通过联合生成与评估实现深度研究自进化
Self-Evolving Deep Research via Joint Generation and Evaluation
提出SCORE框架,通过共享参数联合优化评估器与求解器,解决深度研究缺乏真值及奖励设计难题。
Trivium:将时间后悔作为因果记忆控制器的首要目标
Trivium: Temporal Regret as a First-Class Objective for Causal-Memory Controllers
提出时间后悔与认知后悔,解决AI系统重复犯错问题,实现因果模型自我修正。
Neetyabhas:基于理性智能体的不确定性感知公共政策优化框架
Neetyabhas: A Framework for Uncertainty-Aware Public Policy Optimization in Rational Agent-Based Models
提出Neetyabhas框架,结合个体行为与不确定性,优化公共卫生政策。
SaliMory:为对话代理构建认知记忆框架
SaliMory: Orchestrating Cognitive Memory for Conversational Agents
SaliMory通过分层奖励训练单一模型管理记忆,显著提升对话代理个性化与准确性。
微调任务特定Transformer在Reddit虚假信息分类中超越零样本大模型
Long Live Fine-Tuning: Task-Specific Transformers Outperform Zero-Shot LLMs for Misinformation Response Classification on Reddit
研究显示,针对Reddit虚假信息分类,微调模型性能显著优于零样本大模型,且成本更低。
利用大模型分析社交媒体数据评估建筑工人安全态度
Listening to the Workforce: Measuring Construction Worker Safety Attitudes from Social Media Discourse Using LLMs
研究构建CSAF框架,利用大模型分析Reddit帖子,精准量化建筑工人安全态度。
Parthenon Law:一种自我进化的法律智能体框架
Parthenon Law: A Self-Evolving Legal-Agent Framework
Parthenon Law通过自我进化机制显著提升法律智能体在复杂案件中的表现。
基于亲和强化学习在《Fog of Love》中塑造AI美德行为
Fog of Love: Engineering Virtuous Agent Behavior with Affinity-based Reinforcement Learning in a Game Environment
研究将亲和强化学习应用于《Fog of Love》游戏,提升AI在多智能体环境中的竞争与合作表现。
SMAC-Talk:面向大模型的多智能体自然语言协作基准
SMAC-Talk: A Natural Language Extension of the StarCraft Multi-Agent Challenge for Large Language Models
发布SMAC-Talk基准,评估大模型在多智能体协作中的自然语言沟通与信任机制。
BiasGRPO:利用组相对策略优化稳定大模型偏见缓解
BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization
提出BiasGRPO框架,通过组相对基线稳定高方差奖励景观下的LLM偏见缓解。
PEEL框架:构建可解释、负责任的AI研究新范式
Thinking Through Signs: PEEL as a Semiotic Scaffolding for Epistemically Accountable AI-Enabled Research
提出PEEL框架,结合Voyant与Claude揭示AI研究中的系统性扭曲。
跨领域大模型AI生成文本检测的语言特征系统性分析
A Systematic Analysis of Linguistic Features in AI-Generated Text Detection Across Domains and Models
研究评估284项语言特征在跨模型和跨领域检测AI生成文本的鲁棒性。