AI 资讯Hacker News·5 小时前

Anthropic让Claude化身化学家

原标题：Making Claude a Chemist

速览

Anthropic发布了一款专门针对化学领域优化的Claude模型。该模型旨在解决通用大模型在复杂化学任务中的不足，通过专业训练提升其在化学推理和知识应用上的表现。这标志着AI在垂直科学领域的专业化应用迈出了重要一步。

AI 深度解读

Making Claude a Chemist：Anthropic 发布首个化学领域白皮书，Claude 在 NMR 谱图解析中展现前沿能力

来源：Hacker News / Anthropic Science 日期：2026年6月5日

Anthropic 近日发布了其科学探索系列的首篇白皮书，题为《Making Claude a Chemist》（让 Claude 成为化学家）。该报告详细阐述了 Anthropic 如何与顶尖的合成、计算和分析化学家合作，提升 Claude 在化学领域的表现。文章重点测试了 Claude 模型在处理化学家最常用的分析输入——核磁共振（NMR）谱图时的性能，并与行业标准的软件 ChemDraw 和 MestReNova 进行了对比。

背景

化学是一门高度依赖“表征转换”的学科。化学家在日常工作中需要在多种表达方式之间频繁切换：白板上的手绘结构式、仪器读数、数据库查询字符串，以及专利和出版物中的技术符号。尽管这些表征形式编码了相同的底层化学信息，但每种形式都要求化学家具备不同的“流利度”。

例如，咖啡因的手绘结构式能让化学家迅速识别出它与腺苷（人体困倦信号分子）的结构相似性，从而预测其通过阻断受体来保持清醒的机制。然而，仅凭这一草图，化学家无法将其与结构极度相似的分子区分开来。准确理解分子结构至关重要，因为微小的结构变化可能导致性质的巨大差异：葡萄糖和果糖拥有相同的原子组成，但代谢路径截然不同；分子镜像翻转可能导致镇静剂变成致畸剂（如反应停事件）。

随着 CAS（化学文摘社）等数据库收录的物质数量突破 2.9 亿，且每天新增约 15,000 种新物质，人工在不同表征形式间进行翻译、检索和整合的工作量呈指数级增长，传统方法已难以应对规模化的需求。

尽管机器学习工具在逆合成分析、反应预测和性质估算等领域被寄予厚望，但其在化学领域的实际应用仍面临巨大挑战。主要瓶颈在于数据：训练数据稀缺、空结果（null-results）缺失、格式不一致，且大量数据被锁定在付费期刊或非结构化的补充信息中。这导致尽管 AI 工具存在多年，但学术机构和小型实验室的采纳率依然不均。

然而，当前前沿 AI 模型的多模态能力和显式推理能力正在改变这一局面。Claude 等模型能够直接读取期刊图片或手绘草图中的化学结构，无需依赖预 curated 的分子数据库；能够阅读实验方法部分的细节；并能展示逐步推理过程，供化学家审计。Anthropic 认为，虽然这并未完全解决数据问题，但使得许多过去难以处理的问题变得可行。

核心内容

为了评估 Claude 在化学领域的实际能力，Anthropic 化学家 David Kamber 设计了一项针对 NMR（核磁共振）谱图的基准测试。NMR 是化学家确定小分子结构（如药物、农药、染料等）的核心技术，但手动将谱图中的每个峰与假设结构中的原子进行匹配是一项耗时且繁琐的工作。

测试设计与方法

测试对象：
- AI 模型：Anthropic 的 Claude Opus 4.7、Opus 4.6 和 Sonnet 4.6。
- 基准软件：行业标准的 ChemDraw 和 MestReNova。这两款软件主要进行“正向预测”，即根据绘制的结构模拟 NMR 谱图。
数据集：
- 从 ChemRxiv 预印本中选取了 20 种化合物。
- 这些预印本发布于模型训练截止期之后，以避免选择偏差。
- 化合物涵盖四个结构家族，每个家族 5 种，分别对应不同的 NMR 挑战类别。
任务定义：
- 正向预测：将化合物编码为 SMILES 字符串（一种文本表示法），要求模型预测氢（H）和碳（C）在 1D NMR 谱图上的化学位移（ppm）。
- 溶剂效应：考虑到溶剂（如氯仿、DMSO）会影响峰位，模型被要求根据原论文使用的溶剂进行预测。
- 反向推断（隐含目标）：虽然测试主要关注正向预测，但 Anthropic 指出，从实验谱图反推结构是更难的、目前软件尚未完全替代人工的任务，而 AI 具备处理这一方向的潜力。
评估指标：
- 将预测峰与实验峰配对，测量 ppm 误差。
- 容差窗口：氢原子 ±0.20 ppm，碳原子 ±1.0 ppm。在此窗口内的预测被视为“正确”。
- 重复性：由于 LLM 输出的随机性，每个 Claude 模型对每个化合物查询三次并取平均值；ChemDraw 和 MestReNova 每次输出一致，仅运行一次。
- 峰形与裂分：除了位置，还评估了峰的裂分模式（splitting pattern）和亚峰间距（sub-peak spacing），这些也是化学家解读结构的关键信息。

测试结果

化学位移精度（位置预测）：
- 氢原子（H）：Opus 4.7 表现最佳，平均误差为 ±0.079 ppm，远低于容差窗口的一半，且落入容差窗口内的峰值比例最高。
- 碳原子（C）：Opus 4.7（±1.37 ppm）与 MestReNova（±1.48 ppm）表现相当，两者显著优于其他工具。
- 模型对比：Opus 4.6 表现中规中矩，Sonnet 4.6 最弱。
- 难点案例：在一个 notoriously difficult（ notoriously 难处理）的吡嗪类 NH 质子测试中，Opus 4.7 虽然预测值略低，但保持一致；Opus 4.6 预测分散；Sonnet 4.6 则完全偏离（预测在 10–13 ppm，而实际在 6.8–7.9 ppm）。
峰形与裂分模式（结构细节）：
- 在预测氢原子的 NMR 峰形状和裂分模式方面，Claude 与基准软件差距更大。
- 裂分模式匹配：Opus 4.7 比任何其他工具更频繁地匹配实验报告的裂分模式。
- 亚峰间距：所有三个 Claude 模型在约 80% 的情况下将亚峰间距预测在 0.5 Hz 以内，而 ChemDraw 和 MestReNova 这一比例仅为 26% 至 35%。
一致性：
- Opus 4.7 在三次重复运行中表现出最高的一致性，其误差波动小于它与次优工具之间的差距。

关键要点

Claude 在 NMR 预测中具备竞争力：在化学位移预测上，Claude Opus 4.7 在氢原子预测上优于行业标准软件，在碳原子预测上与 MestReNova 持平。
超越数值的位置预测：在反映分子结构的细节特征（如裂分模式和亚峰间距）上，Claude 模型的表现显著优于传统的基于规则的化学软件（ChemDraw/MestReNova），尤其是在亚峰间距预测上准确率高出数倍。
多模态推理的优势：Claude 能够直接理解化学结构并生成谱图，展示了多模态大模型在科学领域的应用潜力，特别是其能够展示推理过程，便于化学家审计和验证。
解决“数据孤岛”问题的新路径：尽管化学领域仍面临高质量标注数据稀缺的问题，但具备显式推理能力的 AI 模型能够利用非结构化数据（如论文图片、补充信息），使得在数据受限情况下仍可进行有效的科学辅助。
从“辅助翻译”到“辅助发现”：Anthropic 的目标不仅是让 Claude 成为化学家的“翻译器”（在不同表征间转换），更是成为能够补充化学家判断力、协助日常整合工作的智能伙伴。

查看原文 →anthropic.com