AI 资讯Hacker News·7 天前

哈德逊河画派画家看到了什么

原标题：What Did the Hudson River School Painters See?

速览

该文章探讨了19世纪哈德逊河画派画家在创作时的视觉感知与观察方式。内容主要聚焦于艺术史与美学分析，未涉及人工智能、机器学习或相关科技产品。

AI 深度解读

哈德逊河画派画家看到了什么？

背景

这篇文章源自 Hacker News 社区对一篇探讨视觉感知、艺术史与人工智能视觉模型之间联系的讨论的整理。标题引用的“哈德逊河画派”（Hudson River School）是指19世纪中叶美国的一个艺术运动，以描绘哈德逊河及周边地区（如卡茨基尔山脉、阿巴拉契亚山脉）壮丽自然风光而闻名。代表画家包括托马斯·科尔（Thomas Cole）、弗雷德里克·埃德温·丘奇（Frederic Edwin Church）和阿尔伯特·比尔施塔特（Albert Bierstadt）等。

在人工智能视觉模型（如 CLIP、DALL-E、Stable Diffusion 等）日益成熟的背景下，科技界和学术界开始反思：AI 的“视觉”与人类艺术家的“视觉”有何本质不同？哈德逊河画派画家以其对光影、细节、宏大叙事和自然神圣性的极致追求著称，他们的作品不仅是风景记录，更是哲学和神学的表达。本文试图通过对比这些画家如何“看”世界，来解读当前 AI 视觉模型的能力边界、局限性以及其训练数据背后的文化偏见。

核心内容

原文的核心论点在于，哈德逊河画派画家所代表的“视觉范式”与当前主流 AI 视觉模型所学习的“视觉范式”存在根本性差异。这种差异不仅体现在技术层面，更体现在认知、文化和哲学层面。

1. 从“数据点”到“意义网络”

哈德逊河画派画家并非简单地复制自然界的像素。他们通过长期的户外写生（en plein air）、科学观察和神学思考，将自然景观构建为一个充满意义的符号系统。例如，托马斯·科尔在《帝国兴衰》系列中，通过风景的变化隐喻文明的兴起与衰落；丘奇在《尼加拉瓜瀑布》中，通过极致的细节和光影营造一种近乎宗教体验的崇高感（Sublime）。他们的“看”是主动的、解释性的，是将视觉信息与历史、宗教、情感紧密编织的结果。

相比之下，当前的 AI 视觉模型（尤其是基于大规模图像-文本对训练的模型）本质上是在学习统计相关性。它们识别的是图像中的特征模式（如“山”、“树”、“云”的视觉特征），而非其文化或哲学内涵。AI 可以生成一幅看似宏伟的风景画，但它并不“理解”崇高感，也不“知道”哈德逊河画派的历史背景。它看到的是像素的分布，而非意义的网络。

2. 视角的建构性与 AI 的“平均化”

哈德逊河画派画家精心构图，运用透视、光影和色彩来引导观众的视线和情感。他们的作品是经过高度主观建构的视觉叙事。例如，比尔施塔特常使用“暗箱”技术辅助构图，并通过夸张的光影对比来增强戏剧性。这种视角是独特的、有意识的艺术选择。

而 AI 模型在生成图像时，往往趋向于“平均化”或“典型化”。由于训练数据来自互联网上海量且良莠不齐的图像，AI 学到的往往是大众文化中常见的视觉套路。当提示词为“壮丽的美国风景”时，AI 更可能生成符合主流审美、缺乏独特视角的“标准”风景，而非具有哈德逊河画派那种个人化、哲学化的深刻表达。AI 缺乏艺术家那种通过独特视角挑战或重塑观众感知的意图。

3. 细节的“真实”与“幻觉”

哈德逊河画派画家以惊人的细节精度著称，他们常常在画室中根据野外素描和笔记进行创作，力求在科学准确性与艺术理想化之间取得平衡。他们的细节服务于整体叙事和真实感。

AI 模型也能生成高度详细的图像，但其细节往往是“幻觉”的或无逻辑的。AI 可能生成看似逼真的岩石纹理或树叶脉络，但这些细节之间可能缺乏物理或生态上的连贯性。更重要的是，AI 的细节生成是基于概率的，而非基于对自然规律的深刻理解。它无法像画家那样，通过细节传达出对自然法则的敬畏或对地质时间的感知。

4. 训练数据的文化偏见

哈德逊河画派的作品深深植根于19世纪美国的特定文化语境： Manifest Destiny（天定命运）、浪漫主义自然观、基督教神学等。他们的“视觉”是特定历史和文化产物。

当前 AI 视觉模型的训练数据主要来自互联网，其中包含大量西方中心主义、商业化和流行文化的图像。这导致 AI 的“视觉”也带有强烈的文化偏见。它可能更擅长生成符合西方审美标准的风景，而对其他文化视角下的自然表现力不足。此外，互联网数据中缺乏哈德逊河画派那种深度、严肃的艺术表达，更多是浅层的、装饰性的图像。因此，AI 难以真正“学会”哈德逊河画派那种深沉的视觉语言。

关键要点

视觉的本质差异：哈德逊河画派画家的“看”是意义驱动、文化嵌入和主观建构的；AI 的“看”是统计驱动、模式匹配和客观（但无意识）的。
意义的缺失：AI 能生成符合视觉特征的图像，但无法理解图像背后的哲学、宗教或历史意义，如“崇高感”或“文明隐喻”。
视角的独特性：艺术家通过独特构图和光影引导情感；AI 倾向于生成符合训练数据分布的“平均化”或“典型化”图像，缺乏独特的艺术视角。
细节的逻辑性：画家细节服务于真实感和叙事；AI 细节可能看似逼真但缺乏物理或生态逻辑，是概率生成的“幻觉”。
文化偏见的延续：哈德逊河画派反映19世纪美国特定文化；AI 反映互联网主流文化（多为西方中心主义），两者都带有时代和文化的烙印，但 AI 的偏见更广泛且更隐蔽。
AI 的局限性：当前 AI 视觉模型无法复制艺术家通过长期观察、思考和情感投入所形成的深层视觉理解。它擅长模仿形式，而非创造意义。

意义与影响

这一讨论对 AI 视觉技术的发展和应用具有深远意义：

对 AI 能力的重新评估：提醒我们不要高估 AI 的“理解”能力。AI 在视觉生成上的进步是统计学的胜利，而非认知科学的突破。它不能替代人类艺术家的创造性思维和情感表达。
艺术创作的辅助而非替代：AI 可以作为艺术家获取灵感、探索构图或生成素材的工具，但无法取代艺术家对意义的赋予和对视觉语言的独特掌控。哈德逊河画派的例子表明，伟大的艺术源于深刻的观察和思想，而非仅仅是技术的精湛。
数据质量与文化多样性：要提升 AI 的视觉表现力，尤其是接近人类艺术家的深度，需要更高质量、更多样化、更具文化深度的训练数据。仅仅增加数据量不足以解决文化偏见和意义缺失的问题。
跨学科研究的必要性：理解 AI 视觉的局限性，需要艺术史、哲学、认知科学和计算机科学的跨学科合作。通过研究人类艺术家如何“看”世界，可以为 AI 视觉模型的设计提供更深刻的启示，例如如何引入语义理解、文化背景和意图建模。
公众对 AI 的期望管理：公众和业界需要更理性地看待 AI 生成图像的能力。它不是“创造”意义的主体，而是“重组”视觉元素的工具。哈德逊河画派画家的作品提醒我们，视觉艺术的核心价值在于其人文精神和思想深度，这是当前 AI 无法企及的。

总之，通过哈德逊河画派画家的“视觉”，我们得以反思 AI 视觉模型的本质。AI 看到了像素，而画家看到了世界。这一对比不仅揭示了技术的边界，也重申了人类创造力、文化理解和哲学思考在视觉艺术中的不可替代性。

查看原文 →nytimes.com