技术博客arXiv cs.CL·1 天前

印卡结绳结构模式挖掘：无监督聚类证明洲际风格差异

原标题：Structural Pattern Mining in Inka Khipus: Unsupervised Clustering, Provenance Classification, and a Computational Validation of the Santa Valley Match

速览

结绳是印加帝国主要的记录设备，但其记录系统仍未破解。本文提出了一个可复现的机器学习管道，应用于公开的结绳数据库。通过27种结构特征的无监督聚类，模型识别出三个结构差异明显的组，并通过有监督分类达到0.86的F1分数，识别出帝国晚期风格结绳。结果显示，结绳的扭转方向是区分帝国风格的关键特征。此外，聚类还发现19世纪欧洲博物馆收藏的结绳组，表明殖民记录方式已被结构编码。文章还通过计算方法独立验证了圣谷六条结绳的记录形式结构，并提供了代码和数据公开。

AI 深度解读

Structural Pattern Mining in Inka Khipus: Unsupervised Clustering, Provenance Classification, and a Computational Validation of the Santa Valley Match

背景

印加帝国（约1400–1532 CE）是前哥伦比亚时期美洲最大的政体，其行政记录主要依赖于khipus（印第安语“Khipu”意为“结”）。这些由纺纱棉线或骆马纤维制成的绳索装置，通过打结记录数值和可能的信息，西班牙编年史中提及的khipukamayuqs（结记者）负责读取。这些装置作为行政文档，跨越数百万人口，却未形成传统意义上的文字系统。约1000件khipus现存于全球博物馆和私人收藏中。

基础十进制数值约定已被充分理解（Ascher和Ascher 1997；Urton 2003），但khipus是否编码语言、姓名或叙事仍为安第斯研究的主要开放问题。迄今大多数定量工作聚焦于单个标本或跨相关khipus的数值求和匹配（如Urton和Brezine 2005）。而对整个语料库的结构维度——何种构造惯例区分不同地区和时期的khipus——的系统计算关注较少。

Open Khipu Repository (OKR)是最全面的公开khipu数据库，聚合自Ascher、Pereyra、Harvard Khipu Database Project等，包含619个khipus（54,403根绳索、110,677个结）、地理来源和更精细的区域标签（522个khipus，84.3%）。本文作者Maria Contreras（秘鲁UPC）提出可重复的机器学习管道，基于此数据库进行结构模式挖掘。

核心内容

研究者为每个khipus工程化27个结构特征，分为四组：

绳索结构（绳索数量、平均与标准差长度、最大层级、副绳比率）；
扭转方向（S向和Z向绳索计数及比率）；
结（总结数、平均转数、方向计数及简单、长型、八字型等结型的一键计数）；
颜色（唯一颜色数、颜色熵、多元色指示器，熵公式H = -∑ p_i log p_i）。

缺失值用零填充，特征标准化后进行分析。

无监督聚类：使用UMAP将27维特征降至2维（邻居数15，距离0.1，欧氏距离，固定随机种子），再用HDBSCAN聚类（最小簇大小10，样本数5）。此组合无需预先指定簇数，产生3个完全分离的簇（无噪声点，轮廓分数silhouette = 0.769），分离度强。交叉引用元数据：

簇0（17个khipus）：印加晚期帝国风格——小而高度凝聚的群体，在嵌入中孤立。
簇1（442个khipus）：主要中央海岸、秘鲁——多数语料库风格。
簇2（160个khipus）：由欧洲和北美博物馆收藏主导，非地理区域定义。

簇2殖民收集偏差：其主导来源为19世纪欧洲博物馆（如柏林民族学博物馆、宾夕法尼亚大学博物馆），反映殖民时期获取惯例而非单一地理来源。两样本t检验显示簇2与簇1的扭转比率差异显著（p ≈ 3.7 × 10^{-276}）。此偏差源于未记录扭转数据（编码“U”）集中在特定收藏，体现地理（哪些khipus被获取）和方法论（记录一致性）层面的殖民人类学遗产，表明OKR并非中性样本，任何语料库解码努力均需注意此 caveat。

监督来源分类：使用XGBoost（梯度提升树分类器）从结构特征预测地理区域，限制于有标签的135个样本（类别少于10的合并为“其他”，共7类）。五折分层交叉验证，优化加权F1。模型整体加权F1仅0.46（受小样本和类别不平衡影响），但印加晚期帝国风格类别F1 = 0.86（远高于随机，确认帝国khipus遵循高度标准化、可机器学习的构造惯例）。沿海类（如中央海岸 vs 南海岸）常混淆；进一步t检验显示两者仅1个特征显著差异，暗示结构相似而非模型失效。

SHAP可解释性：针对印加晚期帝国预测，主导特征顺序为：绳索扭转方向、平均绳索长度（帝国更短更均匀）、结计数（更高）、长度方差（更低）、颜色熵（更低）。这些描述高度标准化的文物：均匀构造、受限调色板、密集记录——符合中央集权官僚机构的输出。按簇拆分扭转方向显示，帝国khipus中S向扭转主导（85.3%），模型对Z向的依赖反映其稀缺性（负预测器）。

Santa Valley匹配的独立计算验证：Medrano和Urton（2018）将6个圣瓦利khipus（哈佛编号UR087–UR092；OKR编号KH0323–KH0328；利马Temple Radicati博物馆）与1670年殖民贡赋人口普查匹配，声称绳索附着方向（recto/verso）编码 moiety（hanan/hurin）归属。作者仅用公开OKR独立重现此结构主张：直接从OKR cord.ATTACHMENT_TYPE字段读取（“R” recto、“V” verso、“U”未指定），提取这6个khipus的1,078根绳索，汇总得49.0% recto / 51.0% verso（排除249个未指定），与原研究∼47%/53%群组比率高度匹配。更突出的是，5个khipus纯recto或纯verso，仅KH0326混合（40 recto / 69 verso）——精确重现原研究单一混合标本的识别。

此为首个仅用公开数据库、无需物理接触对象的独立计算验证。重点在于重现结构（recto/verso）模式，而非完整的数值匹配（需位置结值解码，超出当前范围，留作未来工作）。

负结果：探索结型序列顺序（作为n-gram）是否带来额外来源信号，编码为TF-IDF特征，未提升分类（ΔF1 ≈ -0.006），暗示序列顺序不编码区域或标签样本过小。

关键要点

使用UMAP + HDBSCAN对27维结构特征聚类，获得3个高分离簇（silhouette = 0.769），印加帝国风格簇高度凝聚。
监督分类中，印加晚期帝国风格F1 = 0.86；SHAP识别绳索扭转方向为帝国khipus主导结构鉴别器。
一个簇由19世纪欧洲博物馆主导，揭示殖民获取和记录实践结构性地编码于语料库（而非地理）。
独立重现圣瓦利6个khipus的recto/verso moiety结构（比例接近、仅1个混合标本），仅依赖公开OKR数据库。
结型n-gram顺序无额外来源信号，负结果表明聚合特征足以区分。
所有代码、数据开源，可重复管道适用于数字人文学科。

意义与影响

本文为khipus研究引入可重复的机器学习管道，将结构模式挖掘从定性描述推进到大规模计算分析，量化帝国khipus的标准化特征，并发现殖民偏倚这一关键元数据问题。这不仅验证并扩展Medrano和Urton（2018）的Santa Valley匹配，还为后续工作提供基准：可直接集成数字化殖民文献或序列模型。

在数字人文学科中，此研究强调开放数据库（如OKR）的价值，并指出任何解码努力必须应对收集和记录偏差。伦理层面，作者使用原生术语khipus，鼓励与秘鲁后裔社区合作，并将计算视为使安第斯知识体系更易懂、负责任访问文化遗产的途径，而非提取价值。

未来方向包括位置值解码以实现全数值匹配、结顺序序列模型，以及扩展文档匹配至更多案例。此工作证明结构模式分析不仅是传统解码的补充，更是生成可测试假设、量化偏倚并推动语料库整体表征的有效工具，对印加行政系统、数字考古学及安第斯研究均具深远意义。所有代码和数据已公开，便于全球研究者构建。

查看原文 →arxiv.org

印卡结绳结构模式挖掘：无监督聚类证明洲际风格差异

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐