印卡结绳结构模式挖掘:无监督聚类证明洲际风格差异
速览
结绳是印加帝国主要的记录设备,但其记录系统仍未破解。本文提出了一个可复现的机器学习管道,应用于公开的结绳数据库。通过27种结构特征的无监督聚类,模型识别出三个结构差异明显的组,并通过有监督分类达到0.86的F1分数,识别出帝国晚期风格结绳。结果显示,结绳的扭转方向是区分帝国风格的关键特征。此外,聚类还发现19世纪欧洲博物馆收藏的结绳组,表明殖民记录方式已被结构编码。文章还通过计算方法独立验证了圣谷六条结绳的记录形式结构,并提供了代码和数据公开。
AI 深度解读
Structural Pattern Mining in Inka Khipus: Unsupervised Clustering, Provenance Classification, and a Computational Validation of the Santa Valley Match
背景
印加帝国(约1400–1532 CE)是前哥伦比亚时期美洲最大的政体,其行政记录主要依赖于khipus(印第安语“Khipu”意为“结”)。这些由纺纱棉线或骆马纤维制成的绳索装置,通过打结记录数值和可能的信息,西班牙编年史中提及的khipukamayuqs(结记者)负责读取。这些装置作为行政文档,跨越数百万人口,却未形成传统意义上的文字系统。约1000件khipus现存于全球博物馆和私人收藏中。
基础十进制数值约定已被充分理解(Ascher和Ascher 1997;Urton 2003),但khipus是否编码语言、姓名或叙事仍为安第斯研究的主要开放问题。迄今大多数定量工作聚焦于单个标本或跨相关khipus的数值求和匹配(如Urton和Brezine 2005)。而对整个语料库的结构维度——何种构造惯例区分不同地区和时期的khipus——的系统计算关注较少。
Open Khipu Repository (OKR)是最全面的公开khipu数据库,聚合自Ascher、Pereyra、Harvard Khipu Database Project等,包含619个khipus(54,403根绳索、110,677个结)、地理来源和更精细的区域标签(522个khipus,84.3%)。本文作者Maria Contreras(秘鲁UPC)提出可重复的机器学习管道,基于此数据库进行结构模式挖掘。
核心内容
研究者为每个khipus工程化27个结构特征,分为四组:
- 绳索结构(绳索数量、平均与标准差长度、最大层级、副绳比率);
- 扭转方向(S向和Z向绳索计数及比率);
- 结(总结数、平均转数、方向计数及简单、长型、八字型等结型的一键计数);
- 颜色(唯一颜色数、颜色熵、多元色指示器,熵公式H = -∑ p_i log p_i)。
缺失值用零填充,特征标准化后进行分析。
无监督聚类:使用UMAP将27维特征降至2维(邻居数15,距离0.1,欧氏距离,固定随机种子),再用HDBSCAN聚类(最小簇大小10,样本数5)。此组合无需预先指定簇数,产生3个完全分离的簇(无噪声点,轮廓分数silhouette = 0.769),分离度强。交叉引用元数据:
- 簇0(17个khipus):印加晚期帝国风格——小而高度凝聚的群体,在嵌入中孤立。
- 簇1(442个khipus):主要中央海岸、秘鲁——多数语料库风格。
- 簇2(160个khipus):由欧洲和北美博物馆收藏主导,非地理区域定义。
簇2殖民收集偏差:其主导来源为19世纪欧洲博物馆(如柏林民族学博物馆、宾夕法尼亚大学博物馆),反映殖民时期获取惯例而非单一地理来源。两样本t检验显示簇2与簇1的扭转比率差异显著(p ≈ 3.7 × 10^{-276})。此偏差源于未记录扭转数据(编码“U”)集中在特定收藏,体现地理(哪些khipus被获取)和方法论(记录一致性)层面的殖民人类学遗产,表明OKR并非中性样本,任何语料库解码努力均需注意此 caveat。
监督来源分类:使用XGBoost(梯度提升树分类器)从结构特征预测地理区域,限制于有标签的135个样本(类别少于10的合并为“其他”,共7类)。五折分层交叉验证,优化加权F1。模型整体加权F1仅0.46(受小样本和类别不平衡影响),但印加晚期帝国风格类别F1 = 0.86(远高于随机,确认帝国khipus遵循高度标准化、可机器学习的构造惯例)。沿海类(如中央海岸 vs 南海岸)常混淆;进一步t检验显示两者仅1个特征显著差异,暗示结构相似而非模型失效。
SHAP可解释性:针对印加晚期帝国预测,主导特征顺序为:绳索扭转方向、平均绳索长度(帝国更短更均匀)、结计数(更高)、长度方差(更低)、颜色熵(更低)。这些描述高度标准化的文物:均匀构造、受限调色板、密集记录——符合中央集权官僚机构的输出。按簇拆分扭转方向显示,帝国khipus中S向扭转主导(85.3%),模型对Z向的依赖反映其稀缺性(负预测器)。
Santa Valley匹配的独立计算验证:Medrano和Urton(2018)将6个圣瓦利khipus(哈佛编号UR087–UR092;OKR编号KH0323–KH0328;利马Temple Radicati博物馆)与1670年殖民贡赋人口普查匹配,声称绳索附着方向(recto/verso)编码 moiety(hanan/hurin)归属。作者仅用公开OKR独立重现此结构主张:直接从OKR cord.ATTACHMENT_TYPE字段读取(“R” recto、“V” verso、“U”未指定),提取这6个khipus的1,078根绳索,汇总得49.0% recto / 51.0% verso(排除249个未指定),与原研究∼47%/53%群组比率高度匹配。更突出的是,5个khipus纯recto或纯verso,仅KH0326混合(40 recto / 69 verso)——精确重现原研究单一混合标本的识别。
此为首个仅用公开数据库、无需物理接触对象的独立计算验证。重点在于重现结构(recto/verso)模式,而非完整的数值匹配(需位置结值解码,超出当前范围,留作未来工作)。
负结果:探索结型序列顺序(作为n-gram)是否带来额外来源信号,编码为TF-IDF特征,未提升分类(ΔF1 ≈ -0.006),暗示序列顺序不编码区域或标签样本过小。
关键要点
- 使用UMAP + HDBSCAN对27维结构特征聚类,获得3个高分离簇(silhouette = 0.769),印加帝国风格簇高度凝聚。
- 监督分类中,印加晚期帝国风格F1 = 0.86;SHAP识别绳索扭转方向为帝国khipus主导结构鉴别器。
- 一个簇由19世纪欧洲博物馆主导,揭示殖民获取和记录实践结构性地编码于语料库(而非地理)。
- 独立重现圣瓦利6个khipus的recto/verso moiety结构(比例接近、仅1个混合标本),仅依赖公开OKR数据库。
- 结型n-gram顺序无额外来源信号,负结果表明聚合特征足以区分。
- 所有代码、数据开源,可重复管道适用于数字人文学科。
意义与影响
本文为khipus研究引入可重复的机器学习管道,将结构模式挖掘从定性描述推进到大规模计算分析,量化帝国khipus的标准化特征,并发现殖民偏倚这一关键元数据问题。这不仅验证并扩展Medrano和Urton(2018)的Santa Valley匹配,还为后续工作提供基准:可直接集成数字化殖民文献或序列模型。
在数字人文学科中,此研究强调开放数据库(如OKR)的价值,并指出任何解码努力必须应对收集和记录偏差。伦理层面,作者使用原生术语khipus,鼓励与秘鲁后裔社区合作,并将计算视为使安第斯知识体系更易懂、负责任访问文化遗产的途径,而非提取价值。
未来方向包括位置值解码以实现全数值匹配、结顺序序列模型,以及扩展文档匹配至更多案例。此工作证明结构模式分析不仅是传统解码的补充,更是生成可测试假设、量化偏倚并推动语料库整体表征的有效工具,对印加行政系统、数字考古学及安第斯研究均具深远意义。所有代码和数据已公开,便于全球研究者构建。
