AI 资讯量子位·13 小时前

OceanBase湖库一体，重新定义AI数据库

AI 深度解读

背景

随着AI技术的快速发展，数据库的使用者正从传统的人类应用扩展到大量自主运行的AI Agent。这些Agent不仅读取数据，还调用工具、生成代码、执行任务并修改状态，导致数据库面临前所未有的挑战。数据形态从结构化扩展到涵盖结构化、半结构化和非结构化的多模态数据；工作负载也从单纯的事务处理（OLTP）和分析（OLAP）扩展到搜索、上下文工程与AI应用。传统数据库架构围绕人类应用和确定性交易设计，难以满足Agent时代高并发、实时性和多模态数据管理的需求。因此，数据库技术必须演进，以支持AI进入生产系统后的数据基础设施问题。

核心内容

OceanBase提出的湖库一体（OceanBase Lakebase）AI数据库，旨在通过一体化设计重新定义数据库架构。其核心思想是将数据湖的开放性与数据库的事务能力融合，解决多模态数据管理、实时性、Agent支持等问题。

湖库一体的定义与设计原则

湖库一体不是简单地在数据库外接数据湖，而是合并三条边界：

数据形态统一：结构化、半结构化、非结构化数据、向量、图、全文索引等在同一套表语义下管理，避免分散在不同系统。
计算路径统一：SQL查询、实时分析、混合搜索、Spark ETL、Ray上的AI计算等围绕同一份数据工作，消除数据导出、转换和中间落盘。
治理边界统一：元数据、权限、行级控制、审计、版本和生命周期对所有数据类型一致生效，确保企业级生产系统的安全性。

OceanBase Lakebase的架构基于存算分离设计：数据存储在对象存储上，计算层独立运行，以应对Agent工作负载的突发性（如流量瞬间激增）。多模表作为核心数据结构，统一结构化与非结构化数据，并支持灵活的LOB存储（行内存储、切片存储或引用外部文件）。AI列则实现实时计算，数据写入后自动触发Embedding或打标等模型计算，并保证事务一致性。

混合搜索与开放计算

AI数据库的查询模式从关系查找进化为混合搜索，结合关系过滤、全文搜索、向量搜索、图搜索和AI计算。OceanBase通过先缩小数据范围（如关系过滤）再执行混合搜索，降低推理成本并提高准确性。性能评测显示，在768维和1536维场景下，OceanBase的向量搜索性能领先Milvus、Elasticsearch和pgvector；在MS MARCO数据集上，混合搜索性能比Elasticsearch提升30%以上。

开放计算支持多种引擎：SQL引擎处理OLTP、OLAP和AI搜索；Spark处理PB级ETL；Daft on Ray处理AI推理。统一Catalog管理元数据和权限，确保数据共享和一致性，避免多系统缝合带来的延迟和运维复杂度。

为Agent设计的特性

版本控制与弹性规模：通过Fork Database秒级创建数据库副本（基于Copy-on-Write），支持Agent隔离、试错和回滚。配合DIFF和MERGE，实现SQL级数据版本控制。逻辑表设计解决Schema爆炸问题：每个Agent看到独立逻辑表，但底层共享物理表，支持海量Agent并行运行。
上下文层：分为数据上下文和应用上下文。数据上下文通过OceanBase OSI统一指标、口径、原始数据和上下文图谱，让AI理解企业；应用上下文围绕Memory和RAG，通过PowerMem和seekdb M0产品支持记忆自进化。实验显示，seekdb M0在AppWorld任务中通过率更高（39% vs. 22%），步骤更少（6.2 vs. 10.4），Token消耗降低32%。

整体架构与优势

OceanBase AI数据库架构分为三层：

底层湖库引擎：多模表运行于对象存储，支持SQL计算、Spark ETL和AI计算。
中间上下文层：数据上下文和应用上下文提升AI理解能力。
上层应用Agent：面向数据开发工程师和业务分析师。

通过一体化设计，企业可将传统方案中的5-10个系统（如Kafka、Flink、Spark、Elasticsearch等）整合为一个引擎，减少CDC延迟、ETL失败、多套运维等问题，实现数据一致性、实时性和成本优化。

关键要点

湖库一体架构：统一数据形态、计算路径和治理边界，支持多模态数据管理和开放计算。
**

查看原文 →qbitai.com