← 返回信息流
AI 资讯量子位·13 小时前

OceanBase湖库一体,重新定义AI数据库

AI 深度解读

背景

随着AI技术的快速发展,数据库的使用者正从传统的人类应用扩展到大量自主运行的AI Agent。这些Agent不仅读取数据,还调用工具、生成代码、执行任务并修改状态,导致数据库面临前所未有的挑战。数据形态从结构化扩展到涵盖结构化、半结构化和非结构化的多模态数据;工作负载也从单纯的事务处理(OLTP)和分析(OLAP)扩展到搜索、上下文工程与AI应用。传统数据库架构围绕人类应用和确定性交易设计,难以满足Agent时代高并发、实时性和多模态数据管理的需求。因此,数据库技术必须演进,以支持AI进入生产系统后的数据基础设施问题。

核心内容

OceanBase提出的湖库一体(OceanBase Lakebase)AI数据库,旨在通过一体化设计重新定义数据库架构。其核心思想是将数据湖的开放性与数据库的事务能力融合,解决多模态数据管理、实时性、Agent支持等问题。

湖库一体的定义与设计原则

湖库一体不是简单地在数据库外接数据湖,而是合并三条边界:

  • 数据形态统一:结构化、半结构化、非结构化数据、向量、图、全文索引等在同一套表语义下管理,避免分散在不同系统。
  • 计算路径统一:SQL查询、实时分析、混合搜索、Spark ETL、Ray上的AI计算等围绕同一份数据工作,消除数据导出、转换和中间落盘。
  • 治理边界统一:元数据、权限、行级控制、审计、版本和生命周期对所有数据类型一致生效,确保企业级生产系统的安全性。

OceanBase Lakebase的架构基于存算分离设计:数据存储在对象存储上,计算层独立运行,以应对Agent工作负载的突发性(如流量瞬间激增)。多模表作为核心数据结构,统一结构化与非结构化数据,并支持灵活的LOB存储(行内存储、切片存储或引用外部文件)。AI列则实现实时计算,数据写入后自动触发Embedding或打标等模型计算,并保证事务一致性。

混合搜索与开放计算

AI数据库的查询模式从关系查找进化为混合搜索,结合关系过滤、全文搜索、向量搜索、图搜索和AI计算。OceanBase通过先缩小数据范围(如关系过滤)再执行混合搜索,降低推理成本并提高准确性。性能评测显示,在768维和1536维场景下,OceanBase的向量搜索性能领先Milvus、Elasticsearch和pgvector;在MS MARCO数据集上,混合搜索性能比Elasticsearch提升30%以上。

开放计算支持多种引擎:SQL引擎处理OLTP、OLAP和AI搜索;Spark处理PB级ETL;Daft on Ray处理AI推理。统一Catalog管理元数据和权限,确保数据共享和一致性,避免多系统缝合带来的延迟和运维复杂度。

为Agent设计的特性

  • 版本控制与弹性规模:通过Fork Database秒级创建数据库副本(基于Copy-on-Write),支持Agent隔离、试错和回滚。配合DIFF和MERGE,实现SQL级数据版本控制。逻辑表设计解决Schema爆炸问题:每个Agent看到独立逻辑表,但底层共享物理表,支持海量Agent并行运行。
  • 上下文层:分为数据上下文和应用上下文。数据上下文通过OceanBase OSI统一指标、口径、原始数据和上下文图谱,让AI理解企业;应用上下文围绕Memory和RAG,通过PowerMem和seekdb M0产品支持记忆自进化。实验显示,seekdb M0在AppWorld任务中通过率更高(39% vs. 22%),步骤更少(6.2 vs. 10.4),Token消耗降低32%。

整体架构与优势

OceanBase AI数据库架构分为三层:

  • 底层湖库引擎:多模表运行于对象存储,支持SQL计算、Spark ETL和AI计算。
  • 中间上下文层:数据上下文和应用上下文提升AI理解能力。
  • 上层应用Agent:面向数据开发工程师和业务分析师。

通过一体化设计,企业可将传统方案中的5-10个系统(如Kafka、Flink、Spark、Elasticsearch等)整合为一个引擎,减少CDC延迟、ETL失败、多套运维等问题,实现数据一致性、实时性和成本优化。

关键要点

  • 湖库一体架构:统一数据形态、计算路径和治理边界,支持多模态数据管理和开放计算。
  • **
查看原文 →qbitai.com