← 返回信息流
AI 资讯Hacker News·2 小时前

Databricks发布LTAP:统一OLAP与OLTP数据架构

原标题:Databricks Launches LTAP: A Unified OLAP/OLTP Data Architecture

速览

Databricks正式推出LTAP(Lakehouse Transactional Analytics Platform),这是一种旨在统一OLAP(在线分析处理)和OLTP(在线事务处理)的数据架构。该架构通过在一个平台上同时支持高并发事务和复杂分析查询,解决了传统数据架构中数据孤岛和复杂性难题。LTAP的发布标志着数据湖仓一体理念在操作型和分析型工作负载整合上的重大进展。

AI 深度解读

Databricks 发布 LTAP:统一 OLAP/OLTP 的数据架构革命

背景

在过去四十年的数据基础设施发展中,事务处理(OLTP)和分析处理(OLAP)长期处于割裂状态。传统的架构中,操作型数据库服务于应用程序,而分析型系统用于回答业务问题。为了连接这两个世界,企业不得不构建复杂且脆弱的 CDC(变更数据捕获)管道,这种架构在人类编写软件的时代尚能维持,但在 AI 时代已显得捉襟见肘。

随着 AI 代理(Agents)的兴起,开发者利用 AI 编写的应用程序数量激增(约为过去的 50 倍),这些代理需要在近实时(near real-time)的范围内读取、推理并对数据采取行动。然而,旧有的数据基础设施无法支持这种高频、低延迟的操作需求。尽管业界曾尝试通过 HTAP(混合事务/分析处理)引擎或 Zero ETL 方案来解决数据孤岛问题,但前者往往牺牲了工作负载隔离和性能,后者则只是掩盖了管道而非消除它,根本性的架构缺陷依然存在。

在此背景下,Databricks 于 2026 年 6 月 16 日的 DATA + AI SUMMIT 上推出了 LTAP(Lake Transactional/Analytical Processing,湖事务/分析处理),旨在通过单一的数据副本统一事务、分析、流处理和操作数据,彻底消除 ETL、副本和管道的负担。

核心内容

LTAP 是 Databricks 推出的一种全新数据处理架构,其核心在于将 OLAP 和 OLTP 统一在湖存储中的单一数据副本上。这一架构由两个主要部分组成:LakebaseLakehouse,并在统一的治理模型、单一事实来源和存储层下运行。

1. 架构原理:从“引擎统一”到“存储统一”

LTAP 采取了一种根本不同的方法:它不是强行将两种工作负载塞入同一个引擎,也不是隐藏数据管道,而是在存储层实现统一。

  • Lakebase:作为 LTAP 的基础,Lakebase 是在开放对象存储上运行的无服务器 Postgres 数据库。它实现了计算与存储的分离,使得事务性数据可以直接在湖中查询和分析,无需任何管道。
  • Lakehouse:提供强大的分析能力。
  • 统一性:Lakebase 和 Lakehouse 共享相同的存储层(开放对象存储)和格式(Delta 和 Iceberg)。Lakebase 将数据直接存储在 Unity Catalog 中,消除了以往各自维护数据副本和格式的差异。

2. Lakebase 的新增企业级能力

为了支持大规模的企业 AI 应用,Databricks 对 Lakebase 进行了重大升级:

  • 灾难恢复:新增跨云、跨区域的灾难恢复能力,构建更具弹性的数据架构,以应对代理执行关键任务操作的需求。
  • Git 式分支与快照:允许在针对生产数据进行安全实验时进行分支和快照,支持非破坏性的测试环境。
  • 自主数据库操作:代理可以监控数据库健康状况、检测性能瓶颈、建议索引创建,并协助进行故障恢复。

3. LTAP 的三大核心属性

LTAP 通过以下三个特性消除了传统企业数据基础设施的权衡妥协:

  • 统一的治理,单一的事实来源:所有操作、分析和流数据都以开放格式(Delta 和 Iceberg)存储在开放对象存储中,无需转换或降级。所有引擎通过 Unity Catalog 使用单一的身份、权限和审计模型读取同一份数据,确保代理在一个受控的表面上行动。
  • 无性能妥协:事务性工作负载在标准 Postgres 中运行,具备完整的 ACID 语义;分析性工作负载在 Lakehouse 上以任意规模和并发运行。两者独立扩展,由于没有数据移动,操作和分析结果始终同步,无需副本或影子基础设施。
  • 无 ETL 管道:架构中不存在同步操作和分析存储的管道、无需维护副本或连接器。这彻底消除了 ETL 层,降低了保持系统同步的运营成本,并确保数据始终保持最新。

关键要点

  • 消除 ETL 与副本:LTAP 通过设计消除了 ETL、数据副本和管道,解决了数十年来数据基础设施的核心痛点。
  • Lakebase 的规模化验证:作为 LTAP 的基础,Lakebase 已在去年推出,目前服务于 Block、Ensemble、Superhuman 和 Zillow 等数千名客户,每天处理高达 1200 万次数据库启动。
  • AI 代理时代的基石:LTAP 专为 AI 应用时代设计,支持代理在近实时范围内读取、推理和行动,解决了传统架构无法应对 AI 代理高频数据访问的问题。
  • 开放标准兼容:LTAP 基于开放标准构建,兼容任何支持 Postgres 的应用程序以及理解 Iceberg 和 Delta 等开放表格式的读取器。
  • 独立扩展与严格隔离:事务和分析工作负载可以独立扩展,同时保持严格的性能隔离,避免了 HTAP 方案中常见的性能互相干扰问题。
  • 统一治理模型:通过 Unity Catalog 实现单一的身份、权限和审计模型,确保所有数据引擎读取的是同一份受控数据。
  • 成本与效率优化:通过消除管道同步和副本维护,显著降低了运营成本和复杂性,同时提高了数据的一致性和实时性。

意义与影响

LTAP 的发布标志着数据架构从“连接系统”向“统一平台”的根本性转变。对于企业而言,其影响主要体现在以下几个方面:

  1. 释放 AI 代理的潜力:随着 AI 代理成为软件开发和运营的主力,它们需要比人类团队快得多的数据访问速度。LTAP 提供的近实时数据访问和自主数据库操作能力,使代理能够直接在生产数据上进行安全实验和实时决策,从而真正发挥 AI 的效能。
  2. 简化数据栈,降低复杂性:传统数据栈中复杂的 ETL 管道和异构系统维护成本高昂且容易出错。LTAP 通过消除这些中间层,大幅降低了数据基础设施的“税”,使团队能够专注于数据价值而非数据搬运。
  3. 提升数据一致性与可靠性:通过单一事实来源和统一的治理模型,企业消除了数据不一致的风险。对于医疗、金融等对数据准确性要求极高的行业(如案例中的 Ensemble 公司),这意味着更快的收入周期处理和更准确的临床决策支持。
  4. 推动开放标准生态:LTAP 基于 Delta 和 Iceberg 等开放格式,避免了供应商锁定,增强了数据架构的灵活性和互操作性,有利于构建更开放、更可持续的数据生态系统。

Databricks 首席执行官 Ali Ghodsi 指出,基础设施曾是团队被迫支付的“税”,而现在它已成为瓶颈。LTAP 的推出旨在移除这一瓶颈,为 AI 代理时代提供一个统一、高效且受治理的数据基础。

查看原文 →databricks.com