2025-06-30
导语:实践结果表明该平台能够显著提升数据处理效率缩短链路降低成本并为 AI 应用提供坚实基础结论指出新一代数智一体化平台是支撑企业数智化转型和 AI 大模型落地的关键基础设施
1 企业级数据管理演进历史
企业级数据管理的发展是一个不断适应日益复杂需求的过程,主要经历了以下阶段。
(1)集中式数据库阶段:企业最初采用集中式数据库处理结构化数据,专注于联机事务处理,但其对复杂分析和大规模数据处理能力不足。
(2)数据集市阶段:为满足特定部门的数据分析需求,数据集市出现,提供了灵活的决策支持能力,但存在数据孤岛问题,难以实现企业级数据统一视图。
(3)数据仓库阶段:为满足企业级分析需求,数据仓库广泛应用于集成多源数据,支持复杂联机分析处理和决策支持系统。但其固定的数据模型与ETL流程适应敏捷业务新需求的速度较慢,且主要处理结构化数据。
(4)数据湖阶段:随着大数据时代到来,数据湖技术应运而生,支持存储结构化、半结构化和非结构化数据,具备灵活的数据处理模式(批处理、流处理、机器学习),并具有显著的可扩展性和成本优势。第一代数据湖以Hadoop生态(如HDFS、Hive)为基础,适用于大规模离线数据处理,但存在数据管理瓶颈、重写粒度粗、查询延迟高等问题。
在数据湖技术尚未成熟的背景下,出现了过渡性架构,即Hadoop与MPP融合的湖仓混合架构,以解决海量数据处理与数据查询分析的高性能需求。
2 湖仓一体架构演进和趋势
2.1处于过渡阶段的湖仓混合架构
基于Hadoop+MPP的湖仓混合架构,如图1所示,需结合数据湖处理海量数据的能力和MPP架构的计算能力,才能提供完整的数据管理和分析能力。
图 1 Hadoop+MPP 湖仓混合架构
然而,由于数据湖和数据仓库的底层数据未能打通,传统数仓数据加工逻辑复杂、整体加工流程冗长、时效性低等问题依然存在。此外,混合架构还带来以下新的挑战。
(1)数据一致性问题:数据分散在多个平台上,造成严重的数据冗余存储。不同平台间的数据格式和类型差异(如小数、字符串、日期格式等)可能导致数据处理错误和计算结果不一致等问题,增加了数据治理的难度。
(2)数据时效性受限:MPP数据库需要跨平台读取数据湖中的数据或等待数据ETL到本地,相较于库内数据流转更耗时,严重影响了数据的时效性。这也是这种架构主要支持T+1业务分析的主要原因。
(3)运维成本高昂:MPP数据库扩展性较差,海量数据的大规模批处理能力有限,难以灵活应对业务需求变化,扩容成本高昂。同时,企业需要同时维护多套平台,导致运维成本倍增。
(4)开源组件风险:基于开源技术组装的湖仓方案对国内用户存在高度风险。这种方案通常需要十多个开源组件相互配合,组件之间的版本需要严格兼容,协同难度极大。此外,任何一个环节的技术中断都可能导致整个平台技术迭代演进的停滞。例如,2024年6月,Databricks公司收购了开源Lakehouse技术Iceberg,使得主要依赖Iceberg的竞争对手后续的研发路线陷入困境,凸显了开源技术依赖带来的潜在风险。并且,大数据相关开源组件多数属于Apache软件基金会项目,在日益多变的地缘政治影响下,面临潜在的供应链风险。
2.2代表下一代数据湖的湖仓一体
随着大数据和人工智能技术的快速发展,数据湖架构正在经历关键性演进,以满足多样化、实时的大数据和AI业务需求。现代数据湖技术在多个领域不断突破,包括向量计算、行列混合存储、实时更新能力、元数据管理、分布式存储、查询优化、多种数据类型支持以及云存储集成等。这些关键性技术进步旨在提升数据湖的灵活性、可扩展性和性能水平,全面满足数据湖和数据仓库的功能要求,同时为多媒体、向量和图数据等AI相关数据提供存储和管理支持。这种新兴的架构被称为湖仓一体,代表了下一代数据湖的发展方向。
湖仓一体融合了数据湖和数据仓库的优点,旨在提供一个统一的平台来管理和分析各类数据。通过统一元数据、统一存储和多模数据实现数据湖底座,同时通过优化各种计算引擎实现数据仓库的功能,有效解决混合架构中的数据搬迁、数据冗余以及数据管理复杂等问题。
湖仓一体的核心价值主张:
(1)全面数据存储:新型湖格式支撑的事务管理和分析性能可达到数仓水准,一份数据存储可满足多种应用场景需求,能够参与数据入湖、批量加工、实时计算、在线查询和交互分析等,数据无需在数据湖和数据仓库之间频繁搬迁。
(2)统一数据管理:通过统一的元数据管理,实现异构数据源的标准统一和系统运管统一。这种统一管理为用户提供了集中的数据视图,支持快速数据发现、访问和分析,显著提高了数据治理的效率和成果。
(3)高速计算引擎:计算引擎能直接高效访问统一的数据湖存储格式。面对多变的业务场景,在不同的场景下均保证优异的计算性能,或者用户根据具体需求选择最合适的计算引擎实现性能和灵活性的最佳平衡。
(4)弹性资源调度:计算引擎能够自动根据负载动态分配资源,避免资源闲置和浪费。不仅能在流量高峰时自动扩容保障服务稳定,同时在需求下降时节省计算成本。
湖仓一体主要包括两种实现路径:
(1)湖上建仓:基于数据存储中间层实现多源异构数据的统一存储,以统一调用接口方式调用计算引擎,最终实现上下结构的湖仓一体架构。代表产品有Databricks。
(2)仓外挂湖:以MPP数据库为基础,使用可插拔架构,通过开放接口对接外部存储实现统一存储。在存储底层共享一份数据,实现计算与存储的完全分离,从强管理过渡到兼容开放存储和多引擎。代表产品有Snowflake。
相较于仓外挂湖,湖上建仓利用数据湖(如DeltaLake、Hudi、Iceberg等)作为底层存储,统一了湖上的结构化数据存储,利用多种计算引擎进行不同场景下的数据处理和分析,具有更好的演进和发展前景。
2.3湖上建仓一体化方案仍有发展空间
Databricks作为全球知名的科技公司,也在2020年推出了湖仓一体。但是,它的湖仓一体架构尚未真正解决湖、仓、集三者在存储、计算与管理层面的统一问题,无法满足复杂业务对统一架构的需求。Databricks在云上业务中,通过UnityCatalog提供集中化数据治理,实现统一的元数据管理,简化数据堆栈;支持跨工作区数据访问控制,增强数据发现能力和审核功能;通过统一的数据平台,实现从数据摄取、存储到处理和分析的全流程管理。此外,Databricks还提供DeltaLake开源技术,为数据湖带来ACID事务、支撑可扩展的元数据处理和统一的批处理和流处理。
在性能方面,Databricks通过优化闭源计算引擎,在即席分析和并发查询方面不断改进。然而,因其整体分布式架构的复杂性,在响应效率要求很高的交互式查询分析场景中,性能与专门的MPP数据仓库相比仍有差距,且受限于纯列存的存储引擎,难以提供对数据的高并发查询能力。此外,Databricks开源产品在性能和功能上与其商业化产品有较大差异。因此,国内企业常采用开源数据湖+MPP数仓+多种数据集市开源组件的混合架构方案,但是这种混合架构方案背离了湖仓一体简化数据架构的初衷。
为了切实地实现数据架构的整合,避免复杂的数据处理链路,提高数据时效性,并保证数据的一致性以及安全性,企业需要考虑构建统一技术栈的一体化数据平台,更好地满足各类业务场景的需求,提高数据价值的实现效率,为数字化转型升级奠定坚实的基础。
3 数智一体化平台架构和价值
3.1数智一体化平台架构
为了满足企业统一数据管理和智能化转型的需求,新的一体化架构设计应运而生,称之为“数智一体化平台架构”(如图2所示)。该架构旨在同时满足传统数据应用场景和AI大模型应用场景。在传统数据应用场景上,解决开源湖仓架构复杂、数据链路长和时效性差的问题,融合数据湖存储的灵活性与数据仓库在结构化数据应用中的优势,提供统一的数据管理分析和实时处理能力;在AI大模型应用场景上,提供统一多模型数据存储和管理能力,满足企业对半结构化、非结构化数据的一体化处理需求。
图 2 数智一体化平台架构
数智一体化平台架构在架构化数据的处理上,精简并整合原有的数据湖—数据仓库—数据集市3层架构,缩短数据处理链路,提升数据处理时效性,使用户可以在同一数据表上可支持流批数据处理、实时数据查询、海量数据分析和各类在线分析业务,不需在不同的平台上搬迁或格式转换。同时,为推动大模型的落地应用,该架构需支持非结构化和半结构化数据处理,具备自动化知识库构建能力,整合多种检索增强生成技术(如VectorRAG、GraphRAG),有效解决大模型知识时效性不足、领域知识缺乏和AI幻觉等问题。
此外,为了降低开发门槛和提升使用效率,数智一体化平台架构应实现计算引擎的统一,并提供丰富接口类型,更细粒度的资源管理,满足不同业务/租户共享数据、分析数据的需求,通过弹性资源调度、数据加密、动态脱敏等技术,保证平台的数据安全性和资源使用效率。
3.2 数智一体化平台价值
3.2.1 提升数据时效,用增量计算改造离线业务
传统湖仓架构中,在线数据通常经由批处理(Spark)或流处理(Flink)写入数据湖(如Hudi、Iceberg)或列存格式(Parquet、ORC)。数据湖不仅存储原始数据,将数据湖中的数据映射到数仓模型,通过SparkSQL等引擎进行建模加工,再利用ClickHouse、Presto等引擎进行数据查询与报表生成。
然而,现代企业对数据时效性要求日益提升,许多企业构建湖仓平台的核心目标就是提高数据时效性,让数据湖中实时采集的如经营明细数据的变化能够实时展现在企业管理指标上。为了解决数据时效性问题,打通从数据湖到数据集市的实时数据链路,一体化架构应采用增量数据处理技术,将传统的批量数据处理升级为实时增量流处理,以实现实时关联与聚合,并实时反馈给业务系统。架构需简化实时业务的开发流程,减少数据冗余,便捷实现业务报表的秒级或分钟级更新。
3.2.2缩短数据链路,一份数据上支撑多种业务场景
传统架构中数据需经多层次平台加工和传输,产生大量存储与ETL开发开销,且难以保障跨平台数据一致性。新的一体化架构应提供统一的数据格式,同时支持批量数据处理、实时数据写入、交互式分析(类似ClickHouse、Doris)和高效明细查询的能力,提供湖仓集一体化的统一技术栈,便于企业将数据湖、数据仓库、数据集市精简与优化整合。
3.2.3智能多模数据平台,支撑新时代大模型知识应用落地
随着机器学习和大模型(如RAG、NL2SQL)技术的发展,企业亟需一种整合多种智能处理能力的大数据平台,以直接从原始数据中快速挖掘价值,提升企业决策效率。一体化架构应支持多种知识检索增强技术(向量检索、关键词检索、图谱分析等),提供高性能数据分析能力和丰富的读写接口(尤其是原生Python接口),满足实时数据处理需求,助推大模型的广泛应用。
3.2.4开放数据平台,需要多租户、弹性调度和数据加密
未来AI技术将极大降低数据开发门槛,数据平台需具备更先进的管理能力,包括:
●多模态计算引擎:支持关系型、文档型、图型、向量型等多种数据处理模式;
●云原生组件部署:动态部署不同组件版本,提供强资源隔离能力;
●多租户在线管理:灵活实时创建租户、设置计算与存储配额;
●资源弹性调度:根据业务需求实时调整资源分配,提升资源利用率。
通过上述功能与技术手段,数智一体化平台架构可全面满足企业现代化数据应用需求,推动数据价值的快速落地。
3.3自研数智一体化平台优势
以星环科技为例,其在2017年,率先在大型集团客户落地了湖仓一体产品,并基于市场需求持续打磨迭代,演进了新一代数智一体化平台。其自研的数智一体化平台在架构设计上致力于支持多种数据应用场景,包括数据湖、数据仓库、交互式分析的数据集市、实时数据处理(支持实时更新与查询)、在线数据服务(满足高并发访问需求)以及面向大模型的知识工程等。该类平台架构力图在一个统一的技术体系中整合数据存储、计算与管理,降低多系统集成的复杂性,提高数据使用效率。
图 3 星环数智一体化平台
相较于依赖多种开源组件拼接的方案,星环科技所采用的一体化范式具有更高的一致性和资源控制力,详见图3,在以下4个方面进行了实践探索:
(1)创新的实时增量计算技术,快速实现离线到在线改造;
(2)高性能数据存储结构,一种数据格式支持多类场景业务;
(3)全面的非结构化数据处理能力,加速大模型应用落地;
(4)灵活的多租户管理与弹性调度,最大程度利用和节约成本。
在新的范式下,湖、仓、集的概念仅作为业务层面的逻辑区分,不再是技术实现上的物理隔离。企业可在平台内实现数据的统一存储、管理和使用,从根本上消除了跨平台数据迁移的痛点。此外,该平台具备统一权限管理和灵活高效的数据访问机制,确保数据访问的安全合规性和高可用性,支持BI、AI等不同类型的应用基于同一数据源开发,避免了数据孤岛和不一致性问题。该平台的核心特性共同提高了数据访问的便利性和使用效率,显著提升了数据整体的利用价值。同时,由于减少了多系统的部署、集成和运维等方面的时间、人力和物力成本,有效降低企业总体平台成本,实现更高的投资回报率。
4 新架构高效支撑多种创新场景
(1)场景1:实时增量技术,低成本实现批量业务升级
某三甲医院基于数智一体化平台的增量计算技术,在未改动业务SQL脚本的前提下,将过去通过数仓T+1加工生成的报表业务,改造为端到端分钟延迟的实时报表,为医务人员、医院领导层提供了实时数据洞察力,加快决策效率(如图4所示)。
图4 实时数据分析计算
例如,在驾驶舱业务改造中,将实时采集的门诊病房数据与实时更新的维度数据关联,构建实时宽表,并基于增量数据更新关键指标的实时数据。同时,利用实时更新的多表增量关联技术,将一百多个独立加工任务转化成十几个增量任务,裁剪了大量重复冗余的加工逻辑,实现了多个报表的亚秒级分析。增量计算基于实时落地数据触发计算,避免了传统流引擎中因实时数据乱序、传输延迟导致的计算不准确,使得计算过程可复现,计算结果可验证,降低了实时作业的对数成本。
(2)场景2:湖仓集新存储,实现多种业务的实时读写
某金融头部客户使用新一代数智一体化平台实现了对原有数据查询平台业务的全面升级,在一张总量数据PB级,日增数百GB的交易明细表上,不仅满足每日实时明细数据写入和T+0业务的数据提取,还支持每日批量数据校对和覆盖,满足历史数据的提取需求。
除了实时写入能力,该表还支持行列混合存储,一张表满足了不同业务对数据的读写需求,例如:各种维度的查询和全表批量分析、支持十余个业务部门的并发数据查询等。此外,得益于存储格式优化,该金融客户在保证并发查询性能的情况下,实现了相对于传统行存表2~3倍的数据压缩率提升,大幅降低了数据存储成本(如图5所示)。
图 5 湖仓集新存储
(3)场景3:多模型知识库增强检索,构建AI应用的基础设施
新一代数智一体化平台融合了大数据平台的全栈能力并结合AI大模型能力,打造出面向未来智能应用的统一数据与AI基础设施平台。该平台通过统一的计算引擎、存储体系、元数据管理以及知识治理系统,全面支持结构化以及非结构化数据的集成、加工、治理、分析到数据与知识服务构建的完整链路,成为企业构建数据与智能应用的重要支撑底座(见图6)。
图 6 多模型与 RAG 结合
在数据处理层面,平台了整合全文数据、向量数据、图数据与文档数据等多模知识数据处理能力,支撑非结构化、半结构化和结构化数据的统一管理与RAG召回。通过向量召回、知识图谱和全文搜索召回、数据库结构化数据召回等多模技术协同,为大模型提供丰富、可控、实时更新的外部知识,提升问答准确率,解决大模型幻觉问题。
在大模型应用构建方面,平台支持各类大小模型的纳管,大小模型训练与推理、多维度的模型能力及性能评估,提供包括类GPTs、低代码应用链编排、外部应用注册及自定义容器应用在内的4种应用构建方式,同时提供异构算力的纳管以及易部署、易监控、易运维的大模型服务管理能力,实现保障智能体高效构建。
整体来看,新一代数智一体化平台不仅打通了数据平台与AI平台之间的数据壁垒,更通过多租户、统一调度与知识融合等机制,为企业构建具备自主知识、持续学习和执行能力的AIAgent提供完整的基础设施支撑,助力AI技术真正落地业务。
(4)场景4:多租户资源弹性调度,满足业务峰谷资源需求
基于统一平台的混合负载业务实践中,会为用户不同的业务创建不同的计算引擎实例(如图7所示),以满足不同业务的资源隔离需求,例如为高并发在线查询业务创建编译密集型实例,而对于批量业务,则创建计算密集型实例。
图 7 多租户资源弹性调度
新一代数智一体化平台进一步提升了多租户的使用体验和资源使用率,推出了支持基于多种策略进行弹性资源伸缩的多租户能力。用户可以以业务部门为租户,创建资源组,设置时间或负载的调度策略,例如在早上7:00点时自动扩容查询租户,而在下午19:00点缩容,将资源给到跑批租户,还可以让多个租户均按照业务压力的增减计算资源。同时还支持存算分离的数据缓存能力和就近任务调度能力,资源分配更加简单。
5 结语
在大模型时代,新一代数智一体化平台架构实现了数据存储与处理的极致简化和高效利用。通过整合数据湖的海量存储、数据仓库的复杂模型处理、数据集市的交互式分析以及实时数据处理的高并发访问,只需一份存储数据的架构,不仅降低了企业的数据管理成本,还大幅提升了数据的利用效率。同时,为AI大模型提供了强大的数据支撑,加速了数据与AI的深度融合,推动企业数字化转型升级与数智化高速发展。数智一体化平台架构为企业降本增效、提升竞争力提供了强有力的技术支撑。
以星环科技为代表的国产技术方案在该方向上进行了实践探索,其数智一体化平台在支持湖仓集一体化、AI大模型知识检索、非结构化数据管理等方面提供了较为完整的支撑能力。这类平台的发展,为推动数据与AI深度融合、加速企业的数字化与智能化转型提供了可行路径,也为未来数据架构的演进方向提供了有益参考。
原文刊载于《信息技术与标准化》2025 年第 6 期 作者:星环信息科技 ( 上海 ) 股份有限公司 朱珺辰 张昀 吴家宝 郭卓异
暂无评论,等你抢沙发