我们正生活在一个数据爆炸的时代。
(资料图片仅供参考)
根据IDC发布的《数据时代2025》报告,2020年,全球数据总量为60ZB;预计到2025年,这一数字将达到175ZB,相当于约100万亿部高清电影的容量。
面对如此体量的数据规模,企业该如何做好存储工作?
早年,企业大数据存储以数据仓库模式为主。这是一种在90年代出现,并在21世纪成熟的数据存储处理方案,特别适合大量结构化数据的存储。
2002年,Hadoop架构的出现,将数据仓库推到了新的高度。此后,Lambda与kappa架构的出现,进一步提升了数据仓库的性能与经济性。
然而,随着大数据时代的到来,数据仓库也暴露出了其先天劣势。数据仓库面向结构化数据设计,在存储图像、视频、音频等数据非结构数据时显得力不从心。而后者,在大数据时代的占比则越来越多。
为此,数据智能行业在2016年提出了“数据湖”的解决方案,将结构化的“仓”转换为非结构化的“湖”。但在数据爆炸的大背景下,数据体量的急剧扩张,让数据湖在面对海量数据存储时,成本及性能都会变得极不可控。
数据智能行业亟待一种兼顾“湖”“仓”优势的数据存储方案。在这一背景下,“湖仓一体”概念应运而生。
01. 湖仓一体,数字化转型“底座的底座”
数据智能行业时下火热的“湖仓一体”,究竟是什么?
湖仓一体概念最早由数据智能独角兽企业Databricks于2020年提出,其核心思想是融合数据仓库与数据湖架构,以兼顾二者优势。
湖仓一体架构在数据仓库高性能与管理能力的基础上,融合了数据湖的灵活特性,让数据和计算可以在“湖”与“仓”之间自由流动,为客户提供更加高效、灵活、低成本的存储解决方案。
在企业拥抱数字化转型的新时代,数据往往被视作是数字化转型的底座,而数据存储则是数据智能平台的底座。作为“底座的底座”,湖仓一体概念自出现之日起,就备受数据智能及整个科技产业的关注。
2021年,咨询公司Gartner首次将湖仓一体收录至技术成熟度模型。根据Gartner的目前,湖仓一体概念仍处于启动阶段,未来仍将保持快速增长。
Gartner数据智能技术成熟度曲线
而在国内市场,湖仓一体也在蓬勃发展。
数字化市场调研机构爱分析日前发布的《2022年中国市场湖仓一体研究报告》指出,2022年中国湖仓一体平台软件市场规模15.2亿元;预计到2025年,这一数字有望达到97.6亿元,2022-2025三年间的复合增长率高达86%。
湖仓一体平台软件市场规模及增速 图片来源:爱分析
在企业及全社会的数字化浪潮下,国产化基础软件正在迎来千载难逢的机遇,湖仓一体及整个基础软件赛道增长强劲。在大数据时代,企业对于数据采集、存储、治理的需求不断增强。特别是数据量的增长,以及AI发展带来的数据分析需求,让企业开始重视数据平台建设。而这一趋势,也让此前在IT行业内颇为低调的数据智能企业走向前台,成为聚光灯下的焦点。
《2022年中国湖仓一体平台市场研究报告》指出,在国内湖仓一体平台软件市场中,市场份额前三名的企业分别为科杰科技、华为云、星环科技,市场份额占比分别为11.1%、9.5%、7.3%。
然而,在广阔的市场前景之下,湖仓一体作为一项数据智能领域的前沿技术,也拥有着不小的技术门槛。中国信息通信研究院发布的《云原生湖仓一体数据平台技术要求》,就将云原生湖仓一体平台划分了湖仓数据集成、湖仓存储、湖仓计算、湖仓数据治理、湖仓其他能力五大能力域。要想进入到湖仓一体赛道,数据智能企业的技术实力备受考验。
02. 湖仓一体赛道风起云涌,独角兽开始显现
目前,新兴的湖仓一体赛道已经涌现出一批玩家。
首先是云计算厂商,如AWS、阿里云、华为云等,它们凭借着其在云计算市场的市占率与客户基础,将湖仓一体作为其数据存储解决方案的一环,交付给合作伙伴。
与此同时,一些传统的数据库、数据仓库企业,在湖仓一体的浪潮下,也开始在自身的数据库、数据仓库服务基础上,提供湖仓一体化的解决方案,以满足客户需求。
而对于投资人而言,湖仓一体赛道最值得关注的,还是新兴的大数据基础软件厂商。以科杰科技为例,根据爱分析的数据,其在国内湖仓一体平台软件市场份额为11.1%,位居行业第一。
科杰科技国内头部大数据&AI技术创新公司,其自主研发的核心产品湖仓一体数据智能平台KeenData Lakehouse,基于云原生技术开发,提供端到端的一站式大数据基础软件解决方案。以此为基础,科杰科技也提供了覆盖数据存储计算引擎、数据管理、开发挖掘、运维一体化的整套方案,帮助企业构建数据能力。
据KeenData Lakehouse介绍,其最大亮点在于其湖仓融合的技术架构,既兼容上游的数据库、数据湖,也能打通下游的数据中台应用系统,从而帮助企业以最小成本兼容原有的数据异构系统,并实现高效的数据治理与数据业务表达能力。
科杰科技湖仓一体数据智能平台KeenData Lakehouse技术架构图 图片来源:爱分析
事实上,湖仓一体赛道已经涌现出了一批独角兽类企业,为各类企业提供兼容性的湖仓能力。例如,在美国,Databricks是近年来数据智能领域融资额最高的公司之一,在胡润发布的《2022年中全球独角兽榜》中,Databricks以2500亿元估值位居全球第七位。而在国内,主打湖仓一体产品及解决方案的科杰科技以11.1%的市场占有率在行业竞争中名列前茅。在资本眼中,湖仓一体早已成为数据智能乃至整个IT产业的“明日之星”。
在资本的助力下,数据智能产业与AI的结合也越加紧密,特别是在AIGC火爆的当下,无论是大数据的存储,还是模型的训练,都离不开数据智能平台的支撑。而湖仓一体先天与AI契合的属性,更让湖仓一体企业在AI时代加速成长。
数据智能企业也在广泛布局AI赛道。例如,今年4月,Databricks更新了其开源大模型——Dolly,以更低的成本满足客户对于AI服务的需求。此外,Databricks 还在近期收购了AI 初创公司MosaicML。后者是一家只有15名研究人员的初创企业。Databricks称,收购MosaicML可以为客户提供统一的AI平台,帮助客户在现有的湖仓数据基础上训练自己的生成式AI模型。
值得一提的是,在数据智能领域,新概念往往是对现有技术架构的概括总结。无论概念如何发展,客户的实际需求仍然是数据智能乃至各行各业的核心,需求永远是技术进步的第一推动力。
因此,湖仓一体从业者们也在挖掘各个垂直行业市场的潜在需求。在这一维度下,金融业是湖仓一体落地最为深入的行业之一。
与其他行业相比,金融业的数据基础优势明显,也更重视对数据智能的投入。在国内市场,金融行业的湖仓一体建设正在由大型国有银行向股份制银行、地方性银行渗透。此外,非银类金融机构对于湖仓一体的建设布局,也值得关注。 根据《2022年中国湖仓一体平台市场研究报告》,未来3-5年时间,金融业的湖仓一体架构建设将保持高速发展趋势。
而在金融业之外,工业、交通、政务、零售等行业的湖仓一体转型,也值得关注。未来2-5年,这些垂直领域都有望将迎来新一轮需求爆发。
以工业场景为例,《中国制造2025》行动纲领、“十四五”规划与2035年远景目标纲要都明确了工业,特别是制造业的数字化转型目标。与其他行业不同,工业数据的体量极大,且数据量会根据随着实际生产持续增长,对数据存储系统的实时性、可扩展性有极高的要求。而湖仓一体的数据融合、存算分离、批流一体等特点,可以助力工业企业加速数字化转型。
而在交通领域,客户对于数据存储的需求则更加复杂。交通行业数据维度复杂,一个交通平台需要整合交警、运管、铁路、航空、旅游、气象等多个来源的数据。其中,有相当一部分数据以非结构化形式存在,如图片、视频信息等。而湖仓一体整合结构化数据与非结构化数据的能力,可以减轻交通平台的存储压力,并为AI分析提供数据基础。
各个垂直市场的需求,让湖仓一体成为了大数据、数据智能领域最炙手可热的投资赛道之一。在日前的“2023大数据产业发展大会”,中国信通院将湖仓一体列为了“2023大数据十大关键词”之首。我们也将共同见证数据智能行业的又一个新增长极。