「数据湖篇」一文带你深入理解数据湖

如题所述

数据湖相当于一个汇集着来自各个异构数据源的 原生态数据,不经过加工清洗数据 ,数据的格式也五花八门, 结构化和半结构化和非结构化的数据 都能够被数据湖管理起来。

那么就引申出 数据湖的特点

数据湖和数据仓库可以用来互补,数据湖可以在非结构化数据处理方面扩展业务能力。对于许多公司来说,通过数据湖来增强现有的数据仓库,已经被证明是一种高效的方式

数据湖的本质 ,是由 数据存储架构+数据处理工具 组成的解决方案。

数据架构存储 :要求要有足够强大的扩展性和可靠性,才能存得下和存得久要入湖的数据,比如AmazonWebServices亚马逊云科技的S3云对象存储。
数据处理工具 :主要解决2类问题,一类是把数据移动到湖里,一类是管理湖里的数据。

总结:数据湖不只是个“囤积”数据的“大水坑”,除了用存储技术构建的湖底座以外,还包含一系列的数据入湖、数据出湖、数据管理、数据应用工具集,共同组成了数据湖解决方案。

数据沼泽 :各式各样的数据都往"湖里倾倒",缺乏元数据管理,最终会把好好的数据湖变成了数据沼泽,导致数据湖中的数据使用困难。
数据重力 :指的是随着数据积累越来越多,则要移动它们就越来越难,这便是所谓的数据重力。

Lake House,即所谓的 湖仓一体架构 , 数据湖和数据仓库相结合发挥作用,实现“湖里”和“仓里”的数据/元数据能够无缝打通,并且“自由”流动 。比如湖里的“新鲜”数据可以流到仓里,甚至可以直接被数仓使用,而仓里的“不新鲜”数据,也可以流到湖里,低成本长久保存,供未来的数据挖掘使用。

Lake House不仅要把湖、仓打通,还要克服“数据重力”,让数据在这些服务之间按需来回移动:入湖、出湖、环湖……

智能湖仓的设计, 采用各下游组件都“环湖而造”的理念 ,既可以直接操纵湖内数据,也可以从湖中摄取数据,还可以向湖中回注数据,同时环湖的服务彼此之间也可以轻松交换数据。

上面这个六层架构,从数据源定义、数据摄取和入湖入仓,到湖仓打通与集成,再到数据出湖、数据处理和数据消费,一气呵成,各种云上数据服务无缝集成在一起,创新了未来一个新的大数据解决方案。

温馨提示:答案为网友推荐,仅供参考
第1个回答  2023-07-28
数据湖简单来说是一种集成了多个数据源的、具有高度结构化和易于分析特点的数据存储方式。相比于传统的数据仓库,数据湖更加分散和离散化,可以更加灵活地处理和分析大规模数据。数据湖还可以利用机器学习、人工智能等技术进行数据挖掘和分析,提供更加智能化的数据服务。
相似回答