女朋友问小灰:什么是数据仓库?什么是数据湖?什么是智能湖仓?

大数据 2023-07-05 17:29:38
46阅读

文中转载微信公众平台「程序猿小灰」,创作者小灰。转截文中请联络程序猿小灰微信公众号。

最先,大家而言一讲什么叫数据库查询。

做为程序猿,大家写的大部分商业服务新项目,通常都必须 采用很多的数据信息。电子计算机的运行内存,能够完成数据信息的迅速储存和浏览。

可是,运行内存的室内空间是比较有限的,也没法长期性储存有效的数据信息。针对这些很多的,必须 长期性应用的数据信息,大家必须 对他们开展长久的、规范性的储存,因此就拥有数据库查询(DataBase)。

销售市场上常见的数据库查询有很多种多样,包含像MySQL、Oracle那样的关联型数据库查询,也包含Redis,HBase那样的非关联型数据库查询。

不论是哪一种数据库查询,他们所储存的全是非结构化数据,关键运用的行业是联网事务管理(OLTP),也就是大家程序猿所了解的增删业务流程。

达到了业务流程要求,数据库查询之中的数据信息持续累积,越来越愈来愈丰富多彩。此刻大家发觉,这种数据信息不仅能够支撑点业务流程的运作,还可以用以转化成商业服务表格,开展数据统计分析,给予有使用价值的管理决策参照。这种数据统计分析和转化成表格的解决实际操作,被称作联网剖析解决(OLAP)。

可是,传统式数据库查询善于的是迅速地对小规模纳税人数据信息开展增删,并不善于规模性数据信息的迅速载入。

因此,大家创造发明了一种全新升级的数据储存方法,并把本来分散化在不一样新项目之中的业务流程数据信息开展提取、清理、变换、载入,最后归纳变成一系列朝向主题风格的数据信息结合,依照全新升级的方法开展储存。

这类全新升级的储存方法,被称作数据库管理(Data Warehouse);把数据信息开展提取、清理、变换、载入的全过程,被称作ETL(Extract Transform Load)。

数据库管理之中储存的数据信息,一样是非结构化数据。

数据库查询用以业务流程解决,数据库管理用以数据统计分析,一时间大家都应用得十分开心。

可是,伴随着互联网大数据和深度学习技术性的持续发展趋势,大家发觉不但是结构型的数据信息具备剖析使用价值,很多非结构型的数据信息,比如客户日志、电子邮箱、PDF这些,一样具备丰厚的剖析和学习培训使用价值。

这种五花八门的数据信息,假如统一依照ETL的方法开展生产加工解决,确实不是太实际,那麼干脆把他们依照初始文件格式归纳在一起吧。那样归纳起來的巨大结合,被储存在了数据湖(Data Lake)之中。

数据湖之中的数据信息可谓是应有尽有:

结构型的,有各种各样关联型数据库查询的列和行。

半结构型的,有JSON、XML、CSV。

非结构型的,有电子邮箱、PDF、各种各样文本文档。

乃至也有杂七杂八的二进制文件,例如照片、视頻、声频。

根据数据湖这一统一的数据库管理连接点,公司能够运用更为丰富多彩多种多样的数据信息,为商务智能、深度学习等方位颠覆式创新。

在实际的公司新项目之中,所必须 的不只是统一储存的数据湖,也必须 各式各样专业搭建的储存计划方案,从而为特殊应用领域给予必需的特性、经营规模与成本费优点。

例如,大家依然必须 数据库管理,合适对于非结构化数据根据繁杂查看迅速获得結果;大家必须 Lucene或Elastic Search那样的全文搜索模块,进而完成快速查询并剖析日志数据信息,借此机会监管生产系统的运作情况。

根据这种多种多样的储存计划方案,我们可以高效率成本低地开展数据统计分析、深度学习、数据融合、日志剖析等工作中。

为了更好地从数据湖及专业搭建的储存中获得较大 盈利,公司期待在不一样系统软件中间轻轻松松数据网络。例如有一些状况下,顾客期待将数据湖之中的一部分数据信息挪到数据库管理、日志系统软件等连接点。大家将这类状况,梳理为由内向型外的数据信息挪动实际操作。

还有一些状况下,公司期待将业务流程数据信息从关联型数据库查询和非关联型数据库查询挪动到数据信息湖内。大家将这类状况,梳理为由性格外向内的数据信息挪动实际操作。

最终,公司还很有可能规定将数据信息在不一样的专用型数据储存计划方案中间来往挪动,例如将数据库管理内的数据信息给予给深度学习系统软件。大家将这类状况,梳理为紧紧围绕界限的数据信息挪动实际操作。

1.迅速搭建起可拓展的数据湖。

2.丰富多彩并且功能齐全的专业搭建的网络服务结合,这种网络服务能够为互动式汽车仪表板与日志剖析等给予必需的特性适用。

3.在数据湖及各专业搭建的网络服务中间完成数据信息的无缝拼接化挪动。

4.根据统一方法多方面维护、监管与管理方法,确保数据浏览主题活动的合规。

5.以成本低方法拓展系统软件,确保不对特性造成不良影响。

大家将那样一种强劲的数据湖以及配套设施的专用型搭建网络服务管理体系,称之为智能化湖仓(Lake House)构架。

the end
免责声明:本文不代表本站的观点和立场,如有侵权请联系本站删除!本站仅提供信息存储空间服务。