2021年值得关注的5大数据趋势

大数据 2023-07-05 17:29:38
29阅读

如同别的行业一样,2020年颠复了数据信息全球。当COVID关掉公司并劳务派遣工在家办公时,公司务必快速融入“新形势”。

伴随着机构迁移到远程工作,云变成肯定必需。大数据应用和安全系数变成头等大事,每一个人都从不一样的部位和系统软件浏览数据信息。如今,历史时间实体模型早已越来越毫无价值,因而聪慧的AI越来越愈来愈有诱惑力。简单点来说,机构意识到她们必须迅速开展变更。数据信息项目投资提升,机构寻找升級其系统软件并建立极致的数据信息局部变量。

拥有2020年的倒车镜,大家如今正希望着新的一年,并期待更强的一年。2021年将为数据信息全球产生哪些?数据信息系统架构将怎样发展趋势以紧跟全部全新的自主创新和变动?

2020年,大家将见到好多个新的数据信息发展趋势:新数据人物角色和网站安全性架构的发生,当代数据信息局部变量和当代数据库解决方法的盛行及其数据湖和库房的结合。

1.数据湖和库房已经结合

过去的十年中,数据信息系统架构师紧紧围绕2个重要模块设计方案了数据信息实际操作:

  • 数据湖:划算的储存空间,能够储存很多的原始记录乃至是是非非非结构化数据。数据湖构架一般特别适合临时性探寻和计算机科学测试用例。
  • 数据库管理:传统式上,数据库管理具备提升的测算和响应速度。这针对表格和商务智能很有协助,使库房变成剖析精英团队的优选系统软件。

现如今,很多企业依然应用这二种系统软件-全部数据信息的数据湖,及其用以剖析和汇报测试用例的专用型数据库管理。

尽管都还没到此,但伴随着数据湖和库房都提升了更多用途,大家逐渐见到2个生态体系结合在一起。

像Snowflake那样的数据库管理早已将储存和核算成本分离了,进而大幅度降低了将全部数据储存在数据库管理中的成本费。更进一步,一些数据库管理参加者早已逐渐提升对半非结构化数据的适用。

另一方面,例如Databricks这类的数据湖参加者早已逐渐向着“数据湖舍”的定义迈入,她们近期公布适用SQL剖析和ACID事务管理。

掌握大量:

  • Data Lakehouses:一种新起的控制系统设计,将数据库管理中的算法设计和管理方法作用与数据湖的降低成本储存紧密结合。
  • 杰出的数据信息争辩:a16z播客的很帅的一集,在其中包括相关数据信息局部变量中发生的不一样技术性和系统架构的引人深思的注解。

2.“当代数据信息栈”变成流行

从2020年逐渐,“当代数据信息局部变量”一词在数据信息全球中无所不在。它指的是用以解决很多数据信息的新式最好当代数据信息系统架构。

强劲的云服务平台是当代数据信息局部变量的重要支撑之一。最开始以云数据库管理为管理中心,如今也逐渐包含云技术湖和有关的数据湖模块。

现如今,当代数据信息局部变量为数据信息工作流引擎的每一个一部分出示了一套专用工具:

  • 数据信息获取:比如Fivetran,Stitch,Hovodata
  • 数据库管理:比如小雪花,BigQuery
  • 数据湖:比如美国亚马逊S3
  • 数据湖解决:比如Presto,Dremio,Databricks,Starburst
  • 数据交换:比如dbt,Matillion
  • 元数据管理:比如亚特兰
  • BI专用工具:比如外型

掌握大量:

当代数据信息系统架构的新起系统架构:根据对20好几个从业者的采访,深层次,深层次地了解了什么技术性在当代数据信息局部变量中制胜。

2020年当代数据信息局部变量交流会:Fivetran的第一次当代数据信息局部变量交流会的資源,相关全新的自主创新,专用工具和最佳实践。

《现代数据堆栈新闻》:每两个星期公布一次的新闻通讯,在其中包括相关当代数据信息局部变量的blog,手册和播客。

3.数据库3.0:元数据管理再生

伴随着当代数据信息局部变量的完善,企业已进行了开疆辟土的新项目来升級其数据信息系统架构并梳理基础数据信息要求(即,获取数据信息,包裝云转移新项目及其设定新的BI专用工具)。这种尽管释放出来了许多发展潜力,但也导致了错乱。

例如“此列名字事实上代表着哪些?”这类的前后文难题。和“为何汽车仪表板上的市场销售数据又出错了?”杀掉这些以令人震惊速率前行的精英团队的灵敏性。

虽然这种并不是新难题,但大家正处在新的颠覆性创新解决方法的舆论旋涡。伴随着当代大数据平台紧紧围绕五个关键参加者(AWS,Azure,Google Cloud Platform,Snowflake和Databricks)聚集,而且数据库自身已经变成互联网大数据,因而,将智能化和自动化技术带到数据库室内空间具备极大的发展潜力。

在下面的24到36个月内,大家将见到为当代数据信息栈搭建的一个或好几个当代元数据管理服务平台的盛行,该服务平台可处理数据信息发觉,数据标准化,数据信息承袭和可观查性的难题。

掌握大量:

Data Catalog 3.0:我的文章内容详细介绍数据库解决方法的以往和将来,及其为何我们要在为当代数据信息局部变量建立当代数据库层面获得极大飞越。

4.发生了新人物角色:剖析技术工程师和大数据平台责任人

2020年,2个人物角色的盛行比过去任何时刻都更加流行。

大数据平台责任人

机构愈来愈意识到必须有一个承担开发设计大数据平台的中间精英团队,以协助机构的别的组员能够更好地开展工作。自然,这一精英团队必须一个管理者。

以往,它是由更传统式的人物角色(如数据库管理权威专家或数据信息系统架构师)来解决的。如今,有着数据信息管理者越来越很广泛,他能够领导干部全部机构的数据信息方案。这些人的称号范畴很广,比如“大数据平台责任人”或“大数据平台负责人”。

大数据平台责任人一般承担监管企业数据信息局部变量的智能化(或重新开始,以供初创公司应用)。这包含设定云技术湖和库房,执行大数据应用架构,挑选BI专用工具这些。

这一新人物角色随着着一个关键的新KPI:终端用户利用率。它是指管理者具备使机构中的工作人员和精英团队在日常工作内容中选用数据信息(和大数据平台)的工作能力。这是一个喜人的转变,因为它决策了决策项目投资什么数据产品的大家与最后应用该商品的大家的主观因素。

剖析技术工程师

过去的十年中,和我沟通交流的每一个投资分析师都觉得一个关键的失落感:借助数据工程师开展生产制造化和创建数据信息管路。

强劲的根据SQL的管路搭建专用工具(如dbt和Dataform)的盛行使这类状况越来越更强。根据授予剖析工作人员超自然能力,她们将全部数据交换全过程交到了数据统计分析工作人员。

結果便是“剖析技术工程师”一词的盛行,该专业术语叙述了之前的投资分析师,她们如今有着从摄入和变换到最后将能用数据出示给其他业务流程的全部数据信息栈。

掌握大量:

什么叫剖析技术工程师?dbt的克莱尔·卡罗尔(Claire Carroll)的一篇文章,详细介绍了为何及其怎样适用新的剖析工程项目人物角色。

5.网站安全性架构已经升高

过去的二十年里,网站安全性是一个沒有过多自主创新的室内空间。可是,它近期获得了长足的进步,而且全部数据信息局部变量都集成化了网站安全性的不一样层面。

网站安全性剖析

数据信息概述剖析是检查程序以掌握其內容和构造,查验其品质并明确未来怎么使用的全过程。

在数据资产的全部生命期中,概述剖析很有可能会产生数次,从浅部评定到深层次评定。它包含测算缺少值,极小值和最高值,中位值和众数,頻率遍布及其别的有利于客户掌握基本网站安全性的重要统计指标。

虽然网站安全性概述剖析一般是数据信息局部变量中的单独商品,可是企业愈来愈多地将其做为作用集成化到当代数据信息文件目录中,进而使终端用户可以了解和信赖她们的数据信息。

业务流程驱动器的网站安全性标准

网站安全性不仅是有关数据信息的统计分析了解。依据业务流程自然环境,还在于数据信息是不是可信赖。

比如,您的市场销售数据一般每星期提高不可超出10%。100%的市场销售猛增应提示适合的精英团队组员并终止数据信息管路运作,而不是将其传送给CEO应用的汽车仪表板!

对智能化报警的要求已造成 机构将业务流程精英团队带到撰写数据信息质量检测的全过程。

数据信息精英团队依然沒有一种非常好的方法与各个部门协作开展数据信息质量检测,可是希望这一行业在未来的两年中会产生许多自主创新。未来,大家将见到更智能化的解决方法,他们能够依据数据信息发展趋势自动生成业务流程驱动器的网站安全性标准。

数据信息管路中的网站安全性检测

网站安全性越来越广泛的第三种方法是将其载入数据信息管路自身。这效仿了软件开发界“单元测试卷”的基本原理。

很多年来,软件开发已包括单元测试卷架构。他们会自动化测试每一个独立的编码模块,以保证他们能够应用。管路仿真模拟单元测试卷架构中的网站安全性检测能为数据信息工程项目产生同样的自信心和速率。

这有利于精英团队在上下游数据信息变更危害机构的工作流引擎和汇报以前发觉其网站安全性难题。

掌握大量:

  • 美国亚马逊Deequ:Deequ是在美国亚马逊內部搭建的,是用以网站安全性剖析的有发展前途的开源框架。
  • 寄予希望:这已经变成一个时兴的开源项目,用以在数据信息管路内开展网站安全性检测。
  • Netflix有关拓展网站安全性的演试:针对一切逐渐从业网站安全性之行的数据信息管理者而言,这全是一个有意思的阅读文章。
the end
免责声明:本文不代表本站的观点和立场,如有侵权请联系本站删除!本站仅提供信息存储空间服务。