找回密码
 立即注册
搜索
查看: 34|回复: 0

大数据的发展趋势-数据变化趋势分析专业术语-数据趋势可以用什么词形容

[复制链接]

2万

主题

0

回帖

6万

积分

管理员

积分
63526
发表于 2025-4-25 20:08:54 | 显示全部楼层 |阅读模式
2021 年,我们看到围绕现代数据栈的兴起有了很大的加速。现在有大量的通讯、影响者、投资者、专门网站、会议和活动在宣扬它。现代数据栈的概念(虽仍处于早期)与云中数据工具的爆炸性增长紧密相关。云计算带来新的基础设施模式,它能帮助我们快速、程序化且按需地建立这些数据栈,运用云原生技术、基础设施即代码以及云计算最佳实践等。所以,基础设施是构建和实施现代数据栈的关键因素。

2022 年已至,我们能清晰地看到软件工程的最佳实践开始融入数据。数据质量监控与可观察性在发展,不同 ETL 层走向专业化,数据探索和数据安全也在 2021 年蓬勃兴起,并且还将持续下去。因为从早期创业公司到价值数十亿美元的财富 500 强企业的那些数据驱动型公司,一直在将数据存储和处理到数据库、云数据仓库、数据湖和数据湖仓中。

你会发现以下情况:我们所预测的 5 个数据趋势在 2022 年将会确立。你会发现以下情况:我们所预测的 5 个数据趋势在 2022 年将会加速。

01

数据分析师的崛起

2020 年和 2021 年是关于数据工程师的崛起。根据 Dice 的科技工作报告,这是最重要的。在 2022 年,分析工程师将明确进入人们的视线。

云数据平台崛起了,它改变了一切。传统的技术结构,像立方体以及单体数据仓库,正被更灵活且可扩展的数据模型所取代。而且,在云平台内能够对所有数据进行转换。ETL 在很大程度上已被 ELT 所替代。那么,控制这种转换逻辑的是谁呢?是分析工程师。

这个角色的兴起与云数据平台和数据构建工具(dbt)的兴起有直接关联。dbt 背后的公司是 Dbt labs,正是它创造了这个角色。在 2018 年,dbt 社区有五个用户。到 2021 年 11 月,用户数量达到了 7300 名。

分析工程师是自然演化的范例。数据工程很可能最终会变成多个 T 型工程角色,这些角色是由开发自助式数据平台的工程师所驱动,而非开发管道或报告的工程师。

分析工程师最先出现在云端原生者以及初创公司里,例如[具体的云端原生者公司]和[具体的初创公司]。不过,最近它开始在企业公司中获得一定地位,像捷蓝航空这样的企业公司。你可以在此处阅读一篇工程团队撰写的关于分析工程在其组织中出现和演变的文章。

我们看到现代数据团队在不断增加分析工程师到他们的团队中,原因是这些团队正日益以数据为导向,并且在构建自我服务的数据管道。从招聘信息的数据来看,对于一个典型的职位来说,必须具备的技能包括 SQL、dbt 以及与现代数据栈相关的工具(例如、、、等)。

截至2021年12月1日的职位发布数据

根据相关数据显示,对数据科学家的需求大约是分析工程师需求的 2.6 到 2.7 倍,并且这一差距正持续呈现出缩小的趋势。

2022 年,我们预计这一差距会进一步缩小。原因是对分析工程师的需求在持续增长,并且接近于对数据科学家(曾被称为该技术领域的工作)的需求。

02

数据仓库与数据湖的竞争

数据界有很多人都关注到了 2021 年底的一场非常公开的对决。这场对决始于某方声称其数据湖库技术在 TPC-DS 基准测试中的记录,并且称有一项研究表明其速度比对方快 2.5 倍。另一方则表示对方缺乏诚信,还称该研究存在缺陷,并有一个“不确定”的说法。

我们无需回到多年前。那时,和是新兴的云计算软件创业公司,他们很友好,其销售团队常互相传递客户线索。如今,一切都变了,因为有指控称其采用不正当营销手段以赢得关注。这关乎未来数百亿美元的潜在收入。的首席执行官兼联合创始人 Ali 在一份声明中指出,要探讨和如何在许多客户的数据堆中共存。

我们看到,越来越多的人如今觉得自己能够真正运用在数据湖中的数据,去参与数据仓库的工作负载。并且这些工作负载,原本可能会去往其他地方。

数据仓库供应商正逐渐从现有的模式转变为数据仓库与数据湖模式的融合。那些起始于数据湖边的供应商,如今也在向数据仓库领域进行拓展。我们能够察觉到两方面的融合正在进行。

因此,一直在让其数据仓库的样子更趋近于数据湖,就如同让其数据湖看起来更像数据仓库一样。简而言之,数据湖仓是一个能将数据仓库和数据湖的优点相结合的平台。按照营销术语来讲,数据湖室把数据仓库和数据湖的优点融合在一起,为数据科学和分析用例提供了融合的工作负载。它在自己的营销资料中运用了这个术语,而更倾向于使用数据云这个术语。

数据湖仓是否意味着数据仓库的终结呢?数据湖仓是一个新的且开放的数据管理架构。它具备数据湖的灵活性、成本效益以及规模等特点,同时又将数据仓库的数据管理与 ACID 交易相结合。这样一来,就使得所有数据的商业智能和机器学习成为了可能。

2012 年,专家们在 World 宣称数据湖会杀死数据仓库。当时创业公司拒绝了 SQL,并且使用了某种东西,而 SQL 在当时显得有点逊色,其原因在今天看来是荒谬的。但这种死亡从未发生过。

2022 年,较新的概念与云计算以及融合工作负载的技术创新相互搭配,这种情况下是否会废止数据仓库呢?

时间会去证明所有的事情,然而这个领域的热度正在上升。我们预估在 2022 年将会有更多公开的对决发生。这个领域的其他初创企业,像是[具体企业 1]、[具体企业 2]以及[具体企业 3],它们最近都获得了大量的资金,从而将自身的估值推升到了 10 亿美元以上。

数据存储和仓库的演变



正如阿里-高德西所言,这不会是一个赢家通吃的市场。

我认为会非常成功,我认为会非常成功。在未来三到四年内,你还会看到其他的顶级公司出现,我对此很肯定。这是一个巨大的市场,很多人专注于追求它是有道理的。

Bill Inmon 一直被视为数据仓库之父。数据湖库提供了一个类似数据仓库市场早期的机会。数据湖库能够“把数据湖的数据科学重点与数据仓库的分析能力相结合”。

数据仓库VS数据湖VS数据湖馆 by

数据湖仓和数据仓库(以及数据湖)依然是一个正在持续的争论。数据架构的抉择最终自然而然地应该依据团队所应对的数据种类、数据的出处以及利益相关者将会怎样运用这些数据。

2022 年数据仓库与数据湖仓的争论在不断加剧。重要的一点在于,需要将炒作以及营销术语与现实区分开来。

03

实时计算和运营分析

Matt Turck 在他的 MAD 2021 中提到,感觉实时性一直是一种技术范式,且一直有即将爆发的态势。进入 2022 年后,我们所听到的权衡似乎仍在于成本和复杂性方面。若一个公司正在构建一个云数据仓库,且需要立即产生 4 至 6 周的影响,那么总体概念似乎依然是,这是实时流管线与批处理管线之间的比较。如果公司正处于数据旅程的起始阶段,那么这就是一种纯粹的过度纠正。

我们预计,随着实时领域技术的持续成熟以及云主机的不断发展,这种观念在未来几年内将会发生改变。有许多使用案例,像欺诈检测和动态定价,如果不进行实时处理,就很难获取到价值。

云服务提供商在不断改进其流媒体工具,以数据为主导的组织正朝着一个方向发展,那就是建立大规模流媒体平台。这一概念也是 Ali 所暗示的。

如果你没有实时的流处理系统,就必须处理这样的情况。数据每天都会抵达。我要把它放置在此处。我要将它添加到那边。那么,我该如何进行核对呢?倘若有些数据延迟了该怎么办?我需要连接两个表,但那个表不在这儿。所以,或许我会稍作等待,然后再重新运行一次。

在过去的 10 年中,Kafka 始终是一个稳固的流引擎。到了 2022 年,我们察觉到公司正越来越多地将目光投向云托管的引擎,像亚马逊的以及谷歌的 Pub/Sub。

僵尸仪表盘是一个很具体的例子,用以说明这种流/实时运动为何正在逐渐发生。在现代那些数据驱动的公司里,它们仿佛成了一个极为真实的存在。(《数据工程周刊》的创始人)在以下这篇文章中对这个问题进行了讨论。

许多公司认为,运营分析是它们迈向实时/近实时分析的一个不错的开端。就像 的合伙人 Bucky Moore 在其最近的文章(blog post)中所讨论的那样。

云数据仓库的设计是为了支持商业智能用例,它相当于进行大型查询,即扫描整个表并汇总结果。这对于历史数据分析是理想的选择,但对于“现在发生了什么?”这类查询,正变得越来越流行,以推动实时决策。这就是运营分析所指的内容。例如,有应用内的个性化、流失预测、库存预测和欺诈检测等方面。运营分析查询与商业智能不同,它会把许多不同的数据源连接起来,还需要实时进行数据摄取以及具备良好的查询性能,同时也必须有能力同时处理诸多查询。

2020 年就已被注意到,实时数据信息传递的成本以及流媒体管道的成本已经大幅下降,这为其主流使用铺平了道路。麦肯锡在一篇文章中预测,到 2025 年,新的和更普遍的技术将大大改变数据的生成、处理、分析以及终端用户的可视化。比如用于实时分析的 Kappa 或架构,这些技术会带来更快和更强大的洞察力。他们认为,云计算成本在不断下降,同时有更多强大的“内存”数据工具上线了,像 Redis 等。这样一来,即便面对最复杂的高级分析,也能够合理地将其提供给所有组织。

不能客观地讲,在 2022 年到来之后,流数据是否比批处理数据变得更为关键呢?因为这在不同的公司以及不同的用例之间存在着极大的差异。比如,Chris 设计了一个关于数据管道进展的层次结构。他觉得,数据驱动的组织在其管道的成熟度方面会经历这样的演变顺序。

数据管道成熟度的六个阶段 Chris

我们不做任何预测。有人认为,上述管道的成熟度进展是否会变得更加普遍呢?并且他们认为实时流管道几乎都是矫枉过正的。

然而,我们看到许多公司开始投资实时基础设施。他们之前是依据历史数据做决策,现在正转变为依据实时和历史数据做决策。这一趋势的良好体现是一些公司的爆炸性 IPO 以及像、和 Hudi 这样的新产品,这些产品能在数据湖上提供实时功能。

数据具有及时性,像从这种基于批量的周期性架构转变为更实时的架构,这种变化将成为一个越来越重要的竞争要素。因为每一个现代公司都在朝着成为一个数据公司的方向发展。我们预估这种情况在 2022 年将会进一步加快。

04

云市场的崛起



在数据基础设施领域,PLG 这一趋势已经延续了数年。基于使用的定价、开源以及软件的可负担性,促使购买决策倾向于终端用户。然而,从商业模式和产品的角度出发,相较于传统的销售主导市场模式,产品主导的增长以及基于使用的定价在软件方面的实施与执行可能会较为复杂。Azure 的云市场平台正在成为企业向未来数字销售发展的一步。

开发者工具公司,包括现代数据栈中的初创公司,部署不同级别的 PLG 动议(产品的免费/免费/免费试用版)已成为一种规范,与此同时,我们正经历着云市场的崛起,云市场成为现代数据团队采用新技术的首选渠道。这主要是因为它们能提供类似消费者的无摩擦购买体验,就像苹果应用商店或谷歌游戏商店那样。并且数据团队可以利用他们已承诺给云供应商的支出,通过云市场来采用新技术。

全球领先的云计算公司认为,云市场如今是进入市场的必备条件,而非一种选择。这些数字,包含已实现的和预测的,阐释了其中的缘由。

云市场呈现出爆炸性增长。这种增长主要是因为它们给现代数据团队带来了优势,同时也给数据基础设施技术供应商提供了优势。

云市场的双赢

最近发表的一项研究预测,到 2025 年,将近 80%的销售互动会通过数字渠道来进行。通过 GCP、AWS 或者 Azure 云市场来分发技术,正在成为现代数据团队的自然入口。像[具体现代数据栈公司 1]和[具体现代数据栈公司 2]这样的现代数据栈公司,已经凭借成为云市场的早期采用者而取得了成功。另外,像[其他早期采用云市场的公司 1]等公司,已经看到销售周期时间减少了将近 50%。

购买行为发生了彻底的改变,现代数据团队在其商业生活中期望获得消费者级别的体验。他们希望能够以低调且技术领先的方式去发现新的数据基础设施技术,能够试用这些技术,甚至能够购买这些技术。云市场正成为这些团队探索新技术的接入点,就如同苹果应用商店和谷歌游戏商店成为我们所有人探索新的日常服务和娱乐的接入点一样。

初创企业提供现代数据基础设施工具,能够从我们消费者的生活中学习到明显的模式和经验,借此消除摩擦,更有效地扩大销售,还能帮助数据团队更快地获得价值。

我们预计在 2022 年,云市场会成为现代数据团队采用现代数据栈技术的首选方式。因为云和新基础设施呈现出爆炸性增长的态势,围绕现代数据栈的相关概念已经大量出现。所以,云市场将成为自然的切入点,这是很合理的感觉。

05

数据栈术语的统一

在现代数据栈的背景下,数据质量空间从 2020 年的小众类别发展到过去 18 个月内完全爆发。2021 年,有 2 亿美元的资金流入该空间,这实在是令人难以置信。G2 在他们最近的“ What Is  in the Data  in 2022”这篇文章中指出,2022 年将会是数据质量占据主导地位。他们在 2021 年察觉到数据质量类别的流量大幅上升,这是一个不同寻常的趋势。

在现代云数据基础设施的大环境中,数据质量类别的兴起具有重要意义。数据质量是任何现代数据驱动型公司的基础,涵盖普通报告、商业智能、运营分析以及高级机器学习等方面。2022 年的《State of Data》调查显示,数据质量和验证是调查对象(主要是数据工程师)提及的首要挑战。调查对象中有 27%不确定他们的组织使用何种(若有)数据质量解决方案。在成熟度低的组织中,这一比例上升到了 39%。

然而,数据质量技术呈现出爆炸性增长的态势,这也带来了一些负面的影响。随着现代数据质量工具迅速地爆炸性增长,我们能够看到该领域的术语存在着很多不一致以及重叠的用法。作者指出,在数据质量领域的参与者创造了一些借用应用性能监控的术语。其中有“数据停机”(是对“应用停机”的戏称),还有“数据可靠性工程”(是对“站点可靠性工程”的戏称)。

现在有众多方法可用于描述重要但较为庞杂的过程,此过程可被定义为数据质量验证和监测。我们看到像数据可观察性、数据可靠性、数据可靠性工程、数据质量监控、数据的相关内容、实时数据质量监控、数据停机、未知数据故障、无声数据故障等术语被交替使用,且使用情况并不一致。

目前的状态下,现代数据栈中的多数数据质量工具都聚焦于监控管道的元数据,或者对仓库中的静态数据进行 SQL 查询。有些工具与不同层次的数据脉络相关联,还有些工具与根本原因分析相联系。

一个现在被定义为数据可观察性工具的软件,有的可能只专注于数据线,有的可能只专注于监测管道元数据。一个能够提供实时数据质量警报,然而却不支持监测实时流管道的工具,如今可能被定义为一个实时数据质量监测工具。一个仅对仓库中的数据进行 SQL 查询的工具或许会被界定为端到端的数据可靠性工具,而一个对管道元数据进行监控的工具或许会被界定为数据质量监控工具(反之情况也存在)。此名单在持续增加。当下存在诸多不一致之处,从而引发了市场与终端用户的混乱。

2020 年 MAD 格局里的数据质量类别,和 2021 年的格局进行比较,是由 Matt Turck 来进行的。

术语存在不一致性,这种不一致性超出了数据质量的范畴,并且扩展到了整个现代数据栈。

一个行业早期的有力指标之一是新术语的扩散,且这些术语的使用并不一致。比如,当有人提及电子商务平台或 CMS 平台时,我们多数人会想到诸如之类的内容,并且能对该工具在业务中的功能有清晰认知。但是,当你听到“运营分析”“数据湖”或“数据可观察性”这些术语时,一个在数据世界工作的人可能会难以清晰地说出它们的确切含义和/或所包含的内容。这通常与以下事实有直接关联,即许多术语是由一些公司创造出来的,这些公司利用特定的技术开拓了新的领域,并进行了分类创造。有趣的是,即便像“现代数据栈”这样最热门的数据术语,在数据世界里也没有一个统一的定义。而且,“数据网”和“数据结构”等术语也时常被用于描述新的数据架构。

实际用户将该技术分层到他们的堆栈,并且建立用例,随着这一过程的进行,该行业最终会帮助形成特定工具和架构模式的定义。

2022 年,现代数据栈和数据质量类别逐渐成熟。我们希望看到术语使用方式能够协调起来,并且保持一致。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|【远见汇智】 ( 京ICP备20013102号-17 )

GMT+8, 2025-5-5 09:52 , Processed in 0.066951 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表