【数据分析小兵】专注数据中台产品领域,覆盖开发套件,包含数据集成、数据建模、数据开发、数据服务、数据可视化、数据治理相关产品以及相关行业的技术方案的分享。对数据中台产品想要体验、做二次开发、关注方案资料、做技术交流的朋友们,可以关注我。
大数据时代,数字化转型浪潮下,数据中台、数据仓库、数据库、大数据平台、数据湖等新老概念满天飞,一个概念还没搞清楚又来一个新概念,数字化转型之路还没开始,在起点就先被各种概念搞昏了头。那么这些在大数据领域经常能看到或听到的概念,它们具体是什么?彼此之间是什么关系?又有什么区别与联系?别急,下面我们将从数据产品的发展历程出发,帮助您一文理清数据、大数据、数据库、数据仓库、数据集市、数据湖、大数据平台、数据中台等概念的定义、应用、区别与联系,这么全面的科普文章,一定要记得收藏哦!
随着数字经济蓬勃发展,数字化转型步伐不断加快,大数据技术的不断更新与迭代,数据技术加速创新融合应用,在数字化发展的不同阶段,数据管理工具历经了从数据库、数据仓库、数据集市与数据湖,再到大数据平台与如今的数据中台的发展历程。大数据平台、数据湖、数据仓库和数据中台都不是某一个数据库或者一种数据库,在每个发展阶段的数据产品并不是后一阶段简单的代替了前一阶段,也不是说必须要有固定的技术栈和实施路线。准确的讲,它们都有自己的功能、特点所在。
近年来,不断快速迭代的业务模式,急速膨胀的数据量,还有新的大数据、云原生、人工智能等技术发展和数字化转型加速的多重因素驱动下,数据产品实现了从数据库、数据仓库、数据集市与数据湖,再到大数据平台与如今的数据中台的发展,在发展过程中实现了技术的迭代与互补,让数据产品与业务场景耦合越来越深。
相信大家对各数据产品概念有了一个初步印象,下面就数据、大数据、数据库、数据仓库、数据集市、数据湖、大数据平台、数据中台等概念详细为大家进行介绍。
什么是数据?
在《数据库系统概论(第5版)》给出的定义是:数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。在计算机科学中,数据是所有能输入计算机并被计算机程序处理的符号的介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量等的通称。
什么是大数据?
麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
海量的数据规模(Volume),大数据所采集、存储和计算的数据规模都非常大,大数据量通常以TB、PB、甚至EB为单位计量。这些数据来自多个来源,包括传感器、社交媒体、日志文件等。
快速的数据流转(Velocity),大数据强调数据处理的实时性和时效性,大数据的生成速度非常快,需要实时或近实时地进行处理和分析。例如,金融交易数据、传感器数据等都需要及时响应和处理。
多样的数据类型(Variety),大数据的种类和来源多样化,不仅包含结构化数据(如表格数据),还包括非结构化数据(如文本、图像、音频等)。
较低的价值密度(Value),大数据的价值密度相对较低,数据的价值密度和数据的规模呈反相关,数据的规模越大,数据的价值密度越低。
我们再往深处思考一下,为什么需要大数据(大数据技术)?在这个数据爆炸增长的时代,大数据就是在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据最大的价值即在于从大量低价值密度数据中挖掘出对分析和预测等有价值的信息。
数据分析可以分为广义的数据分析和狭义的数据分析。广义的数据分析就包括狭义的数据分析和数据挖掘。我们在工作中经常常说的数据分析指的是狭义的数据分析。
简单来说就像冰箱是存放食物的地方一样,数据库是存放数据的地方。数据库是按照数据结构来组织、存储和管理数据的仓库,是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。一般而言,我们所说的数据库指的是数据库管理系统,并不单指一个数据库实例。数据库管理系统一般分为“关系型数据库”与“非关系型数据库”。
关系型数据库
过去数据库一共有三种模型,即层次模型,网状模型,关系模型。
(1)首先层次模型的数据结构为树状结构,即是一种上下级的层级关系组织数据的一种方式:
(2)网状模型的数据结构为网状结构,即将每个数据节点与其他很多节点都连接起来:
(3)关系模型的数据结构可以看做是一个二维表格,任何数据都可以通过行号与列号来唯一确定:
相比于层次模型和网状模型,关系模型理解和使用最简单,最终基于关系型数据库在各行各业应用了起来。常用的关系型数据库有Oracle,MySQL,DB2,Microsoft SQL Sever等。
非关系型数据库
非关系型数据库是以对象为单位的数据结构,非关系型数据库通常指数据以对象的形式存储在数据库中,而对象之间的关系通过每个对象自身的属性来决定。简单来说非关系型数据库与传统的关系型数据库的区别在于非关系型数据库主要存储没有固定格式的超大规模数据,例如键值对型,文档型,列存储类数据,常见的非关系型数据库有Hbase,Redis,MongoDB,Neo4j等
随着时间的发展,各个业务系统会源源不断的产生数据,一般这些数据会存储在数据库中,但是当业务系统运行超过一定时间后,积压的数据会越来越多,这些数据增加了数据库的负载,拖慢了运行速度。积压的数据大部分是调用频率低的冷数据,为了避免冷数据与历史数据收集影响数据库正常运行,需要定期将冷数据从数据库中转移出来存储到一个专门存放历史数据的仓库里面,后续根据需要在这个仓库进行数据抽取,也就是数据仓库。
数据仓库诞生于 1990 年,是一个相对具体的功能概念,见名知意,其实就是存储数据的仓库,数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用于支持管理决策和信息的全局共享。其主要功能是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,分析出有价值的资讯。
面向主题(Subject Oriented):用户使用数据仓库进行决策时所关心的重点方面,如:收入、客户、销售渠道等;所谓面向主题,是指数据仓库内的信息是按主题进行组织的,而不是像业务支撑系统那样是按照业务功能进行组织的。
集成(Integrated):数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理将各种数据源的数据按照统一的标准集成于数据仓库中,因此数据仓库中的信息是关于整个企业的一致的全局信息。
相对稳定(Non-Volatile):数据仓库的数据是一系列的历史快照,主要为决策者分析提供数据,一般仅允许查询,不允许修改删除,数据仓库的数据仅定期需要由业务数据库转移,加载,刷新。
反映历史变化(Time Variant):数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
数据集市(Data Mart),也叫数据市场,就是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。所以数据集市的特点在于结构清晰,针对性强且扩展性良好,由于仅仅对某一个领域建立,容易维护修改。
从范围上来说,数据集市的数据是从数据库,或者是更加专业的数据仓库中抽取出来的。数据集市分为从属的数据集市与独立的数据集市:
独立型数据集市:数据来自于操作型数据库,是为了满足特殊用户而建立的一种分析型环境。开发周期一般较短,具有灵活性,但是因为脱离了数据仓库,独立建立的数据集市可能会导致信息孤岛的存在,不能以全局的视角去分析数据。
从属型数据集市:数据来自于企业的数据仓库,这样会导致开发周期的延长,但是从属型数据集市在体系结构上比独立型数据集市更稳定,可以提高数据分析的质量,保证数据的一致性。
目前许多企业都在构建或者计划构建自己的数据湖,各方对数据湖都有自己的理解与定义。
1
Wikipedia
数据湖是一类存储数据自然/原始格式的系统或存储,通常是对象块或者文件。数据湖通常是企业中全量数据的单一存储。全量数据包括原始系统所产生的原始数据拷贝以及为了各类任务而产生的转换数据,各类任务包括报表、可视化、高级分析和机器学习。数据湖中包括来自于关系型数据库中的结构化数据(行和列)、半结构化数据(如CSV、日志、XML、JSON)、非结构化数据(如email、文档、PDF等)和二进制数据(如图像、音频、视频)。数据沼泽是一种退化的、缺乏管理的数据湖,数据沼泽对于用户来说要么是不可访问的要么就是无法提供足够的价值。
亚马逊AWS
数据湖是一个集中式存储库,允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对数据进行结构化处理),并运行不同类型的分析 – 从控制面板和可视化到大数据处理、实时分析和机器学习,以指导做出更好的决策。
微软
数据湖包括一切使得开发者、数据科学家、分析师能更简单的存储、处理数据的能力,这些能力使得用户可以存储任意规模、任意类型、任意产生速度的数据,并且可以跨平台、跨语言的做所有类型的分析和处理。数据湖在能帮助用户加速应用数据的同时,消除了数据采集和存储的复杂性,同时也能支持批处理、流式计算、交互式分析等。数据湖能同现有的数据管理和治理的IT投资一起工作,保证数据的一致、可管理和安全。它也能同现有的业务数据库和数据仓库无缝集成,帮助扩展现有的数据应用。
数据湖的特性
关于数据湖的定义其实很多,但是基本上都围绕着以下几个特性展开。
数据湖需要提供足够用的数据存储能力,这个存储保存了一个企业/组织中的所有数据。
数据湖可以存储海量的任意类型的数据,包括结构化、半结构化和非结构化数据。
数据湖中的数据是原始数据,是业务数据的完整副本。数据湖中的数据保持了他们在业务系统中原来的样子。
数据湖需要具备完善的数据管理能力(完善的元数据),可以管理各类数据相关的要素,包括数据源、数据格式、连接信息、数据schema、权限管理等。
数据湖需要具备多样化的分析能力,包括但不限于批处理、流式计算、交互式分析以及机器学习;同时,还需要提供一定的任务调度和管理能力。
数据湖需要具备完善的数据生命周期管理能力。不光需要存储原始数据,还需要能够保存各类分析处理的中间结果,并完整的记录数据的分析处理过程,能帮助用户完整详细追溯任意一条数据的产生过程。
数据湖需要具备完善的数据获取和数据发布能力。数据湖需要能支撑各种各样的数据源,并能从相关的数据源中获取全量/增量数据;然后规范存储。数据湖能将数据分析处理的结果推送到合适的存储引擎中,满足不同的应用访问需求。
对于大数据的支持,包括超大规模存储以及可扩展的大规模数据处理能力。
大数据平台是一个集数据接入、数据处理、数据存储、查询检索、分析挖掘等、应用接口等功能为一体的平台。最典型的是基于Hadoop生态构建的大数据框架,Hadoop生态的相关产品包括Spark、Flink、Flume、Kafka、Hive、Hbase等等等经典开源产品。国内绝大部分公司的大数据平台都是基于Apache和Cloudera这两个分支Hadoop生态技术的产品进行商业化包装和改进。例如:阿里云EMR、腾讯TBDS、华为FusionInsight、新华三DataEngine、浪潮Insight HD、中兴DAP等产品。
大数据平台当然也不局限于某一个大数据框架,可以根据实际业务需求去选择合适的技术组件进行整合,是一个物理存在的平台,为数据仓库、数据湖、数据中台的构建提供基础支撑。
阿里巴巴于2017年云栖大会正式对外提出数据中台概念,数据中台的出现,就是为了弥补数据开发和应用开发之间,由于开发速度不匹配,出现的响应力跟不上的问题。狭义来看,数据中台是一套实现数据资产化和服务复用的工具,是数据采集交换、共享融合、组织处理、建模分析、管理治理和服务应用于一体的综合性数据能力平台,在大数据生态中处于承上启下的功能,提供面向数据应用支撑的底座能力。广义来看数据中台是一套可持续“让企业的数据用起来”的机制,一种战略选择和组织形式,是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑构建一套持续不断把数据变成资产并服务于业务的机制。
序号
定义
定义出处
1
中台就是“企业级能力复用平台”。
《白话中台战略-3:中台的定义》
2
中台通过集合整个集团的运营数据能力、产品技术能力、来对各前台业务形成强力支撑。
《大型集团性企业的中台战略-阿里的中台战略其实是一个伪命题》
3
中台是一种需求分析的方法论,一套能力接入标准、一套运作机制,集中配置、分布执行的控制台。
《中台如何助力标准化业务?中台关键要快!》
4
“中台”是强调资源整合、能力沉淀的平台体系,为“前台”的业务开展提供底层的技术、数据等资源和能力的支持。
《大中台、小前台》
5
中台是局域前台和后台之间、位于基础架构和各产品线间的业务架构。
《阿里巴巴中台战略思想与架构实践》
6
数据中台是将各个业务板块多年来积累的数据,按业务特征进行横向关联和统一,按数据用途进行纵向分层,最终沉淀为公共的数据服务能力。
《传统企业数据中台的建设与思考》
7
数据中通的实质还是组件化、模块化,是设计模式与业务端的应用。
袋鼠云《浅析数据中台策略与建设实践》
数据中台逻辑架构
数据中台产业链生态图谱
在大数据技术发展和企业数字化转型加速的双重驱动下,数据中台在多场景快速落地。从厂商类型来看,阿里云、华为云、腾讯云、亚马逊云等平台生态厂商,用友、金蝶、新华三、浪潮、明略科技、星环科技等解决方案厂商,网易数帆、数澜科技、云徒科技等独立中台厂商以及滴滴、美团等自研厂商的边界开始模糊,数智服务的生态协同明显。
数据库与数据仓库的区别与联系
解释数据库与数据仓库的区别,这里引入两个名词OLTP(On-Line Transaction Processing,联机事务处理)与OLAP(On-Line Analytical Processing,联机分析处理)。数据库是为了解决OLTP而存在的,而数据仓库是为了分析数据而存在的。严格来讲数据仓库不是一门技术,也不是一个产品,数据仓库涉及数据建模,数据抽取ETL,数据可视化等一系列的流程,是一种数据解决方案,通常需要多种技术进行组合使用。
数据库的数据是数据仓库的数据源,即将数据库的数据加载至数据仓库,数据仓库的本质是OLAP,即是做在线分析处理,这是与数据库的本质区别。对于一个业务系统而言,数据库是必须的,数据仓库并不是必须的,只有在业务稳定运转的情况下,才会去构建企业级数据仓库,通过数据分析,数据挖掘来辅助业务决策,实现锦上添花。
数据仓库与数据集市的区别与联系
数据仓库和数据集市在规模、数据处理的速度和复杂性、以及数据的范围方面存在明显的差异,数据仓库是一个大型的、集中的、一体化的数据存储系统,用于存储和处理来自多个源的数据。数据仓库的目标是支持企业的决策制定和战略执行。而数据集市,则是一个更小型的、针对特定业务部门或主题的数据存储系统。而且,两者的构建和使用方式也有所不同,数据仓库通常由企业级的技术团队进行构建和维护,数据集市则更多地依赖于特定的业务部门或主题专家。
数据湖与数据仓库的区别与联系
数据仓库和数据湖的重大区别是:数据仓库中数据在进入仓库之前需要是事先归类,以便于未来的分析。数据仓库是高度结构化的架构,数据在转换之前是无法加载到数据仓库的,用户可以直接获得分析数据。而在数据湖中,数据直接加载到数据湖中,然后根据分析的需要再转换数据,数据湖拥有强大的信息处理能力和处理几乎无限的并发任务或工作的能力。
从产品形态上来说,数据仓库往往是独立标准化的产品,数据湖更像是一种架构指导,是一套产品组合的解决方案——需要配合一系列的周边工具,来实现业务需要的数据湖。
数据中台与数据仓库的区别与联系
数据中台、数据平台、数据仓库和数据湖的区别与联系
数据中台、数据平台、数据仓库和数据湖在某个维度上为业务产生价值的形式有不同的侧重,总的来说:
数据中台是企业级的逻辑概念,体现企业数据向业务价值转化的能力,距离业务更近,能够更快速的响应业务和应用开发需求,从而为业务提供速度更快的服务。
数据平台是在大数据基础上出现的融合了结构化和非结构化数据的数据基础平台,为业务提供服务的方式主要是直接提供数据集。
数据仓库是一个相对具体的功能概念,是存储和管理一个或多个主题数据的集合。