会员中心     
首页 > 资料专栏 > IT > IT技术 > 数据存储 > 前因后果_为什么说数据中台是大数据的下_站PDF

前因后果_为什么说数据中台是大数据的下_站PDF

努力年代
V 实名认证
内容提供者
热门搜索
大数据
资料大小:3908KB(压缩后)
文档格式:PDF(18页)
资料语言:中文版/英文版/日文版
解压密码:m448
更新时间:2024/5/26(发布于内蒙古)

类型:积分资料
积分:10分 (VIP无积分限制)
推荐:免费申请

   点此下载 ==>> 点击下载文档


“前因后果_为什么说数据中台是大数据的下_站PDF”第1页图片 图片预览结束,如需查阅完整内容,请下载文档!
文本描述
加微信:642945106 发送“赠送”领取赠送精品课程 发数字“2”获取众筹列表   下载APP 01 | 前因后果:为什么说数据中台是大数据的下一站? 2020-03-30 郭忆 数据中台实战课 进入课程  讲述:郭忆  时长 21:07大小 19.35M 你好,我是郭忆。 “数据中台”无疑是今年大数据圈最火的词,如果你关注数据相关的行业会议,但凡有数据 中台相关的主题,人员都会爆满。去年 5 月,我作为演讲嘉宾参加了由 ITPUB 主办的中国 数据库大会,一个 100 人的“数据中台”场次,最后涌进来 200 多人,前排地下、走廊、 过道到处都挤满了人,还有很多人因为挤不进来在外面看直播,数据中台的火爆程度可见一 斑。  除了支撑集团的大数据建设,我的团队还提供 To B 的企业服务,因此我也有机会接触到一 些正在做数字化转型的传统企业。从 2018 年末开始,原先市场上各种关于大数据平台的招 标突然不见了,取而代之的是数据中台项目,建设数据中台俨然成为传统企业数字化转型的 首选,甚至不少大数据领域的专家都认为,数据中台是大数据的下一站。 那么为什么数据中台被认为是大数据的下一站呢?它与你之前遇到的数据仓库、数据湖、大 数据平台又有什么区别? 今天这节课,我想带着这个问题,与你深入大数据的发展历史,先从数据仓库的出现讲起, 途径数据湖,再到大数据平台,因为这样,你才能理解大数据发展的每个阶段遇到的问题, 从而深入理解数据中台在大数据发展中的历史定位。 启蒙时代:数据仓库的出现 商业智能(Business Intelligence)诞生在上个世纪 90 年代,它是将企业已有的数据转化 为知识,帮助企业做出经营分析决策。比如在零售行业的门店管理中,如何使得单个门店的 利润最大化,我们就需要分析每个商品的销售数据和库存信息,为每个商品制定合理的销售 采购计划,有的商品存在滞销,应该降价促销,有的商品比较畅销,需要根据对未来销售数 据的预测,进行提前采购,这些都离不开大量的数据分析。 而数据分析需要聚合多个业务系统的数据,比如需要集成交易系统的数据,需要集成仓储系 统的数据等等,同时需要保存历史数据,进行大数据量的范围查询。传统数据库面向单一业 务系统,主要实现的是面向事务的增删改查,已经不能满足数据分析的场景,这促使数据仓 库概念的出现。 在 1991 年出版的《Building the Data Warehouse》中,数据仓库之父比尔·恩门(Bill Inmon)首次给出了数据仓库的完整定义,他认为: 数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的,不可修改的数据 集合。 为了帮你理解数据仓库的四要素,我举个电商的例子。 在电商场景中,有一个数据库专门存放订单的数据,另外一个数据库存放会员相关的数据。 构建数据仓库,首先要把不同业务系统的数据同步到一个统一的数据仓库中,然后按照主题 域方式组织数据。 主题域是业务过程的一个高层次的抽象,像商品、交易、用户、流量都能作为一个主题域, 你可以把它理解为数据仓库的一个目录。数据仓库中的数据一般是按照时间进行分区存放, 一般会保留 5 年以上,每个时间分区内的数据都是追加写的方式,对于某条记录是不可更 新的。 除了这个概念之外,我还要提一下他和金博尔(Kimball) 共同开创的数仓建模的设计方 法,这个方法对于后来基于数据湖的现代数据仓库的设计有重要的意义,所以你有必要了 解。 恩门提出的建模方法自顶向下(这里的顶是指数据的来源,在传统数据仓库中,就是各个业 务数据库),基于业务中各个实体以及实体之间的关系,构建数据仓库。 比如,在一个最简单的买家购买商品的场景中,按照恩门建模的思维模式,首先你要理清这 个业务过程中涉及哪些实体。买家、商品是一个实体,买家购买商品是一个关系。所以,模 型设计应该有买家表,商品表,和买家商品交易表三个模型。 买家表 商品表 买家商品交易表 金博尔建模与恩门正好相反,是一种自底向上的模型设计方法,从数据分析的需求出发,拆 分维度和事实。那么用户、商品就是维度,库存、用户账户余额是事实。 用户维度表 商品维度表 账户余额事实表 商品库存事实表 这两种方法各有优劣,恩门建模因为是从数据源开始构建,构建成本比较高,适用于应用场 景比较固定的业务,比如金融领域,冗余数据少是它的优势。金博尔建模由于是从分析场景