最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

[理论框架] 易观:避免“数据湖”成为“数据沼泽”,流动的“数据河”是关键

[复制链接]
跳转到指定楼层
楼主
发表于 2018-10-3 11:22:58 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
数据湖(Data Lake)在Wiki中定义如下:
简而言之,数据湖是按存储原始数据格式的数据存储,旨在任何数据可以以最原始的形态储存,可是结构化或者非结构化数据,以确保数据在使用时可以不丢失任何细节,一般以hadoop系统存储为比较典型的解决方案,所有的实时数据和批量数据,都汇总到数据湖当中,然后从湖中取相关数据用于机器学习或者数据分析。一个典型数据湖的结构如下图所示:
图1:数据湖存储着企业各种各样的数据
(感谢杨欣元同学的配图)
数据湖的概念被企业中广泛用于大数据平台的存储与使用,替代了原有数据仓库体系当中的ODS(operational data store)存储企业中各种各样的数据。在易观,SDK的月活达到5.9亿,当易观的数据湖达到6.8Pb都无法存储半年数据的时候我意识到这个问题:
“这样真的是对的么?数据一味的堆积,等待被使用时才调用? ”
企业的业务是实时在变化的,这代表着沉积在数据湖中的数据定义、数据格式实时都在发生的转变,企业的大型数据湖对企业数据治理(Data Governance)提升了更高的要求。大部分使用数据湖的企业在数据真的需要使用的时候,往往因为数据湖中的数据质量太差而无法最终使用。数据湖,被企业当成一个大数据的垃圾桶,最终数据湖成为臭气熏天,存储在Hadoop当中的数据成为无人可以清理的数据沼泽,最终以为TCO(Total cost of ownship)过高而被企业所抛弃。
图2:缺乏数据治理的数据湖会成为数据沼泽
这个时候我意识到:
“大数据,不被有效使用就会成为大垃圾。”
如何让大数据的水保持清亮不会成为数据沼泽?中国有句谚语:“流水不腐,户枢不蠹”。数据只有流动起来,才可以不成为数据沼泽,湖泊只是暂存数据河流的基地。数据流动就意味着所有的数据产生,最终要有它的耕种者和使用者。要让数据有效流动起来,就要建立有效的“数据河”(Data River)。
“什么是数据河?”
数据河(Data River)就是在由源头产生清晰干净的有效数据(去ETL化,数据源头业务就像生态水源一样,不让污水流下去),通过各个河流网,流向各个数据消费端的架构。
数据河的特点如下:
•   源头有效:根据大数据IOTA架构,数据河在产生的源头就需要加工为有效的CDM数据(Common Data Model),参见文章《Lambda架构已死,去ETL化的IOTA才是未来》,数据通过数据耕种方和使用方直接在数据产生源头通过Edge SDK 进行清洗。
•   全局唯一:多条数据河的差别在于CDM模型的不同,而不是使用者的使用方法不同,避免同样数据源被多次加工失去数据唯一性。
•   高低流向:数据河一定是要有高低流向,即每条河流都需要有确定的使用者,而不是漫无目的的洪水,数据源头的质量是通过环境治理由使用者定义的,而不是由产生者,产生者只关注数据是真实即可。
•   湖中暂存:数据河一定是基于IOTA架构的实时数据,在CDM模型的支持下,实时流向使用者。数据河在数据湖中只是暂存,一定会流向其他河流和分支,而不会沉积在数据湖中,否则会产生数据淤泥,最终成为数据沼泽。
最终一个企业内部由多条河流组成一个公司内部的数据生态(Enterprise Data Eco System ):
图3:由数据河组成的公司数据生态
•   数据源头(Data Source):数据产生者,确保产生的数据都是真实数据,像冰川雪水一样确保数据真实性。通过边缘计算,变为IOTA架构当中的CDM模型,确保CDM全局唯一,不用管数据业务统计的计算逻辑。
•   数据河(Data River):有全局CDM模型唯一定义的,由数据源头流向数据消费者的数据架构,可以使用大数据IOTA架构或者其他类似的去实时数据处理架构。
•   数据消费者(Data Cosumer):数据消费方,拿到原始真实的数据,根据自己的业务逻辑,实时计算为自己所需要的结果或者根据数据实时驱动自己的业务。(整体是去ETL化的,参考Lambda架构已死,去ETL化的IOTA才是未来)
•   数据三角洲(Data Delta):多条数据河交汇使用的地方,需要数据耕种者(Data Cultivators)把两个不同的CDM模型(例如用户行为数据的CDM与商品库存数据的CDM),实时合并,提供给数据消费者实时驱动自己的业务。一般,三角洲的河流交汇越多,这个三角洲的土壤更加肥沃。数据三角洲的耕种,可以通过AI或者机器学习会产生新的数据源,在新的CDM模型和使用者的支撑下可以是新的数据源头(Data Source)。
•   数据湖(Data Lake):在河流交汇或者河水需要暂存下来的时候,这是根据数据耕种者的需要,其中的数据一定是要继续流动的,而不是死水,即数据在数据湖中暂存时间是有限的,例如3个月或者6个月,最终在数据消费者这里才是永久保留。
这个模式比较典型的一个实现就是易观方舟,易观方舟以IOTA架构安装到企业内部,帮助企业建立用户行为分析这个CDM的数据河,以“主、谓、宾”的模式打通企业内部用户的各种行为,直接提供给产品和运营做相关的数据分析,同时也是一个PaaS平台,可以供给给其他数据耕种者继续再次加工。
数据河是数据驱动中台的最终架构,只有让数据流动起来不断消费才可以让数据不断的自我更新迭代数据质量,不断自我加强才可以实现数据驱动业务。
数据,只有流动起来才可以产生价值。宁要IOTA架构下的数据河,不要Lambda架构下的数据湖。
来源:易观

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-6-18 20:30

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表