168大数据

标题: 从MPP数仓迁移至Spark:案例与最佳实践分享 [打印本页]

作者: 168主编    时间: 2019-5-15 17:57
标题: 从MPP数仓迁移至Spark:案例与最佳实践分享
本文资料来自2019-03-24在上海举办的 Hadoop+Spark生态技术开放日。

分享者:孙爱旭和朱立鹏,ebay高级数据工程师。Apache Spark 以及 Apache Chukwa 的 Committer,Apache Livy PMC。
本次主要分享关于迁移实际案例与最佳实践更加深入的探讨。在迁移过程中,我们遇到了很多的预料之外的问题,如字符集问题,数字进位问题,各种OOM等等,更加深入地了解了Spark和RDMBS之间的差异。在弥补鸿沟和解决问题的过程中,我们做了很多的实践,贡献给了社区很多的反馈,也解决了很多的bug。即便对于Spark当前不能处理的场景,比如recurisve query,也有了一些可行的探索。此外,我们现在还开发了一套自动化框架来帮助加速迁移工作。在这次分享中,我们会深入迁移的关键步骤,并分享踩过的一些坑,最后会介绍我们的自动化工具,如SQL Converter等。相信对正工作在类似的任务或者即将开展类似工作的工程师们会有所帮助。






欢迎光临 168大数据 (http://bi168.cn/) Powered by Discuz! X3.2