讲师:Feng Cheng(Grab), Edwin Law(Grab)
11:15–11:55 Friday, 2017-07-14
数据工程和架构 (Data engineering and architecture)
英文讲话
地点: 紫金大厅B
观众水平:Non-technical
必要预备知识
A basic understanding of ride-hailing platforms, distributed computing, SQL on Hadoop, Spark, and stream processing
您将学到什么
Understand how Grab improved the performance, reliability and availability of its data infrastructure, migrated from Redshift to Presto and managed to reduce query running time from 30 minutes to 5 minutes with only 20% of the cost, and build a real-time big data platform with Spark Streaming and key-value storage
描述
在东南亚,Grab位于数字与物理世界的交汇处。我们的愿景是推动东南亚交通运输的前行,并变革本地区的移动互联网生态系统。Grab带领着超过60万的司机,他们的任务就是提升东南亚各家的6亿2千万用户的出行体验和推进经济增长。这个单纯的商业计划给了我们一个巨大的机遇来使用数据从根本上完善这个过程。
大体上,Grab的目标是创建和维护一个数据驱动的文化,使用数据来解决整个公司里最困难的问题。数据工程团队的责任是搭建一个可靠的供全公司共享的数据分析平台。因此,我们在帮助不同的团队从P字节规模的数据仓库/数据湖里来发现产品和消费者的洞察时扮演了一个重要的角色。他们的应用案例包括随机查询(订单和日志等)、分析用户体验以及训练机器学习模型等。
在本议题里,Cheng Feng将介绍Grab在把它的后端办公应用进行扩展时面临的一些挑战,以及我们是如何应对这一需求的。他还会分享一些架构轨迹从Redshift变为EMR+S3的历史。在早期,Redshift是一个简单且高费效比的分析我们数据的解决方案。但随着近年来我们数据量的爆炸性增长,它就变的很贵且慢了。因此我们决定对架构做出重大改变。我们用AWS的EMR+S3做为我们的数据仓库。这一架构让我们能把计算层和数据存储层分离。也可以让多个集群共享同样的S3上的数据,而且集群可以是长时运行的,或出于灵活性的考虑而仅是临时存在的。我们的用户通常是编写Spark或是Presto的任务来进行ETL和数据分析。
主题包括:
Grad的分析基础设施
Redshift和数据湖的对比
Presto:背景和场景
EMR上的Presto
Grab使用Spark Streaming的应用案例
讲师介绍:
Feng Cheng (Grab)
Cheng Feng is a data engineer at Grab, where he works on the big data platform, distributed computing, streaming processing, and data science. Previously, he was a data scientist at the Lazada Group, working on Lazada’s tracker, customer segmentation and recommendation systems, and fraud detection.
Edwin Law (Grab)
Edwin Law was the third person and first engineer on the Data team at Grab (formerly MyTeksi and Grab Taxi), which encompasses data engineering, data science, and data analytics. Edwin leads the almost-15-member-strong Data Engineering and Database Operations teams as their engineering manager.
Strata Data Conference北京站正在报名中,点击阅读原文可登录会议网站。
注意:早期票价优惠期截止到6月9日,尽快注册以确保留位。
我来说两句排行榜