基于 Tablestore 的大数据分析 Lambda 架构

  • 时间:
  • 浏览:3
  • 来源:大发PK10APP下载_大发PK10APP官方

随着除理数据量,除理实时性的变化,物理硬件除理能力的升级,大数据架构演进是非常越快的。随着业务数据逐步上云后,大数据除理平台也必然会迁移至云上,相比 TP 类业务,AP 类场景的业务峰值,除理数据带宽由于会更大。亲戚亲戚亲们希望合理的云上大数据架构都要借助存储计算分离,在可控的成本下提供更弹性的数据除理能力,除理各业务在大促到来所遇到的挑战。也让大数据平台的研发人员彻底从基础运维中释放出来,都要全身心的投入满足业务对数据分析平台的需求。由于有兴趣的同学欢迎与亲戚亲戚亲们交流探讨(钉钉交流群:233007953)。



基于 Tablestore 的酒店选品实时推荐架构

Tablestore 是一款 Serverless 云原生存储引擎,Serverless 相比实例售卖类型的产品,在业务有波峰波谷时天生完全都是较大的优势,基于 bigTable 的主存储采用行的方式进行存储,都要支撑单表亿级别的QPS。下面列了一些 Tablestore的核心形态:



Tablestore 除了有强大的主存储满足海量业务的实时读写外,基于主存储的分布式日志提供了完全的数据派生能力(详情参考),海量实时写入 Tablestore 的数据,都要实时订阅进行消费。没了 就满足了亲戚亲戚亲们的实时计算需求。

Lambda 架构中除了实时数据写入,实时计算然后,全量数据都要提供高性能扫描能力,Tablestore 采用行列混合,双引擎的架构,在主存储之外内部管理通过通道服务实时构建一个 列存储,支撑 PB 级别数据的高吞吐扫描。并肩在海量的数据场景下,亲戚亲戚亲们相信数据是都要分层存储,一些在构建自身列存的并肩,亲戚亲戚亲们会帮助用户构建推送云上数据湖的链路,通过全托管的数据湖投递,降低用户的存储成本。



基于 Tablestore 的 Lambda 架构

Tablestore 在专注于打造一款极致性能和成本的存储引擎并肩,更加关注完全的计算生态,伴随产品核心功能迭代的过程中,亲戚亲戚亲们和阿里云的几大核心计算引擎做了完善的对接具体包括:

海量爬虫高并发高吞吐数据写入,全量数据存储,数据量达 PB 级,多类数据存储,中有 半形态化原始数据、形态化标签数据以及分析结果数据,数据写入后都要即时触发数据实时除理,后续都要对接离线除理。

在开始英文英文介绍云上大数据架构然后,亲戚亲戚亲们再看下,双十一大促下都要的大数据架构会对存储提出什么具体的要求呢:

商家会实时的更新酒店房型库存和报价,酒店的属性等字段。实时选品过程针对同一个 酒店不同供应商的库存和报价进行计算和筛选,最终展示出有库存且按照报价质量排序的列表给平台用户,进行酒店搜索的结果返回

资源成本

海量的机器,业务监控秒级别数据,实时千万级别每秒写入流量,写入 Tablestore 数据实时查询和展示。跨时间的实时聚合,形成分钟级别数据。关键指标的实时聚合和展示,离线批计算提供报表分析能力。



基于 Tablestore 时序监控大屏场景

计算的结果集合都要提供充沛灵活的高并发查询,支撑用户生成实时大屏,报表的场景,Tablestore 通过主存储结合充沛的索引能力以及 MPP 类型计算引擎来实现。



Tablestore Lambda架构结果集合存储和报表展示

对 Tablestore 大数据架构感兴趣的同学都要参考然后的一些架构文章:

高吞吐,高可用的大数据架构并肩满足弹性和低成本

Tablestore 启发自 Google 的 Bigtable 论文,从30009年开始英文英文,在阿里云的飞天团队内,开始英文英文萌发。经过10年的锤炼,如今在集团内,云上积累了各式各样的客户和场景。这篇文章亲戚亲戚亲们就来介绍下 Tablestore 大数据场景下的架构和用户场景案例。看看自研的分布式存储平台何如通过贴身理解客户场景,带来大数据架构的简化和升级,并助力业务方最终快速落地亲戚亲们的需求。

生态完善

数据的产生是多式多样,亲戚亲戚亲们根据需求会选折 不同的存储产品来存放什么数据,同类于订单数据,用户信息数据亲戚亲戚亲们会选折 一款 OLTP 数据库,日志数据会选折 SLS 日志服务,由于自建 ELK 的方案。又有一些数据亲戚亲戚亲们希望做实时的 计算,一些在 ETL 后在进行长期存储,这时会把数据双写到 Kafka,利用 Kafka 流式对接计算引擎的能力实现里面的需求。一些非形态化数据又会使用 HDFS/OSS 来进行长期存储。什么数据从存储到都要给计算引擎分析都要经过很长的链路。同类于由于你选折 了一款 OLTP 数据库,你希望进行实时计算由于定期批量计算。考虑到除理影响 TP 在线业务,通常亲戚亲戚亲们会把数据实时由于定期投递出来,进入 Kafka/AP 数据库再分别实现实时计算和批计算。投递的过程由于会涉及到一些模块,同类于 DTS,Kafka,Spark 批计算,Spark Streaming,AP 数据仓库。搭建一整套大数据架构(同类于下图的典型大数据 Lambda 架构),不论是对数据库的研发同学,还是运维同学都带来了较高的门槛。模块多了然后,不论是维护成本还是开发成本时会相应提高。并肩各个模块的存储,计算资源由于并不可否很好的共享,比如写入峰值到来的然后,由于亲戚亲戚亲们的批计算需求并不大,一些此时批计算的集群资源先要直接让实时写入层共享。反过来也一样,批计算的峰值,Kafka的资源,ETL的资源又并不都要给批计算共享。那有没了方式除理什么难题?降低大数据架构的接入门槛,使用成本,提升开发带宽,资源利用率呢?亲戚亲戚亲们下一章来说。



典型的大数据 Lambda 架构



基于 Tablestore 的爬虫大数据架构

介绍完 Tablestore 形态化大数据存储引擎的基础能力后,来看看具体的一些双十一集团业务架构: