促促促,如何确保系统扛得住 | 《尽在双11》抢鲜预览

  • 时间:
  • 浏览:5
  • 来源:uu快3官方网站_uu快3苹果版_走势

  双11是一场“剁手党”的狂欢,零点的峰值流量是平时高峰的几百倍,每秒几百万次的请求怎样构造同样成为大问題。我想要们尝试通过浏览器引擎不可能 其他开源压测工具的方法来模拟用户请求,经过实际测试,要制作出双11规模的用户流量,浏览器引擎和开源压测工具需要准备几十万台服务器的规模,成本是无法接受的,已经 在集群控制、请求定制上居于不少限制。既然越来越 现成的工具都可不还能能使用,我想要们只好挑选当时人研发一套全链路压测流量平台,如下图所示。

       

                       全链路压测流量平台

                       

  全链路压测的流量平台是一还还有一个 典型的Master+Slave底部形态:Master作为压测管控台管理着上千个Slave节点;Slave节点作为压测引擎,负责具体的请求发送。Master作为整个压测平台的大脑,负责整个平台的运转控制、命令发送、数据架构设计 、决策等。Slave节点部署在全球各地的CDN节点上,从而模拟从全球各地过来的用户请求。整套全链路压测的流量平台在压测过程中平稳输出11150多万/秒的用户请求,同時 保持过亿的移动端用户长连接。

  2016年在三地五单元混合云部署架构下,电商一半以上的资源部署在云上。在庞大的电商系统背景下,怎样都都可不还能能在最短的时间内完成一还还有一个 单元的搭建和容量准备成为摆在我想要们身前的一道问題,而全靠“经验之谈”和人工介入是越来越多可能 完成的任务。2016年初,“大促容量弹性交付产品”立项,旨在减少甚至释放活动场景的容量交付中的人工投入,并将大促容量交付的运维能力沉淀到系统中,使全链路容量具备“自动化”调整的能力。我想要们提出了大促自动化备战的想法,将大促容量准备的各个环节进行系统层面的打通,从业务因子架构设计 、监控体系、模型预测、压测数据构造、压测流量发送、压测结果分析、压测报表进行自动化串联,大幅缩减了在大促容量准备阶段的人员投入和时间周期。围绕全链路压测的核心基础设施,全链路压测的附近生态逐步建立起来,打通建站、容量、监控等配套技术体系,如下图所示。

        

                        全链路压测3.0生态

                        

  全链路压测在保障系统稳定性的同時 ,也为业务稳定性的保障提供了强有力的支持,2016年我想要们落地了全链路功能测试、大促功能预演等一系列项目:创造性地在隔离环境提前将系统时间设置到双11的零点。通过在你你這個 提前的双11环境购买一遍双11的商品,进行充分的业务验证,最大限度地降低双11当天的业务问題。

  游骥:阿里巴巴顶端件技术部高级技术专家,容量规划、全链路压测、线上管控等稳定性体系负责人;

  隐寒:阿里巴巴顶端件技术部高可用架构技术专家,全链路压测负责人。

  数据构造有一还还有一个 核心点:

  历年的双11备战过程中,最大的困难在于评估从用户登录到完成购买的整个链条中,核心页面和交易支付的实际承载能力。自1509年第一次双11以来,每年双11的业务规模增长越来越快,零点的峰值流量带给我想要们的不挑选性越来越 大。2010年,我想要们上线了容量规划平台从单个点的维度处里了容量规划的问題,然而在进行单点容量规划的原来 ,有一还还有一个 前提条件:下游依赖的服务清况 是非常好的。实际清况 越来越多越来越 ,双11 零点到来时,从CDN到接入层、前端应用、后端服务、缓存、存储、顶端件整个链路都面临着巨大流量,这时应用的服务清况 除了受自身影响,已经 受到环境影响,已经 影响面会继续传递到上游,哪怕一还还有一个 环节跳出其他误差,误差在上下游经过几层次责已经 造成哪此影响谁都无法挑选。全都除了原来 进行容量规划,还需要建立起一套验证机制,来验证我想要们各个环节的准备都有符合预期的。验证的最佳方法全都让事件提前居于,不可能 我想要们的系统都都可不还能能提前经历几只双11,容量的不挑选性问題也就处里了。全链路压测的诞生就处里了容量的挑选性问題!

  全链路压测要越来越多做数据隔离、怎样来做数据隔离,在项目立项阶段经过了非常多的讨论甚至争吵。在最开使了了的原来 ,我想要们想做逻辑隔离,直接把测试数据和正常数据写到同時 ,通过特殊的标识区分开,你你這個 方案放慢就被放弃了:线上数据的安全性和完整版性都可不还能能被破坏。接下来我想要们提出了原来 方案,在所有写数据的地方做mock(mock:软件开发概念,指模拟),越来越多真正写进去,你你這個 方案越来越多对线上产生污染,但评估时还是被放弃了:mock对压测结果的准确性会产生干扰,而我想要们需要一还还有一个 最贴近实际行为的压测结果。

  经过反复讨论,最终我想要们找到了一还还有一个 既不污染线上,又能保障压测结果准确性的方案:在所有写数据的地方对压测流量进行识别,判断一旦是压测流量的写,就写到隔离的位置,包括存储、缓存、搜索引擎等。

  每年双11前夕,全链路压测都有组织好几只,不断地通过压测发现问題进行迭代优化,全方位验证业务的稳定性,我想要们的业务系统可是能在经过了全链路压测的验证原来 才有信心迎接双11零点的到来。全链路压测将大促稳定性保障提升到新的深层,是双11、双12等大促备战最重要的“核武器”,已经 随着业务的发展不断进化,持续发挥着不可替代的作用。

  

  海量的业务接入给全链路压测平台带来全新的挑战:当时的全链路压测操作都需要压测项目组的成员来进行操控。随着越来越来越多的业务接入全链路压测平台,压测项目组放慢就成了瓶颈,压测平台的能力急需升级。2015年,全链路压测“平台化”项目启动,我想要们着手将全链路压测朝着平台化的目标推进和实施,做到压测能力开放、业务方自主压测,让更多业务方都都可不还能能享受到全链路压测的优势和便利,如下图所示。全链路压测平台化项目的上线大幅提升了全链路压测平台的服务能力:2015年大促备战的还还有一个月内,压测平台总共受理近1500多个压测需求(比2014年提升20倍),执行压测任务1150多次(比2014年提升150倍)。

        

                        全链路压测平台化

        

  全链路压测诞生原来 为系统稳定性带来的改变立竿见影,2013年经过了几只全链路压测,双11零点的表现比以往任何一年都平顺。全链路压测也在阿里一炮而红,越来越来越多的业务希望能接入进来。

  全链路压测被誉为大促备战的“核武器”。不可能 原来 关注过阿里双11相关的技术总结,对全链路压测一定越来越多陌生,你你這個 词的出场率几乎是1150%,从对双11稳定性的价值来看,用“核武器”来形容全链路压测毫不为过。

  提前对双11进行模拟听起来就不简单,毕竟双11的规模和复杂都有空前的,要将双11提前模拟出来,难度可想而知:

  全链路压测的压测流量和正式流量经过的路径是一致的,不可能 链路中某一还还有一个 节点被压挂不可能 触发限流,势必会影响线上用户的正常访问。为了减少影响,全链路压测一般都安排在凌晨,通宵达旦,非常辛苦!为了减少熬夜,提升压测幸福度,我想要们启动了白天压测的项目:将线上运行的机器动态隔离出一次责放上去隔离环境中,这次责机器上都可不还能能压测流量都可不还能能访问,白天在隔离环境的机器上进行压测。隔离环境与线上环境几乎一样,从流量入口、顶端件、应用后端实现完整版隔离。隔离环境完整版打通了配置中心、服务注册中心、消息中心、地址服务器等基础设施,需要业务系统做任何改造即可完成。已经 是直接从线上机器按照特定规则挑选到隔离环境中,机型配置跟线上基本一致,使用完毕原来 直接恢复到线上集群中,越来越多影响线上集群的容量。大促备战期间,我想要们都可不还能能白天在隔离环境中进行小目标、小范围的全链路压测,用极小的代价提前发现问題。不可能 隔离环境场景相对于其他线下环境更加真实、操作快捷、不占用额外机器资源,在预案演练、破坏性测试、线上问題排查、故障演练等其他场合也获得了比较广泛的应用。

2013年8月中旬,当时高可用架构团队的负责人叔同(叔同:高可用架构&运维产品&基础产品团队负责人、资深技术专家。)接下了你你這個 巨大的挑战:打造一套全链路压测平台。平台需要在2013年双11原来 上线,错过了你你這個 时间点,我想要们就需要再等一年。从立项到双11,留给我想要们的时间都可不还能能短短一还还有一个 多月,时间非常紧,我想要们需要在越来越 短的时间里应对一系列历史级的挑战。2013年阿里搬到西溪园区,他们都有搬到新工位,全链路压测项目组直接搬到了项目室,进行闭关攻坚。

引言:对技术而言,每一年的双11都有一场严峻的考验,从被流量冲击得溃不成军,被迫奋起抗击,到现在通过技术的力量不断改写双11的用户体验和参与感,阿里的技术伴随着双11成长起来,强壮起来,自信起来。对各位而言,希望我想要们都可不还能能从书中学习更多,掌握更多。

本文选自博文视点与阿里巴巴集团联手推出的重磅新书《尽在双11——阿里巴巴技术演进与超越》,精彩片段抢先试读,不容错过。

  在一还还有一个 多月的时间里,项目组的成员披星戴月,有一二十四时间在通宵,另外一二十四时间是凌晨3点原来 下班。2013年10月17日凌晨的1号楼,全链路第一次登台亮相(如下图所示),你你這個 天对整个全链路压测项目组的人都意义非凡,辛苦了一还还有一个 多月的“大杀招”终于要派上用场了!当压测开使了了的按钮被按下去,我想要们我想要们全神贯注地盯着各种系统等着流量上来,1分钟、2分钟过去了,我想要们的业务系统却丝毫越来越 流量进来。忙活了一晚上,第一次亮相狼狈收场,当时全场有150多号人,每一次我想要们我想要们准备好却越来越 流量发出去的原来 ,面对着全场150多双眼睛,压测项目组每一还还有一个 成员的手都有抖的。好在第一次的失败我想要们我想要们吸取了充分的经验,又经过好几只昼夜的奋战,第二次的压测比第一次进步了全都,到了第三次就不可能 能完整版达到我想要们的使用预期了。

          

                        全链路压测现场

为此我想要们专门搭建了全链路压测的数据构造平台,对业务模型进行系统化的管理,同時 完成海量业务数据的自动化构造,如下图所示。

        

                      全链路压测的数据构造平台

                      

  数据构造平台以线上数据为基础,借助数据dump(dump:在特定时刻,将储存装置或储存装置之某次责的内容记录在另一储存装置中。)工具进行数据的抽取,并对关键数据进行相应的处里(脱敏、订正等)后进入基础数据池备用。基础数据池是压测数据的超集,具体压测数据的构造基于基础数据集进行数据的再加工。

  除了需要有足够量级的数据,我想要们要处里的原来 问題是数据的模型应该是怎样的。借助BI工具结合预测算法对数据进行筛选建模,并结合每一年双11的业务玩法进行修订,产出一份最终的业务模型。业务模型的因子牵涉几百个业务指标,富含买家数、买家类型、卖家数、卖家类型、优惠种类、优惠比例、购物车商品数、BC比例、移动PC比例、业务的量级等。

                      阿里巴巴集团官方出品

                    独家奉献双11八年技术演进与创新

                涉及架构/稳定性/商业拓展/移动/生态有有助于于等内容

  “双 11”,诞生于杭州,成长于阿里,风行于互联网,成就于新经济,贡献于全世界。

  从 1509 年淘宝商城起,双 11 已历经八年。每年的双 11 既是当年的开使了了,又是走向未来的起点。技术的突破创新,商业模式的更替交互,推动着双 11 迈步向前。

  本书是迄今唯一由阿里巴巴集团官方出品、全面阐述双 11 八年以来在技术和商业上演进和创新历程的书籍。内容富含在双 11 背景下阿里技术架构八年来的演进,怎样确保稳定性这条双 11 生命线的安全和可靠,技术和商业交织发展的历程,无线和互动的持续创新与突破,以及对商家的赋能和中态的有有助于于与繁荣。

  本文选自博文视点与阿里巴巴集团联手推出的重磅新书《尽在双11——阿里巴巴技术演进与超越》,点此链接可在博文视点官网查看此书。

                     

  想及时获得更多精彩文章,可在微信中搜索“博文视点”不可能 扫描下方二维码并关注。

                       

  2013年核心交易链路都有几十条,牵涉多个BU的几百位研发人员,哪此业务链路绝大次责是越来越 直接压测的,需要进行相应的业务改造和顶端件的升级。推动几百号人在短时间之内完成业务的改造在全都公司几乎是越来越多可能 完成的,何况还牵涉顶端件的升级,顶端件的升级一般会有一还还有一个 相对比较长的周期,有不少业务系统的顶端件版本都非常古老(5年前的版本),需要确保无风险直接升级到最新版本。

  在业务端我想要们需要逐条链路进行一一梳理,从请求进来的系统到请求的最后一还还有一个 环节(复杂的业务会经过几还还有一个系统。),每一还还有一个 有阻压测流量往下走的地方都进行特殊的逻辑改造。改造的业务点牵涉1150多个,包括登录验证码、安全策略、业务流程校验等。在基础设施和顶端件上,我想要们需要让业务系统的代码尽不可能 需要修改,通用的技术通过基础设施和顶端件来屏蔽掉,比如压测流量的标识怎样在整个请求的生命周期中经常流转下去,怎样来对非法的请求进行拦截处里。

参与全链路压测改造的技术人员体现了良好的战略战略合作精神和执行力,为了同一还还有一个 目标齐头并进、相互补位,原来 认为几乎越来越多可能 的事情,最终在一还还有一个 月内完成了相应的业务改造和顶端件升级。