给运维做运维:我们是怎么从苦逼到流弊的?

  • 时间:
  • 浏览:1
  • 来源:uu快3官方网站_uu快3苹果版_走势

人太好 大多数厂商承诺的全是3秒,给我们歌词 我们歌词 承诺的也是3秒,假使 给我们歌词 我们歌词 的技术上也做3秒句子,那就永远达非要给我们歌词 我们歌词 的承诺。什么都 ,给我们歌词 我们歌词 做的是60 毫秒。

高可用的需求与目标

回答:

假使 它的性能遇到很大的问题报告 图片,它发挥沒有给我们歌词 我们歌词 的SSD性能,果断放弃,假使 自研了一套KDFS,写了离米 两万行代码,非要十一点人的团队,做了一套专用的分布式存储。

1.0.66分钟/天×60 次

假使 给我们歌词 我们歌词 要持续降低,降低计划外的故障无外乎是通过几种法律妙招 ,把一次责计划外的故障转成计划内的故障,另外一次责的计划外的故障,把给我们歌词 我们歌词 的服务不可外的时间缩短,降低最终的影响。

给我们歌词 我们歌词 用的共享存储全是KDFS,是自研的。

给我们歌词 我们歌词 使用自研的增量磁盘,利用之类技术做快速的在线备份,快速地恢复数据。人太好 之类备份做下来,人太好 全部取决于你一点人写入的数据量。

2.在线迁移。对于计划内的故障,给我们歌词 我们歌词 知道服务器即将故障不可能 不可能 要故障了,为啥办?是全是才能把后边的云主机直接迁移到没办法 问题报告 图片的主机上呢?一定才能。

1级别-计划外&软件:内核panic,搞过内核的同学很头疼之之类儿,内核我想知道为啥回事就panic了。

2级别-计划内&硬件:设备升级,硬盘的维护。

给我们歌词 我们歌词 做云计算,物理介质一般什么都 一种:共享存储、本地存储

我重点说一下对于本地盘如可处里本地数据传输的问题报告 图片。

之类时间差了十倍以上,举个例子:

0级别-计划外&硬件:CPU cat error,UE等。计划外的硬件故障,让给我们歌词 我们歌词 应该遇到CPU  cat  error,一般是先看得人宕机,假使 追查到之类错误。

内核后边的内存,给我们歌词 我们歌词 在迁的刚刚业务是不中断的,业务的一点系统服务正在运行,迁移是无感知的,之类过不会产生什么都 内存,内存拷贝总有停的刚刚,哪多少刚刚停呢?

对于一点小的创业公司,数据什么都 命根子,没办法 了数据公司非要死翘翘了。

如可做到60 毫秒?

之类问题报告 图片的核心在于我的监控能扛多大的量?不可能 给我们歌词 我们歌词 要实时,要实时句子就原因瞬间的量非常大,须要处里误报的问题报告 图片。

回答:

一兩个 多维度是南北向的(按照突发性):计划内的故障和计划外的故障.

一兩个 多维度是东西向的:硬件故障和软件故障;

假使 它的问题报告 图片沒有于为啥做,而在于你做的刚刚哪多少降低Downtime。

金山云做如可应对

这就产生一兩个 多矛盾,给我们歌词 我们歌词 刚刚它总爱出现 一次20分钟还是多总爱出现 多少60 多秒的?

原理上给我们歌词 我们歌词 应该才能想到降低高频的使用,为啥降低使用什么都 仁者见仁、智者见智了,给我们歌词 我们歌词 把之类问题报告 图片处里了,就处里了高频函数调用的问题报告 图片。

给我们歌词 我们歌词 现在不可能 处里线上Bug的种类是大于60 个,涉及的内核版本数量大于10个。到现在为止,给我们歌词 我们歌词 不可能 才能做到软件零故障了,内核零故障了。

原来,给我们歌词 我们歌词 不停机,对业务影响在3%以内,越来飞快就才能备份到第三方存储上,原来用户在恢复的刚刚也非常快。基于给我们歌词 我们歌词 自研的增量磁盘才能做数据备份和数据恢复。

什么都 ,给我们歌词 我们歌词 花了离米 一年的时间去做之之类儿来感知故障和快速响应。

60 0G的磁盘,修改的数据60 G,给我们歌词 我们歌词 的迁移什么都 把60 G的数据迁移走,之类越来飞快就会做完。

本地的服务器宕了,没办法 共享存储,数据全是本地,之类刚刚一定要减少宕机时间。对于一种介质,给我们歌词 我们歌词 从应用级做一点Auto Backup,降低重大故障的损失。

在高频函数!比如说CPU调度、KVM的一点中断处里,调用频率是非常高的,打补丁的刚刚,根本无法实现。

一点问题报告 图片岂全是致命的,比如说硬盘烧了,不可能 电源总爱出现 问题报告 图片了,机器什么都 起不来了。换备机也是小时级别的,数据都本地,不可能 没办法 做备份,业务就死翘翘了。

假使 给我们歌词 我们歌词 要做的是要降低故障的频率,减少单次故障的时长,最低地降低故障时对用户业务产生的影响。给我们歌词 我们歌词 是在99.95%的基础上去做哪多少工作,无限地满足用户高可用的需求。

我画了一兩个 多小钟表,之类完成全是技术问题报告 图片,这是策略问题报告 图片,假使 你定一兩个 多策略,就才能把用户的损失降到最低。

通过给我们歌词 我们歌词 的分析,你用60 0G的盘也好,1T的盘也好,总爱更改的数据也就10%左右。

SLA保障那个她 一点人做的一兩个 多承诺而已,不可能 给我们歌词 我们歌词 知道给我们歌词 我们歌词 做非要到百分之一百的可用性,给我们歌词 我们歌词 的承诺非要无限接近于百分之一百。

3级别-计划内&软件:核心软件升级。

另外,在还没办法 到三年的刚刚,CPU、内存等哪多少东西是最容易出问题报告 图片的固件问题报告 图片,给我们歌词 我们歌词 应该为啥应对?

假使 站在用户的深度图而言,假使 总爱出现 问题报告 图片什么都 在故障时间内该用户百分之百的服务不可用。

原来想过用ceph,假使 ceph对给我们歌词 我们歌词 的挑战太少了,它的通用性很强,假使 代码量庞大,架构多样化,全是给我们歌词 我们歌词 五、六一点人才能追到的。

如可降低Downtime?

当你在格式化文件系统不可能 做分区表不可能 写数据的刚刚,它会有实际的数据分派,给我们歌词 我们歌词 通过增量记录就才能统计出来后边实际的数据是多大。

计划外(持续降低),计划外的故障给我们歌词 我们歌词 做非要0影响。

给我们歌词 我们歌词 为啥去处里呢?

给我们歌词 我们歌词 承诺:每个月的不可用时间是20分钟,分一种情况汇报:

共享存储,社区后边做得很好,假使 给我们歌词 我们歌词 处里了Downtime的问题报告 图片,就处里了共享存储后边迁移不中断的问题报告 图片。

2.20分钟×1次

高可用,给我们歌词 我们歌词 的理解不可能 不太一样,你说一下给我们歌词 我们歌词 的理解。给我们歌词 我们歌词 通常都采用SLA来衡量,SLA什么都 一兩个 多服务等级协议,高可用的一种衡量标准。

假使 切换情况汇报时就会中断一下,而给我们歌词 我们歌词 内核后边的算法,当业务比较繁忙的刚刚,内存的更新是非常快的,给我们歌词 我们歌词 对内存这次责做了充分的优化,假使 根本做非要60 毫秒。

在线迁移分一种介质:有共享存储的在线迁移和本地存储的在线迁移

不可能 做出来全部是增量的,从云主机创建刚刚刚刚开始 ,总爱到最后,它总爱只记录每一次增量,什么都 备份时间非常短暂。

那个她 的SLA保障吗?我相信应该全是。

左面是一点开源的方案,右边是给我们歌词 我们歌词 关心的问题报告 图片,之类东西能用,假使 处里不了给我们歌词 我们歌词 的实际问题报告 图片。

给我们歌词 我们歌词 有EIP,给我们歌词 我们歌词 还有VPC和混合云方案,把用户的网络和给我们歌词 我们歌词 的网络打通的,你说的方案让给我们歌词 我们歌词 有。

Downtime是哪多少呢?

服务器一般是三年一兩个 多周期,三年刚刚为啥办?

今天我讲的内容主要包含以下几方面:

在内核方面,内核热升级技术在社区后边有,ksplice和kpatch之类兩个 多都才能,它们一兩个 多的原理几乎是一样的。

云计算基本上是面向运维人员,给我们歌词 我们歌词 的业务体量增长是非常快的,每个月甚至每一周全是机器在上架,规模增长非常快。

这是给我们歌词 我们歌词 做的一点技术点,热升级给我们歌词 我们歌词 是做了一兩个 多变种,在线迁移的一兩个 多变种。

回答:

给我们歌词 我们歌词 做技术的,什么都 东西全是给我们歌词 我们歌词 一笔一划写的,给我们歌词 我们歌词 一定要借鉴开源的能量,不可能 这后边能量太少了,给我们歌词 我们歌词 能看得人什么都 给我们歌词 我们歌词 我想知道的东西。

Downtime什么都 说在迁移的过程中必然会遇到一点中断,之类切换的时间直接决定了在线迁移不可能 热升级不可用的时间。

在线迁移要拷各种数据,假使 给我们歌词 我们歌词 在本地做了之类一兩个 多原来的迁移,内存全是本地,直接就过去了,数据也在本地,把内存迭代拷贝完刚刚,就才能直接切过去了。

什么都 说,是苦逼中的苦逼。假使 苦逼中给我们歌词 我们歌词 也要自娱自乐,给我们歌词 我们歌词 要干点儿事儿,给我们歌词 我们歌词 和运维的目标是一样的,什么都 为了处里给我们歌词 我们歌词 整个服务的高可用。

计划内(0影响),给我们歌词 我们歌词 会在内核以及虚拟化之类层做什么都 事情:

本地数据量非常大,一兩个 多虚拟机申请60 0G不可能 1T的盘,不可能 直接往外生拷句子,不管后边有没办法 数据,它全是60 0G不可能 1T,之类拷贝的时间相当吓人。

让给我们歌词 我们歌词 知道运维是很苦逼的行业,还有比运维更苦逼的行业吗?什么都 给运维做运维,云计算什么都 原来一兩个 多行业,什么都 给运维做运维。

人太好 这次责会遇到很大的问题报告 图片,哪多少过不会地处Downtime的时间比较长呢?

给我们歌词 我们歌词 做的是热升级和在线迁移,发现有问题报告 图片了,直接迁走。

这是给我们歌词 我们歌词 核心须要处里的一兩个 多问题报告 图片。

给我们歌词 我们歌词 的实际问题报告 图片在哪儿?

硬件的故障率是一定的,软件的故障率也是地处的。什么都 ,在哪多少问题报告 图片头上就发现每天全是可能 会有故障。

没办法 大的规模必然面临着设备的异构,服务器总爱在更新换代,假使 给我们歌词 我们歌词 的服务器不需要可能 根据之类节奏报废。

根据之类形状,给我们歌词 我们歌词 把增量的磁盘格式做出来了,给我们歌词 我们歌词 在做在线迁移的刚刚,只须要拷贝增量数据次责,之类时间全部什么都 增量数据的时间除以给我们歌词 我们歌词 的内网传输波特率。

给我们歌词 我们歌词 是基于一兩个 多开源的软件去做的,假使 开源的是哪个软件给你不说了,给我们歌词 我们歌词 在后边做了过深度图的改动,给我们歌词 我们歌词 把监控做到了整个平台的高可用。

对于本地存储句子,不光是Downtime的问题报告 图片,还涉及到另外一兩个 多问题报告 图片,数据全是本地,用户一兩个 多T的数据在本地,为啥拷走,拷的刚刚为啥不影响业务?

1.热升级。内核升级是地处的,内核的更换须要重启物理机,才能不重启物理机呢?能,给我们歌词 我们歌词 才能做到。

之类技术是开源的技术,假使 开源的技术非要处里通用的需求,处里不了真正的业务场景需求。

内核热升级

给我们歌词 我们歌词 的虚拟化层Hypervisor为啥做热升级呢?

给我们歌词 我们歌词 把问题报告 图片从一兩个 多维度去分析:

从之类兩个 多维度分了一种,之类种生活全是有交集的,按照它的级别划分成0到3级,0级别是最致命的。

云计算高可用面临的挑战

针对于不同的场景,给我们歌词 我们歌词 采取不同的法律妙招 ,比如说针对于共享存储给我们歌词 我们歌词 会有Auto Failover,这儿挂了,那儿立刻启动,人太好 挂了,服务不可用了,假使 服务不可用的时间很短,马上就才能起来。

假使 给我们歌词 我们歌词 专门针对之类问题报告 图片去做了一兩个 多新的磁盘格式,给我们歌词 我们歌词 通过记录标记出来增量数据。

假使 做的过程中是异步的,不需要影响用户现有任何业务,你的磁盘该为啥写就为啥写,业务平滑迁过去,才能做到60 毫秒之内的中断,整个迁移的总时间也会非常短。

Downtime的问题报告 图片不可能 处里了,在60 毫秒以内,原来共享存储问题报告 图片就处里了。

作为云计算的开发者,后边无非什么都 虚拟化技术等,没接触云计算的同学不可能 就不太了解了,希望通过我的讲解让给我们歌词 我们歌词 知道云计算的底层是如可支撑业务的,给我们歌词 我们歌词 又在底层做哪多少,为啥样帮助运维提高服务可用性。

人太好 用户须要的是哪多少?

显然全是行,给我们歌词 我们歌词 的SLA什么都 一兩个 多承诺。

没办法 人敢说一点人是百分之百的稳定,这绝对是不需要可能 的。