古韵珍藏网

DevOps Coach 周刊 #5

admin 28
宕机

上一周新发的宕机事故。

近期全球重大宕机事故的分析总结、事后回顾。

Equinix重大电力故障让数据中心客户大发雷霆

关于Equinix:Equinix是全球领先的数据运营商,目前在美洲、亚太、欧洲及中东14个国家(地区)的31个市场运营着94个国际业务交换。

“经历如此严重的停电,显然是不可接受的”

北京时间8月19日8点10分更新:最后的电路似乎已经在8月18日晚间约22点20分恢复;在停电开始后约18小时。

数据中心巨头Equinix表示,在其位于伦敦码头区的IBXLD8数据中心遭遇长时间停电后,它已经为所有客户恢复了机架–该问题使数百名客户(包括几家ISP)的服务从北京时间凌晨4:30开始离线;使许多人对缓慢的电力恢复深感沮丧。

“Equinix工程师已将问题的根本原因诊断为UPS(不间断电源)系统故障,我们正在与客户合作,以尽量减少影响。该公司在北京时间8月18日12:04的首次公开声明中表示:“我们对由此造成的任何不便感到遗憾。(ISPGiganet负责人MatthewSkipsey早些时候将Equinix缺乏沟通描述为“糟糕透顶”)。

多名客户指出,该问题是GalaxyUPS系统(由施耐德销售)中的输出静态开关出现故障。该开关将关键负载连接到UPS的条件电源或旁路电源的原始电源。停电时间的长短表明,LD8的A+B交流电源是来自同一个UPS。期望其直流供应商确保弹性和依赖单一数据中心的ISP正在吸取惨痛教训。

伦敦互联网交易所LINX同时表示,约有150名LINX会员直接受到此次事件的影响。(到13:42,LINX的所有设备都恢复了。该组织有900多个ASN从80多个不同的国家连接)。)

受影响的一个客户是ISPGiganet。它告诉客户。“我们仍在等待我们的网络架恢复供电继Equinix和他们的承包商在早期故障后将电源迁移到新的基础设施上之后。

“可悲的是,仍然没有估计的修复时间,这是最令人沮丧的。他们已向我们保证,他们将在可能的情况下提供这一信息。Equinix不断被追问最新情况。正如您所了解的那样,这是一个P1问题,影响着许多100多家其他运营商/ISP–所以它被赋予了最大的优先级。”

据了解,英国电信也是受影响的公司之一。数据中心的访问控制系统已经被中断,一个客户,马修-斯基普西说,“所以一切[是]通过双向无线电手动运行,然后通过其他地方打电话。疯狂的时代。这是一个MBORC的地狱。”

Equinix表示,它允许客户“更灵活地访问LD8”,因为它争分夺秒地解决这个问题,“在我们的COVID-19限制内工作”。

Giganet补充道:“我们已经在凌晨4.23时左右失去了我们2个EquinixLD8机架中的1个机架的两个A+B馈线。此前,根据Equinix的报告,UPS出现故障,然后触发了数据中心的火警。我们失去电源的机架上安装着我们的核心JuniperMX路由器和CiscoLNS。瞻博网络MX路由器是我们的核心设备,LD8中的一切功能都需要它,包括终止一些专线连接以及为我们的vDC平台提供连接。我们所有的设备电源都是由数据中心提供的'多样化'A+B电源双馈–但是经过这次事件,我们怀疑是缺乏弹性,在事件解决后一定会提出来,因为经历如此严重的断电显然是不可接受的。”

Google公司的云平台和GStuit系列事故

GoogleCloudInfrastructureComponentsIncident#20008

GCP多个产品发生故障:AppEngine,CloudStorage和CloudLogging

GSuit多个模块和功能:Gmail,Drive,Docs/Editor,Chat,Meet,Keep,Voice,Jamboard,AdminConsole

事故时间:August19,2020,from20:55to03:30

诊断:AppEngine的部署会报错,访问GCS桶时的高延迟,以及CloudLogging中的日志条目丢失。GSuit多种产品报错和无法使用。

详细的事故总结报告

根本原因许多Google服务使用一个通用的、内部的、分布式的系统来存储不可变的、非结构化的数据,也就是二进制大对象,或者说blob。这个blob存储系统包含一个与Google内部客户端服务对接的前端,一个处理元数据操作的中层,以及一个用于存储数据的后端。blobs本身。当客户端向前端提出请求时,元数据操作被转发到元数据服务,元数据服务与存储服务进行通信。来自另一个Google服务的流量增加开始使元数据服务超载,导致任务变得不健康,请求的延迟增加。这种延迟促使这些操作的过度重试,导致资源耗尽。自动化系统试图启动新的元数据任务。然而,其中许多任务立即被其收到的流量所淹没,而这些任务也被淹没。由于资源枯竭,分配到的资源不足。这一问题因以下原因而更加严重:策略用于取消和重试失败的请求,这对流量造成了倍增效应。与其他产品相比,谷歌云存储受到的影响较小。虽然谷歌云存储是建立在同一个blob存储系统,GCS的元数据层大多与受影响的元数据层隔离。谷歌内部元数据服务。对于“美国”,GCS元数据隔离的迁移正在进行中。多区域,而所有其他迁移工作已经完成。因此,对全球通信系统客户的影响是减少,这种影响仅限于“美国“多区域。

Spotify

这好像是由于TLS证书过期导致的。

其它媒体报道:

据报道,周三发生了影响音乐流媒体服务Spotify的长达一小时的大规模中断,原因是该公司未能在TLS证书到期前更新。

不过,Cloudflare的网络工程师LouisPoinsignon提供了Spotify系统内部到底发生了什么事情的线索。据他介绍,该公司显然没有及时更新TLS证书,证书过期导致中断。在TLS证书更新后,Spotify的服务很快就恢复了在线。

新闻DevOps大会/峰会

中国DevOps社区流水线大赛–PipelineCraftChampionship

8月18日开始为期两个月,免费活动

报名:

活动官网:

GitLab的大会–Commit:Youbelonghere

8月26日

线上免费峰会

推荐你感兴趣的大会和峰会,发邮件到:martin@

GrafanaLabs喜提B轮5000万美元融资

8月27日宣布

GrafanaLabs还宣布了Grafana加速器计划(GAP),以培养在更广泛的Grafana生态系统中进行创新的早期公司和副业项目。GAP将提供免费的GrafanaCloud和GrafanaEnterprise订阅、现金补助、股权融资以及进入GrafanaLabs核心开发者的内部通道。

文章

《Ops工作的未来》

一篇关于运维角色变化的好文章。对于那些想知道现代运维是什么样子的人来说,有一些很好的提示,包括供应商管理、外包基础设施和理解社会技术系统的重要性。

《NAT是如何工作的》

对于任何想要更好地了解这个网络领域的人来说,这是一本很好的NAT网络介绍。好的图和例子,还有很多细节。

《如何打造给董事会看的软件开发KPI报表》

度量标准有很多不同的用途,包括向组织高层报告。这篇文章探讨了用于董事会对话的工程KPI。

《马丁富乐老师:单链接通道》

有没有想过确保服务之间的消息保持有序,并为任何丢失的消息建立重试机制?这篇文章描述了一个具体的模式,但也是一组关于分布式计算模式的文章的一部分,值得探讨。

《提升事故回顾质量的套路》

《应用日志开发的最佳实践》

即使你不是用Java编写应用程序,掌握一些关于日志工作的知识通常也是有用的,因为你可能最终会至少运行一些Java应用程序。这些帖子提供了一个坚实的基础。

工具

标签对于大规模管理AWS资源至关重要。Awstaghelper提供了一个命令行工具,可以轻松地在广泛的AWS资源中向CSV文件或从CSV文件中添加和管理标签。

GitOps工具包是一套可组合的API和专门的工具,可用于在Kubernetes之上构建一个持续交付平台。它们应该可以为Flux的v2提供基础,但也可以用来构建其他有趣的高级工具,采用同样的控制循环方法。

Kip是一个虚拟Kubelet提供商,它允许Kubernetes集群透明地将pods发射到自己的云实例上。如果你需要额外的工作负载隔离,这很方便。

学习资源

波波老师的系列课程

包括k8s和微服务等DevOps技术

【SpringBoot项目实战】2020最新在线教育springboot分布式项目实战

播放量:10w+

2019谷粒商城微服务SpringBoot,Dubbo,MySql高级,Redis秒杀,ElasticSearch,ActiveMQ,SSO单点登

2019尚硅谷谷粒商城微服务SpringBoot,zookeep注册中心,Dubbo,MySql高级,ElasticSearch,ActiveMQ,通用mapper,解决秒杀,SSO单点登录,OAuth2协议三方登录,第三方支付接口对接,Redislua脚本,Redis秒杀,Redis分布式锁,集群搭建,分布式,sku,spu表结构介绍,等等技术结合使用~~~~~~~~~~~

播放量:10w+

Git+GitHub教程

Git是先进的分布式版本控制系统,而Github是常用的Git代码托管中心。本套教程内容丰富、详实,囊括:Git安装过程、本地库基本操作、远程基本操作、基于分支的Gitflow工作流、跨团队协作的Forking工作流、Eclipse中的Git版本控制以及Git对Eclipse特定文件忽略的配置方法。还通过展示Git内部版本管理机制,让你了解到Git高效操作的底层逻辑。教程的最后完整演示了Gitlab服务器的搭建过程。

播放量:21w+

GitLab与GitFlow的简单使用

播放量:1w+