运维方法论(6)

网友投稿 1241 2022-09-29

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。

运维方法论(6)

(本文共17094字,大约需要阅读43分钟)

第三章 运维哲学

作为本书的最后,我们总结下在上一章“运维体系”中提到的解决问题的通用思路和方法。在实际工作当时,如果一些问题总是反复困扰你,记的来这里读一读这些话,肯定会有意外收获。

一.复杂与简化

复杂是没有止境的。

可靠性只有靠不断追求最大程度的简化而得到。

认识到必要复杂度和意外复杂度之间的区别非常关键:必要复杂度是一个给定的情况所固有的复杂度,不能从该问题的定义中移除,而意外复杂度则是不固定的,可以通过工程上的努力来解解决。

简化和梳理:当考虑如何简化一个给定的任务的每一步时,我们并不是在偷懒,相反我们是在明确实际上要完成的任务是什么,以及如何更容易地做到。

在没有什么可以去掉的时候,而不是在不能添加更多的时候,才能达到完美。

二.耦合与解耦

如果一个事物A的功能实现需要借助于事物B,那么就称事物B是事物A的依赖,如果在事物A的内部去实现事物B的功能,那么两者之间会出现较高的耦合,一旦事物B出现了问题,事物A也需要进行改造。

解耦在运维中应用的例子:

托管IDC:硬件设备与场地的解耦云平台:基础架构与应用软件的解耦垂直应用架构:应用软件模块与软件功能解耦SOA服务架构:应用模块接口关系解耦分布式服务架构:应用模块关系间的解耦网络大二层配置:服务器与VLAN解耦Clos架构:应用网络与基础网络解耦SDN网络:网络控制和流量转发解耦安全云原生:安全服务与安全风险解耦时间序列监控系统:监控项和监控系统解耦基于意图的容量规划:需求变更和容量规划解耦。

三.灵活与稳定

运维的工作最终是在系统的灵活性和稳定性上维持平衡。

四.信任和验证

测试是一个用来验证变更前后系统的某些领域相等性的手段。

系统通过某项测试或者一系列测试并不一定能证明系统是稳定的,但是失败的测试通常证明了系统不可靠。

测试是处理MTTR为0的bug,以增加MTBF的时长。

监控系统也可以发现系统中的bug,但是仅限于汇报的层次,不能预先告警。通过监控指标的采样统计数据推断出系统行为是否发生了变化,这些统计数据指出了需要完善和调整测试的区域。

1.可测试性原因

(1).如果在最近一段时间内,该系统完全没有改变。包括没有任何软件更新以及服务器数量变化。这意味着未来的行为方式应该与过去的行为方式类似。

(2).如果可以充分描述整个系统的所有改变,这样就可以针对每个系统变化引入的不确定性进行分析

2.信任

信任仍要验证:任何事物都有缺点,一定会存在某种问题,即便你选择信任它。

五、正常与故障

系统正常,只是该系统无数异常情况下的一种特例。

东西早晚是要坏的,这就是生活。

业务体量越大,系统越复杂,问题和故障就越多,出现故障是必然的。我们更应该考虑的是,怎么让系统更健壮,在一般的问题面前,仍然可以岿然不动,甚至是出现了故障,也能够让业务更快恢复起来。

系统不但一定会出问题,而且大多会以没有人能够想到的方式出问题。

所有的问题都有对应的解决方案,虽然它可能不是那么显而易见。

如果你想不到问题的解决办法,那么就在更大的范围内寻求帮助,找到更多团队成员,寻求更多的帮助,做你需要做的一切事情,但是要快。

向过去学习,而不是重复它:如果没有一种方法从已发生的事故中学习经验,那么事故就可能循环反复地发生。如果不能解决这个问题,那么随着系统规模和复杂度的增加,事故可能成倍增加,最终导致我们没有足够的资源处理事故,从而影响最终用户。

运维和维修的区别:运维有主观性,维修没有。维修即便事后总结也没有办法预防下次的故障。

不经常使用的东西一定会在你最需要它的时候出现故障,必须通过不停的使用才能保障它是可用的。

演练的意义:只有白天勤劳的进行故障演练,才能晚上酣畅淋漓的睡个好觉。

再重要的系统也要演练:日本福岛核电站隔离冷凝器的启动测试40年没有进行,导致现场没人见过猪鼻子冒出来的水蒸汽正常应该是什么状态,导致误判,最终导致核泄漏。

六、纵深防御

理论与工程:完美的理论不代表实现过程也是完美的。最安全的系统也会有实现中的漏洞及人为操作错误。

纵深防御:在一个不断变化的环境中,为了防止漏洞的存在,最好的办法一定是多层的——不同理论范式实现的为同一个保障目的的重叠保障。

七、环境与检查

环境与验证:在一个不断变化的环境中,一个物品在环境变化前是适应环境的,不代表环境变化后也是适应的,环境变化后必须要验证之前对物品操作的假设和流程在新的环境下是否仍然适用,环境变化越快,验证过程也应该越快。

演练的意义:环境是否变化在很多时候也是信息不对称的,所以要不断的间隔性验证环境与物品的适应性,间隔越短物品的可靠性越强。

毁灭的必然性:任何事物总会出现不能适应新环境的那一刻。

附录一:名词解释汇总

【API网关】:当系统需要与第三方发生交互,既需要暴露给外部系统调用的公开API,同时也需要调用外部的API实现自身的业务需求,则处理服务之间访问的授权和认证、安全和性能的监控、缓存和日志的处理、超时的Retry、负载和熔断的处理、查询请求的聚合等等一系列的问题的中间层或间接层。页码(229)

【APP加固】为移动应用提供专业安全保护,可防止应用被逆向分析、反编译、二次打包、嵌入各类病毒、木马等恶意代码及低俗广告,从源头保护数据安全和开发者利益。页码(108)

【安全审计】在软件构建打包前,需要对源代码进行安全扫描,称为安全审计。安全审计可以对源代码中的跨站脚本、伪造请求、SQL 注入、用户名密码等敏感信息泄露、木马以及各类远程执行等常见漏洞进行识别,对于高危漏洞,一旦发现,是不允许构建出的软件包发布的。页码(119)

【安全运营】是为了实现安全目标,提出安全解决构想、验证效果、分析问题、诊断问题、协调资源解决问题并持续迭代优化的过程。页码(104)

【B/S】(Browser/Server,浏览器/服务器结构):伴随着Internet技术的兴起,网络带宽的增加,服务器硬件的性价比提高,出现了对C/S架构的改进,这种结构不再由开发团队制作客户端软件,客户端的界面展示工作由浏览器代替,为了区别于传统的C/S 模式,特意称为B/S模式。页码(20)

【BaaS】(Backend as a Service,后端即服务):服务商为客户提供整合云后端的服务接口,如提供文件存储、数据存储、推送服务、身份验证服务等功能接口,以帮助开发者快速开发应用。页码(9)

【BASE】是基本可用(Basically Available)、软状态(Soft state)和最终一致性(Eventually consistent)的简写。BASE是对CAP中一致性和可用性权衡的工程实际方法,基本思想是即使无法做到强一致性,但每个应用都可以根据自身的业务特点,采用适当的方式来使得系统达到最终一致性。页码(290)

【白盒监控】(white-box monitoring):依靠系统内部暴露的一些性能指标进行监控。页码(155)

【拜占庭将军问题】(Byzantine General’s Problem):存在消息丢失的不可靠信道上试图通过消息传递的方式达到一致性的问题,是点对点通信中的基本问题。页码(296)

【舱壁模式】(Bulkhead,故障隔离):这种模式把系统中的各个功能模块实体进行进程、资源上的隔离,使得系统不会因为某个功能模块的局部失败而导致全局失败。页码(22)

【C/S】(Client/Server,客户端/服务器结构)应用程序分为客户端软件和服务器端软件。因为客户端要负责绝大多数的业务逻辑和界面展示,又称为胖客户端。页码(18)

【CaaS】(Containers as a Service,容器即服务):允许用户通过基于应用容器的虚拟化来管理和部署容器,应用程序和集群。页码(8)

【CAP定理】指一个分布式系统不可能同时满足以下三个要求一致性(C)、可用性(A)、分区容错性(P),但可以满足其中两项而放弃另一项。页码(289)

【CDN】(Content Delivery Network,内容分发网络):CDN是构建在现有网络基础之上的智能虚拟网络,依靠部署在各地的边缘服务器,通过中心节点的负载均衡、内容分发、调度等功能模块,使用户就近获取所需内容,降低网络拥塞,提高用户访问响应速度和命中率。页码(211)

【CMDB】(Configuration Managerment DataBase,配置管理数据库):是一个逻辑数据库,包含了一个对象配置项全生命周期的信息以及配置项之间的关系(包括物理关系、实时通信关系、非实时通信关系和依赖关系)。页码(319)

【CRE】(Customer Reliability Engineering,客户稳定性工程师):对客户满意度负责,消除客户焦虑,真正地站在客户的角度去解决问题,同时对客户进行安抚、陪伴和关怀。页码(81)

【crossbar模式】网络交换机就是将输入端口的数据,经过判断,转发到输出端口,这种模式称为crossbar模式。页码(37)

【差异备份】:指自上次全量数据库备份之后,对数据对象变更的备份。页码(269)

【超时请求】(timeout):指应用或中间件没有对请求做出响应,客户端自行确定响应超时的请求,或者超过服务等级目标最长响应时间的请求。页码(94)

【持久性】(durability):一旦事务提交,那么它对数据库中的对应数据的状态的变更就会永久保存到数据库中。页码(287)

【持续集成】(Continues Intergration):是在源代码变更后自动检测、拉取、构建并进行单元测试的开发过程,持续集成的目标是快速确保开发人员新提交的变更是好的,并且适合在代码库中进一步使用。页码(115)

【持续交付】(Continuous Delivery):是一系列的开发实践方法,用来确保让代码能够快速、安全的部署到产品环境中,它通过将每一次改动都提交到一个模拟产品环境中,使用严格的自动化测试,确保业务应用和服务能符合预期。页码(114)

【串行化】:要求所有事务被串行执行,即事务只能一个接一个的进行处理,不能并发执行,是最严格的事务隔离级别。页码(288)

【错误预算】:某个服务在一段时间内的允许不稳定的水平,它可以用来平衡可靠性与创新速度的关系。它是将服务成本的一部分转移给用户的表现,使得客户选择即能够满足他们的需求又能够压缩成本的服务水平。页码(100)

【重试】(Retry):重试是在分布式系统下处理瞬态故障的一个基本手段,简单有效。页码(22)

【DaaS】(Data as a service,数据即服务):是指与数据相关的任何服务都能够发生在一个集中化的位置,如聚合、数据质量管理、数据清洗等,然后再将数据提供给不同的系统和用户,而无需再考虑这些数据来自于哪些数据源。页码(9)

【DDos防火墙】通过DDOS硬件防火墙对异常流量的清洗过滤,通过数据包的规则过滤、数据流指纹检测过滤、及数据包内容定制过滤等将异常流量禁止通过,可防御一般性的Ddos攻击。页码(107)

【DevOps】(Development&Operations):是一组过程、方法与系统的统称,用于促进开发、技术运营和质量保障部门之间的沟通、协作与整合。DevOps重视“软件开发人员(Dev)”和“IT运维技术人员(Ops)”之间沟通合作,透过自动化“软件交付”和“架构变更”的流程,来使得构建、测试、发布软件能够更加地快捷、频繁和可靠。页码(48)

【达成共识】:意思是全体计算机都同意某个输出的值,也意味着让系统中每一台计算机的事务日志保持一致,即(达成了共同目标)。页码(298)

【代码配置】跟代码运行时的业务逻辑相关的配置。如服务接口、并发线程数、超时时间、业务逻辑开关等。代码配置改动会改变系统执行状态,是运行时的配置,但不依赖周边环境。页码(146)

【代码膨胀】(code bloat):是指代码有着不必要的长度,软件随着时间的推移,随着不停的增加新功能而变得更浪费资源的趋势。页码(261)

【代码审计】是针对代码中明显的漏洞进行审计,比如 XSS 漏洞,SQL 注入等问题,如果在代码中存在类似问题不可以被允许发布上线。页码(105)

【带外数据校验系统】:为了避免用户可见的数据质量下降,以及在无法恢复之前检测到低级的数据损坏以及数据丢失,需要一整套带外(out-of-band)检查和修复系统来处理数据存储内部的相互之间的数据问题,确保数据恢复策略可以正常工作。页码(276)

【单元测试】(unit test):用于评估某一个独立的软件单元,比如一个类、或者一个函数的正确性。单元测试用来保证某个函数或模块完全符合系统对其行为要求。页码(126)

【低技能性流状态】:在琐事不太多的时候,这种低风险低压力的重复性工作会有一种让人平静的功效,完成这些事可以带来一种满足感和快速胜利感,前提是这些工作要有很明确的目标、及时的反馈、控制感很强,这就是低技能性流状态。页码(70)

【递归解析器】(recursive nameserver):客户端配置的本地DNS服务器的一项功能,用于替代客户端解析到域名代表的IP地址。页码(212)

【电子签章】电子签章利用图像处理技术将电子签名操作转化为与纸质文件盖章操作相同的可视效果,同时利用电子签名技术保障电子信息的真实性和完整性以及签名人的不可否认性。页码(106)

【东西向流量】(EAST-WEST traffic):同数据中心服务器之间或不同数据中心之间的网络流。页码(32)

【短期资源租赁】是指服务器等资源由资源租用公司提供硬件、负责基本软件的安装、环境配置,还可以负责服务器上基本服务功能的正常运行,让用户独享服务器的资源,用户自行维护运行在服务器上的程序。页码(3)

【E-R图】(Entity Relationship Diagram,实体-联系图):提供了表示实体类型、属性和联系的方法,用来描述现实世界的概念模型。页码(325)

【ESB】(Enterprise Service Bus,企业服务总线):为了集成不同系统,不同协议的服务,ESB做了消息的转换解释与路由等工作,让不同的服务互联互通。ESB作用在于实现服务间智能化集成与管理的中介,其可以访问所集成系统内的所有已注册服务,是一种在松散耦合的服务和应用之间标准的集成方式。页码(16)

【FaaS】(Functions as a Service,函数即服务):服务商提供一个平台接口,允许客户开发、运行和管理应用程序功能,而无需构建和维护通常与开发和启动应用程序相关的基础架构的复杂性。页码(9)

【FLP不可能原理】:即便网络可靠,在允许节点失效(即便只有一个)的异步消息传递系统中,不存在一个可以解决一致性问题的确定性共识算法,即在异步通信场景,即使只有一个进程失败,也没有任何算法能保证非失败进程达到一致性。页码(288)

【法定租约】(quorum lease)协议:法定租约技术针对一部分数据给系统中的法定人数进程发放一个带有具体时间范围的租约,在这个法定租约有限期间,任何对该部分数据的操作都必须要被法定租约中的所有进程响应。页码(303)

【分布式链路跟踪】也称全链路跟踪,是为分布式应用提供完整的调用链路还原、调用请求量统计、链路拓扑、应用依赖分析的方法。页码(162)

【分层保障模型】是在业务系统版本不停更新的环境下保障大规模分布式数据的完整性,各系统特定选择的、相互独立的手段来各自提供高度数据保障的方法,是使用各组件延迟删除、适当的备份机制及备份验证机制组成的分级分层的保障模型,在出现问题时,只进行数据的局部恢复,不进行基于整个系统的时间点恢复。页码(266)

【服务】:一切提供给客户的有用功能都可称为服务。服务一般会由【服务提供者】提供,提供这个有用功能的组织被称为服务提供者。页码(89)

【服务器日志审计】:在服务器或终端系统上,日志审计系统通过集中采集系统中的系统安全事件、用户访问记录、系统运行日志、系统运行状态等各类信息,经过规范化、过滤、归并和告警分析等处理后,以统一格式的日志形式进行集中存储和管理,结合丰富的日志统计汇总及关联分析功能,实现对信息系统日志的全面审计。页码(105)

【服务树】:一种把应用组织成一个树形层次结构,以便于表达应用的组织和管理关系的方式。页码(327)

【复制状态机】(RSM,replicated state machine):是一个能在多个进程中用同样顺序执行同样的一组操作的系统。页码(298)

【GSLB】(Global Server Load Balancing,全局负载均衡):是对物理集群的负载均衡,依赖于用户和实际部署环境的互联网资源分发技术,不同的目的对应着一系列不同的技术实现,会根据策略的不同实现不同场景的应用交付。GSLB一般用于动态资源的负载均衡。页码(211)

【隔离性】(isolation):事务的隔离性是指在并发环境中,并发的事务是相互隔离的,不同的事务并发操作相同的数据时,每个事务都有各自完成的数据空间。页码(287)

【根源问题】(root cause):指系统(软件或流程)中的某种缺陷。某一个故障情况可能同时具有多个根源问题。页码(157)

【工单】:指那些需要进行某种操作以应对客户需求的工作。简单的如监控误报阈值调整,复杂的如设计评审、方案审计。工单也可能有要求的最迟响应时间,但比紧急警报要长的多。页码(69)

【故障域】(failure domain):指系统中由于一个故障而同时不可用的一组组件。页码(178)

【过载】指作用于软件的用户流量超过软件服务额定能力的现象。页码(127)

【过载临界点】软件载流量在到达某一个点后,在过载之前会进入一个系统资源量与用户流量的非线性的转折点(系统资源量接近占满或完全占满,用户流量继续增加),此时响应时间上升,用户体验下降,部分用户响应超时,造成用户可见的可用性错误,在此临界点后过载开始进入完全死锁状态,服务对外完全无法提供服务。页码(128)

【黑盒监控】(black-box monitoring):通过测试某种外部用户可见的系统行为进行监控。页码(155)

【烘烤二进制文件】(baking the binary):如果没有任何末预料的问题发生,其他的软件服务器也会使用发布流程继续逐渐升级到新版本,如果发生了问题,这一小部分单独升级过的软件服务器可以很快被还原到已知的正常状态,这套过程称为烘烤二进制文件。页码(129)

【幻影数据】:指同样的事务操作,在前后两个时间段内执行对同一个数据项的读取,可能出现不一致的结果。页码(288)

【灰度测试】也称金丝雀测试,是只将生产环境中一小部分软件服务器升级到一个新版本或者新配置,随后保持一定的孵化期。页码(129)

【回归测试】(regression test):一种软件上线前的测试方法,以保证曾经发生过的、导致系统故障或产生错误信息的bug列表不会重现;保证重构代码的工程师不会偶然间将他们曾经辛苦修复的bug又带回来。页码(28)

【混部技术】是为解决在固定资源分配模式下,前台用户服务(在线业务)总体资源利用率不高,但后台计算服务(离线业务)资源利用率不够的问题,根据在线业务和离线业务各自的特点,将不同类型的任务调度到相同的物理资源上运行,当前台用户服务不忙时,后台计算服务抢占前台资源,反之则返还,甚至反哺的技术。页码(5)

【IaaS】(Infrastructure as a Service,基础设施即服务):是指把IT基础设施通过网络作为一种服务对外提供,并根据用户对资源的实际使用量或占用量进行计费的一种服务模式。页码(7)

【IDC托管服务】即服务器托管服务,是指用户(相对于IDC服务提供商)把自己的服务器托管在服务商的机房中。用户租用一些机柜用以存放服务器,并且租用服务商的网络资源以及其他配套设施。用户只是自行维护服务器硬件及安装在服务器上的软件。页码(3)

【IDS 】(intrusion detection system,入侵检测系统):是一种对网络传输进行即时监视,在发现可疑传输时发出警报或者采取主动反应措施的网络安全设备。页码(106)

【IP】(Internet Protocol):独立IP访问量。页码(170)

【集成测试】(integration test):集成测试也叫组装测试或联合测试,通过单元测试的软件组件被组装成大的系统组件,通过运行集成测试来检验该组件的功能的正确性。页码(126)

【技术运营】,就是应用在线上环境运行时,根据应用运行数据所做的运行维护工作。技术运营体系建设主要是确保制定的标准、指标、规则和流程能够有效落地。页码(62)

【监控】(monitoring):是指收集、处理、汇总,并且显示关于某个系统的实时量化数据的机制。页码(154)

【渐进式发布过程】一个软件的在构建打包后往往要经历多个环境的发布,我们称这种发布方式为渐进式发布过程。页码(122)

【胶合逻辑自动化系统】指自动化程序独立于被操作应用而存在,通过自动化系统操作其它系统的模式。页码(258)

【角斗士策略】(dueling proposers):在一个有利环境下能够保障安全性,同时提供足够的冗余度。页码(293)

【接口测试】(Interface Testing):是测试系统组件间接口的一种测试,主要用于测试系统与外部其他系统之间的接口,以及系统内部各个子模块之间的接口。页码(126)

【节点/机器】(node/machine):指在物理机、虚拟机、或者容器内运行的某个实例。页码(157)

【解耦】(Decoupling):解耦一般的做法是通过把内部逻辑封装起来,暴露对外统一API接口,调用方不需要了解被调用方的内部逻辑实现,只需要知道提供什么功能即可。页码(22)

【金丝雀环境】(canary):来源于“煤矿中的金丝雀”,指代利用一只鸟来检测有毒气体以避免人类中毒的做法。页码(125)

【紧急警报】:关于生产环境中出现的问题以及相关问题发生的警报,目的在于通知接收人处理紧急情况。紧急警报通常有事前约定好的最迟响应时间(承诺的服务质量)。页码(69)

【惊群效应】是指在多个任务等待同一资源时,某一时间某一资源突然可用时,多个任务会同时惊醒竞争该资源的情况。页码(309)

【看门狗机制】(watchlog):以一个定期唤醒的线程实现,这个线程会检查唤醒间隔时间内进程是否执行了约定的操作,如果没有执行约定操作,该线程会假设服务已卡住,而主动杀掉卡住进程。页码(242)

【客户】是使用服务提供者提供的服务的人或公司。页码(89)

【LCE】(Launch Coordination Engineering,发布协调工程师):是确保软件发布过程执行迅速,并且服务不会出现故障,在某个发布过程中出现问题时,不会影响到其他产品;通过预测发布可能出现的问题,负责保障内部相关团队都清楚的知道为了提高上线速度的一切利益取舍关系及所带来的风险。页码(82)

【冷备】(Cold Standby):冷备实际上也是冗余设计的其中一种体现,当系统发生宕机时,这个系统是需要手动启动用于替换下线的主实例,它跟热备是不一样,热备更多体现在自动切换。页码(23)

【链路跟踪】一个用户的请求往往涉及多个内部服务调用,为了方便故障时定位问题及理解系统行为,用于记录每个用户请求时系统内部产生了多少服务调用及其调用关系的方法。页码(162)

【流程负担】:指那些和运维产品服务不直接相关的工作,包括团队会议、目标的建立和评估、每周总结及书面报告等。页码(69)

【流量抛弃】(load shedding):指软件服务器临近过载时,主动抛弃超出系统承诺容量的负载,避免该软件服务器出现内存超限、健康检查失败、延迟大幅升高,或者其他过载造成的现象,保证系统的核心功能能够正常运行。页码(228)

【漏洞扫描】漏洞扫描器通过获取目标系统指纹信息来判断其类型与版本,以及上面所允许的所有服务,一旦已经获取目标系统的操作系统与服务类型,就可以使用漏洞扫描器执行一些特定的检查,来确定存在着哪些安全漏洞。页码(106)

【MTBF】(Mean Time Between Failures,平均失效间隔):指系统两次故障发生时间之间的时间段的平均值。页码(91)

【MTTF】(Mean Time To Failure,平均失效前时间):指系统无故障运行的平均时间,取所有从系统开始正常运行到发生故障之间的时间段的平均值。页码(91)

【MTTR】(Mean Time To Recovery,平均修复时间):指系统从发生故障到维修结束之间的时间段的平均值。页码(91)

【冒烟测试】(smoke test):。冒烟测试设计用于确认代码中的更改会按预期运行,且不会破坏整个版本的稳定性。页码(126)

【NaaS】(Network as a service,网络即服务):用户只需要向云服务商说明网络的参数,比如互联对象、网络质量控制等稳定性特性、接入限制等访问和审计等安全特性,用户不需要知道配置和实现细节即可直接使用的网络服务。页码(7)

【NFV】(Network Function Virtualization,网络功能虚拟化):通过使用x86等通用性硬件以及虚拟化技术,来承载很多功能的软件处理。从而降低网络昂贵的设备成本。可以通过软硬件解耦及功能抽象,使网络设备功能不再依赖于专用硬件,资源可以充分灵活共享,实现新业务的快速开发和部署,并基于实际业务需求进行自动部署、弹性伸缩、故障隔离和自愈等。页码(45)

【NOC】(Network Operations Center,网络运营中心):也称网络管理中心,是远程网络通讯的管理、监视和维护中心,是网络问题解决、软件分发和修改、路由、域名管理、性能监视的处理单位。网络运营中心具有被监控网络的可视化表示,以及监控详细网络状态的工作站,以及监控软件用来帮助管理网络。页码(83)

【南北向流量】(NORTH-SOUTH traffic):客户端和服务器之间的流量被称为南北流量。页码(32)

【ODL】(OpenDaylight):成员主要是网络厂商,主要是为了打造一个开源的SDN平台框架,包括网络应用和服务、北向接口、控制器、南向接口等。目前有OpenDaylight控制器(SDN操作系统)页码(45)

【ONF】(Open networking Foundation,开放网络联盟):推动SDN的标准化,制定并发布Openflow技术标准。页码(45)

【ONOS】(Open Network Operating System,开源网络操作系统):成员主要是运营商,旨在为运营商用户提供一个开源网络控制器。做出了面向运营商的ONOS控制器。页码(45)

【PaaS】(Platform as a Service,平台即服务):服务商提供基础设施底层服务,提供操作系统、数据库服务器、Web服务器和其他中间件,以及备份服务等后端中件层的服务。页码(7)

【POD】(Point of delivery):作为数据中心基本物理设计单元, 通常包含一组相互关联的服务器机柜、 接入网络机柜、 汇聚网络柜、以及相应的空调、UPS 等弱电配套设施。页码(31)

【PRR】(生产就绪程度评审):该流程由运维人员运用他们的工作经验根据服务的具体细节来找出在可靠性方面的欠缺之处。PRR评审可在软件生命周期的任何阶段进行。页码(74)

【PV】(Page View):页面被访问量,多次访问记为多次。页码(170)

【旁路】指某系统某个功能组件故障后,可以绕过故障组件,直接将请求转到下一级组件的机制。页码(231)

【屏障】(barrier):分布式计算中的一种原语,可以用来阻挡一组进程继续工作,直到某种条件被满足(例如某个计算的第一阶段全部完成时,再继续进行)。页码(299)

【QPS】(Query Per Second,每秒请求数):对象在一秒的时间内响应了多少个业务流程请求。页码(170)

【QPS陷阱】直接以可用资源来衡量可用容量,将某个请求的“成本”定义为该请求在正常情况下所消耗的具体资源。页码(227)

【潜伏的事故】:在任何事故和业务灾难发生确切的影响之前,类似事故都是曾经发生过好几次,只是没有造成任何后果,这些没有影响的事故在当时发生的时候都被忽略了才会造成后来某次有确切影响的事故。页码(179)

【权威域名服务器】(authoritive nameserver)组织机构管理DNS服务器对本机构内的一些服务器提供了“权威”的主机名到IP地址的映射,则这些DNS服务器称为权威域名服务器(authoritive nameserver)。页码(212)

【全局过载】(global overload):在配置了负载均衡的情况下,作用于软件的用户流量超过所有软件服务节点额定能力的现象。页码(234)

【全量备份】:将数据对象的所有定义集合都进行备份,不论数据对象自上次备份之后是否修改过。页码(269)

【RT】(Response Time,响应时间):处理一次请求所需要的平均处理时间。页码(171)

【认知流状态】:某人在解决问题的过程中,充分了解问题的起因和现状,隐约感觉自己可以解决这个问题,这个人受主观能动性驱动,甚至会忘记了时间。页码(70)

【容错】(Error Tolerance):两个具有明确边界的事物(如服务间,系统间)交互时候针对可能发生的一切主客观异常情况的防御性手段。页码(23)

【容量规划】是对复杂业务场景的分析后,通过一定的技术手段来达到对资源有效规划、合理扩容,最终获得足够容量应对系统负载的过程。页码(170)

【熔断】(Derating):通过监控一段时间内的异常次数和响应速度来判断当前服务的健康状况,若服务健康状况不佳则进行熔断,熔断之后新的请求将不会调用实际的业务,而是通过快速失败的方式来快速给用户进行响应。页码(23)

【熔断】:软件系统中,由于某些原因使得服务出现了过载现象,为防止造成整个系统造成连锁故障(雪崩现象),当检测到服务响应错误率过多时,采用的一种限制访问子系统的保护措施。页码(232)

【冗余】(Redundancy):所谓的冗余(容灾切换)指通过重复配置关键组件或部件,保证在关键组件失效的情况下还有备份组件运作以便保证系统可以继续提供服务。页码(22)

【入侵检测】用来检测入侵者的设备或系统,通过对行为、安全日志、数据以及其他网络上可以得到的信息进行分析操作,进而判断出是否有人闯入系统或有闯入系统的意图。页码(104)

【软件的部署发布】将上一阶段验证通过的应用软件包通过构建发布到该应用对应环境、应对主机上的指定目录下,并通过应用优雅上下线来实现软件最新版本对外提供服务的过程。页码(133)

【软件工程】:参与设计、规划软件,编写或修改代码,以及相关文档工作。比如一些自编自用的自动化运维或检测平台。页码(68)

【软件构建】(Software Build):通过编译源代码生成的一组可供用户使用的可执行代码。这个术语也可以用来指构建过程本身,开发人员把他们的源代码放在编译过程中运行,使其发挥作用。页码(119)

【软删除】(soft deletion):即不真正删除数据,通过添加删除标志或将数据放置在特殊位置的方式使数据是可以恢复的,只是对局部业务功能是不可见的。软删除是针对意外数据删除的有效规避手段,也是大幅度减少人工支持的运维的手段。页码(266)

【SaaS】(Software as a Service,软件即服务):服务商提供基于软件的解决方案,满足客户最终需求,客户不需考虑任何形式的专业技术知识。页码(8)

【SDN】(Software Defined Network,软件定义网络):只要网络硬件可以集中式软件管理,实现可编程化,控制转发层面解耦,则可以认为这个网络就是一个SDN网络。SDN并不是一个具体的技术,不是一个具体的协议,而是一个思想、一个框架。页码(45)

【Serverless】是一种构建和管理基于微服务架构的完整流程,允许在服务部署级别而不是服务器部署级别来管理应用部署。页码(9)

【SLA】(Service-Level Agreement,服务级别协议):一种传统的服务方式,提供服务的企业与客户之间就服务的品质、水准、性能等方面所达成的双方共同认可的协议或契约。具体包括服务内容、服务有效期、各阶段服务的用户、产品规定,故障应答时间及升级,变更请求的流程、期望时间、收费规定、用户责任,意见申述流程等。页码(92)

【SLB】(Server load balancing,负载均衡):是对集群内物理主机的负载均衡,主要进行流量的均匀分配。页码(211)

【SLI】(Service Level Indicator,服务等级指标):衡量服务级别协议完成度的一个具体量化指标。页码(93)

【SLO】(服务等级目标)指定了服务所提供功能的一种期望状态或期望范围。页码(92)

【SOA】(Service-Oriented Architecture,面向服务的架构):SOA架构严格的说不是一种独立的架构,它只是分布式服务架构的一种治理手段,它将各种服务之间通过预定义的、扩展良好的接口和协议联系起来,从网络或拓扑的角度来说,这是一种总线型的关系结构。页码(15)

【SRE】(Site Reliability Engineer,网站稳定性工程师):通过软件工程的方式开发自动化、分布式计算机软件系统,来替代重复和手工操作,运维具体业务服务的工程师。页码(80)

【STP】(Spanning Tree Protocol):生成树协议是处理配置交换机冗余链路产生的环路问题,用于确保以太网中保持无环路的逻辑拓扑结构,从而避免广播风暴大量占用交换机的资源的协议。页码(31)

【Switch Fabric】(纤维):在交换机的内部,为了最大限度的转发各端口之间传输的信息,使用了一种开关矩阵的信息中转办法,开关矩阵类似于一块布的纤维,所以交换机内的架构被称为Switch Fabric。页码(37)

【上网行为管控】上网行为管控系统是为便于企业网络管理,用以帮助管理者全面了解员工上网情况和网络使用情况,提高网络使用效率和工作效率,最大限度地避免不当的上网行为带来的潜在风险和损失。网络行为管控中的行为类型包括访问网站、收发邮件、上传和下载、即时通信、聊天、论坛、网络游戏、流媒体视频和Telnet 等。页码(107)

【渗透测试】通过模拟恶意黑客的攻击方法,来评估计算机网络系统安全的一种评估方法。这个过程包括对系统的任何弱点、技术缺陷或漏洞的主动分析,这个分析是从一个攻击者可能存在的位置(内网或外网)来进行的,并且从这个位置有条件主动利用安全漏洞。页码(108)

【失败请求】(fail):指应用或中间件明确返回请求失败的响应,一般是中间件或应用程序事前设定的响应策略。页码(94)

【数据库防火墙】数据库防火墙系统串联部署在数据库服务器之前,解决数据库应用侧和运维侧两方面的问题,是一款基于数据库协议分析与控制技术的数据库安全防护系统。实现数据库的访问行为控制、危险操作阻断、可疑行为审计。页码(107)

【数据库审计】(DBAudit):以安全事件为中心,以全面审计和精确审计为基础,实时记录网络上的数据库活动,对数据库操作进行细粒度审计的合规性管理,对数据库遭受到的风险行为进行实时告警。页码(105)

【数据完整性】(data integrity):指在其生命周期中,数据的准确性和一致性。从数据被记录的那一刻开始,一直到数据被访问的时候,数据应该保持正确,不会以某种未预知的方式改变。页码(262)

【琐事】是指运维服务中手动性的、重复性的、可以被自动化的、战术性的、没有持久价值的工作。页码(70)

【锁】(lock):协调性原语,在一个分布式系统中,一些工作进程原子性的操作某些输入文件,同时将产生结果,分布式锁可以保障多个工作进程不会操作同一个输入文件。页码(300)

【态势感知】一种基于环境的、动态、整体地洞悉安全风险的系统,是以安全大数据为基础,从全局视角提升对安全威胁的发现识别、理解分析、响应处置能力的一种方式,最终是为了决策与行动、安全能力的落地。页码(104)

【同城混合云模式】是基于本地云服务商建立的云模式。同城混合云模式优势在于可以与自己机房网络专线拉通,大大降低网络时延,网络质量相对稳定,同时成本也相对较低。这种优势主要体现在地域和网络资源质量上。页码(6)

【Undo】(撤销):还原为操作之前的状态。页码(22)

【UV】(Unique visitor):用户访问量,多次访问记为一次。页码(170)

【VLAN】(虚拟局域网):是一组逻辑上的设备和用户,这些设备和用户并不受物理位置的限制,可以根据功能、部门及应用等因素将它们组织起来,他们相互之间的通信就好像它们在直接互联在一个局域网一样。页码(31)

【VPN】VPN用于在公用网络上建立专用网络,进行加密通讯。VPN接入客户端通过VPN网关对数据包加密和数据包目标地址的转换实现远程访问。页码(106)

【VV】(Visit View):用户访问量,多次访问记为多次。页码(170)

【WAF】(Web Application Firewall,WEB应用防火墙):用来对外部的 Web 服务进行保护。通过一定的业务规则配置和识别来阻止恶意访问。页码(107)

【网络防火墙】网络防火墙是一种用来加强网络之间访问控制的特殊网络互联设备,对流经它的网络通信进行扫描,禁止不允许的端口和IP通信。页码(107)

【网页防篡改系统】对Web站点目录提供全方位的保护,防止黑客、病毒等对目录中的网页、电子文档、图片等任何类型的文件进行非法篡改和破坏。保护网站安全运行,维护政府和企业形象,保障互联网业务的正常运营。页码(108)

【网闸】由两套各自独立的系统分别连接安全和非安全的网络,两套系统之间通过网闸进行信息摆渡,保证两套系统之间没有直接的物理通路。在通信过程中,当存储介质与安全的网络连通时,断开与非安全网络连接;当与非安全网络连通时,断开与安全网络的连接;通过分时地使用两套系统中的数据通路进行数据交换,以达到隔离与交换的目的。页码(107)

【网站安全检测】一般用于对互联网服务的网站上,全面检测网站可用性、挂马、敏感信息、漏洞等情况,并对安全情况进行报警通知的服务。页码(108)

【微服务】(MA ,Microservice Architecture):应用组件化、服务无状态化、标准而轻量级的通信协议、去中心化、故障处理设计和实时监控。这是一个面向运维的架构,需要实现指标接口、链路跟踪注入、日志引流、服务注册发现、路由规则等组件以及熔断、限流等功能。页码(17)

【系统测试】(system test):也称端到端的系统功能测试,一般用于未部署的新系统或进行了功能模块大型调整的情况。系统测试包括冒烟测试和回归测试两项功能测试。页码(126)

【系统工程】:配置生产系统、修改现存配置,或者用写脚本、操作文档等方式通过一次性工作可以对系统产生持久改进的方法。页码(68)

【系统可用性指标】以某段时间内服务不可用的时间比例来计算的服务质量评价方法。页码(90)

【限流】对于应用或基础部件的某些核心指标超出系统承诺容量的情况,决定是否将后续的请求进行拦截并进行流量抛弃,直接针对新请求返回服务不可用(如HTTP503)的方法,称为限流。页码(228)

【性能测试】(performance test):用于保证整个系统的性能自始至终保持在可接受范围内,性能测试可以保证随着时间推移系统性能不会下降,或者资源要求不会升高。页码(128)

【一致性】(consistency):事务的执行不能破坏数据库数据的完整性和一致性,一个事务在执行之前和执行之后,数据库都必须处于一致性状态。页码(286)

【应用配置】应用对象的属性和关系信息,是跟业务和代码逻辑无关的配置,改动应用配置不会改变业务逻辑,但是它跟环境相关。页码(147)

【优雅降级】(graceful degradation):是指返回一个精确度降低的回复,或者省略回复中一些需要大量计算的数据的方法。具体到信息系统,是指对于非核心的功能,在峰值时刻,主动把功能关掉,以降低系统压力。页码(232)

【原子性】(atomicity):一个事务(操作流程)要么全部提交成功,要么全部失败回滚,不能只执行其中的一部分操作,这就是事务的原子性。页码(286)

【原子性操作】:在复制状态机中,如果出现一个有效事务(transaction),则事务的输入集会使得系统的状态转变为下一个状态,事务对数据进行原子性的操作,意味着操作要么整个完成,要么操作回滚当做什么也没发生。页码(299)

【原子性广播】:分布式系统的一个原语,指整个系统的参与者都可以可靠地接收到消息,并且以同样的顺序来处理这些消息。页码(299)

【云原生】(Cloud Native):是一个思想的集合,包括DevOps、持续交付、微服务、敏捷基础设施(Agile Infrastructure)、康威定律(Conways Law)等,以及根据商业能力对公司进行重组。页码(48)

【运维堡垒机】堡垒机完成运维操作的权限管理及日志记录,保存着主机列表、主机用户名、权限配置等信息。页码(106)

【增量备份】:指在一次全备份或上一次增量备份后,对数据对象变更的备份。页码(269)

【战略性乐观者】(Strategic Optimist)在事情发生之前对自己的表现会产生乐观期待,甚至乐观幻想,以激励自己更好的完成任务,这种人被称为战略性乐观者。页码(67)

【主机加固】安全加固服务是指是根据专业安全评估结果,制定相应的系统加固方案,针对不同目标系统,通过打补丁、修改安全配置、增加安全机制等方法,合理进行安全性加强。页码(107)

【自建机房】是指自行投资进行场地的建设、基础设施的建设、网络带宽的接入、维护人员的招聘等等。页码(1)

上一篇:如何快速实现告警短信的通知方式?(怎么样用短信报警)
下一篇:如何在企业微信中告警的通知、认领和关闭?(微信里面企业通知怎么关闭)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~