Apsara Stack 技术百科 | 数字化业务系统安全工程

比特启航
• 阅读 2059

简介:数字化平台已经与我们生活紧密结合,其用户规模庞大,一旦系统出现故障,势必会造成一定生活的不便。比如疫情时代,健康码已经成为人们出门必备的条件,一旦提供健康码服务平台出现故障,出行将变得寸步难行。因此,系统安全问题成为威胁企业正常运行的重大风险,其安全稳定将变的越来越重要。

Apsara Stack 技术百科 | 数字化业务系统安全工程

数字化时代,如果说哪些信息是最受关注的,能不能上“热搜”一定是评价的方法之一。在每天进入“热搜”的新闻中,有一类事件不仅上热搜的频率高,并且热搜的名称格式也高度统一,那就是“某某崩了”或者“某某打不开了”。这里“某某”指那些与我们生活息息相关的数字化平台,可能是购物平台,也可能是信息分享平台。之所以人们如此的关注这类事件,因为这些数字化平台已经与我们生活紧密结合,其用户规模庞大,一旦系统出现故障,势必会造成一定生活的不便。比如疫情时代,健康码已经成为人们出门必备的条件,一旦提供健康码服务平台出现故障,出行将变得寸步难行。

系统安全问题成为威胁企业正常运行的重大风险

数字化系统在给我们生活带来便利的同时,也提升了他在人们生活中的重要性,一旦系统出现故障,不仅仅会影响到业务的正常运行,也会影响到用户的日常生活和体验。因此,系统安全问题成为威胁企业正常运行的重大风险,其安全稳定将变的越来越重要。

在此背景下,一方面企业开始加大系统安全领域的投入,另一方面国家监管要求也变得越来越高。2021年6月10日,第十三届全国人民代表大会通过了《全国人民代表大会常务委员会关于修改[中华人民共和国安全生产法]的决定》,自2021年9月1日实施。新安全生产法首次提出平台经济等新兴行业、领域的生产经营单位应当根据本行业、领域的特点,建立健全并落实全员安全生产责任制,加强从业人员安全生产教育和培训,履行有关安全生产义务。在工信部和应急管理部印发《“工业互联网+安全生产”行动计划(2021-2023年)》中,也提出了要增强工业安全生产的感知、监测、预警、处置和评估能力,加速安全生产从静态分析向动态感知、事后应急向事前预防、单点防控向全局联防的转变,提升工业生产本质安全水平。

内部风险成为威胁系统安全的主要风险之一

在影响系统稳定和安全的原因中,按照其发生的主体,可以分为外部安全和内部安全,外部安全指常见由于黑客攻击、木马、DDOS攻击等原因导致的系统安全问题,而内部安全则是由误操作、变更故障、程序缺陷、硬件故障等原因导致的系统安全问题。外部安全属于信息安全的覆盖域,目前已经相对成熟,而内部风险的控制还是薄弱环节。

通过对企业内部安全故障原因分析可以发现,其中变更类故障导致的安全问题约占60-70%,环境变化类故障(如流量过大)导致的问题约占约15-25%,硬件类故障约占约5-15%。由此可见,由于变更风险导致的系统安全问题是威胁系统安全的主要风险之一。

传统风险控制方法难以解决内部风险带来的系统安全挑战

传统变更风险的控制是通过制度规范、宣贯、审批等方式来进行控制,由于风险控制复杂性,通过传统方式进行风险管控存在较大挑战,主要表现在:

1)产品更新迭代快,仅靠制度和人工审核控制风险难度大。由于目前数字化产品研发追求敏捷性,产品迭代频繁,可能导致系统故障发生频繁,而规章制度难以深入到产品研发、运维细节中,执行难度较大。通过人工审核、审批的方式成本高,难以直接量化风险,在需要大量审核的场景下,容易忽视风险。

2)系统安全涉及范围广,控制成本高。范围广主要体现在数字化系统和人员范围广,数字化系统包括重要业务系统、相应变更系统(云资源变更、应用变更、业务变更);人员包括产品、研发、测试、运维、运营人员等。

3)点状风险控制方案难以有效控制风险,控制效果差。风险控制是复杂系统工程,控制效果受短板影响明显,没有体系化控制手段,难有效控制风险发生。

解决方案实践

系统故障诱因复杂,这导致单点控制很难解决问题,需要一个系统化解决方案。第一届天猫双十一,开发和运维人员需要整夜保障,随时解决出现的问题,即便这样,也会出一些意想不到的故障。2020年双十一用户数量和销售规模与第一届双十一对比,已经不可同日而语,系统也更加复杂,但双十一大促系统保障过程却越来越流畅,保障人数也在持续降低,这背后就是一个系统化解决方案。

组织的顶层设计

组织设计是指从组织层面设置专门组织机构来负责系统稳定和安全,包括最高层安全生产委员会和各个研发部门稳定性负责人。安全生产委员会职能包括负责全局稳定性决策、安全生产规则制定、整体应急协同、安全文化培养、全局管控系统的规划与管理。当故障发生时,由相关人员负责故障应急与统筹,各研发部门稳定性负责人负责各系统风险治理和稳定性保障,在研发、运维过程中避免系统故障出现。

事前的风险预防

防患于未然是安全最高能力。首先,事前风险预防包括事前分析系统各个组成要素、组成要素可能面临威胁和存在脆弱性,并将分析结果作为安全治理输入。对于威胁,需要制定相应措施避免或减少威胁发生。对于脆弱性,需要针对性进行巩固,比如对于经常会导致系统故障的系统变配操作,通过统一的变更平台集中管理各种变配申请,从而实现对变配操作集中管控。其次,通过最小权限原则,限制操作人操作权限,包括操作时间限制、操作对象限制和操作范围限制。另外,每一次的变配操作,系统可以根据操作人、操作对象、操作类型等要素,计算操作过程中存在的风险,一旦发现过程中存在确定风险,则会直接阻断当前操作;如果是高风险,则会发起交叉确认流程;如果是低风险,则会直接放行。这种方式,既实现了对风险的实时管控,防止由于人为失误导致故障,同时又平衡了研发效率与安全生产间关系。

事中的实时观测

快速发现是避免损失扩大的重要手段。首先,在系统运行过程中,通过业务指标观测、应用程序观测、云资源观测相结合的方式,能够及时发现系统存在的问题,一旦发现故障,按照事先制定的预案,系统会通知相关人员进行处理。其次,基于大数据和人工智能算法,平台会实时预测相关指标变化趋势,将故障预警时间再次提前。

事后的快速恢复

尽管事前事中制定了详尽的方案,但是还是很难避免故障发生。一旦故障发生,如何快速进行故障恢复就是首要事情。按照故障不同类型,可以使用故障恢复手段有限流、拦截、熔断、快恢、降级、扩容、切流、重启等。不同恢复方式都需要有相应系统支持和日常演练测试。

故障恢复后,安全生产委员会还需要组织相关人员排查和分析故障原因,制定整改方案,确定故障责任人,推进和落实整改方案,防止相同故障再次发生。

业务系统安全工程

从以上的实践过程可以看出,企业很难依靠单一手段解决系统故障,而需要通过系统化的手段,从顶层的组织设计、事前的风险分析和策略制定、事中的持续监测和预警、日常的演练和事后的应急响应等多方面进行控制。

在传统行业中,为了保证生产经营活动能够正常运行,国家制定了一系列的措施使生产过程在符合规定的物质条件和工作秩序下进行,从而有效消除或控制危险和有害因素,减少人身伤亡和财产损失,保障人员安全与健康、设备和设施免受损坏、环境免遭破坏。在建筑、石油化工、交通运输、航空航天等行业,安全生产已相对成熟和完备,但在互联网领域还是空白。以下图采矿业安全生产流程为例,我们可以看出安全生产的管理要求已经落实到了作业的各个过程和环节。

Apsara Stack 技术百科 | 数字化业务系统安全工程

参考传统行业中的安全生产解决方案,同时结合阿里巴巴内部的最佳实践,我们提出了业务系统安全工程解决方案,该方案是指导业务系统防范故障的安全指南,其目标是通过预防、监测预警、应急响应等手段,减少业务系统故障,保障业务系统稳定、可用和可靠,防范由于业务系统故障导致的资产损失和用户影响。

业务系统安全工程框架

由于业务系统以及故障原因的复杂性,单纯的从一个或多个点出发很难解决问题。业务系统安全工程以控制论和系统论为指导,以风险控制方法为工具,形成了自己的实施框架 IPDRI,即识别(identify)、预防(protect)、监测(detect)、恢复(recover)和改进(improvement)五个环节。从事前、事中、事后进行风险的控制,形成闭环的反馈网络。

Apsara Stack 技术百科 | 数字化业务系统安全工程

其中,识别包括资产分析、威胁识别、脆弱性识别等。预防是为了避免风险的发生而采取的一定的预防措施。监测是监测系统和保护措施是否在正常的运行。恢复是在故障出现时快速的采取措施恢复系统的运行。改进是查找故障原因,制定改进方案避免相同故障的再次发生。

业务系统安全工程标准

在此背景下,阿里云联合国家信通院牵头起草了《基于云计算的数字化业务安全工程标准》,该标准是国内首部聚焦于保护系统持续正常运行的行业标准。标准核心目标是保护业务系统能够持续正常运行,防范由于业务系统故障导致资产损失和用户影响,保证系统可用、稳定和可靠。

Apsara Stack 技术百科 | 数字化业务系统安全工程

标准规定了企业实现业务系统持续正常运行需要具备的各项能力,包括组织设计能力、风险分析与识别能力、策略与管控能力、监测与预警能力以及应急响应能力。

Apsara Stack 技术百科 | 数字化业务系统安全工程

其中:

· 组织设计能力规定企业应设立顶层安全生产委员会,下辖公司安全生产部门,用技术手段提升风险控制能力,保障业务稳定;打造安全生产文化,确保人人重视、有持续性提升;明确行为准则,用机制保护人,减少犯错,降低损失,以此快速推进稳定治理,大幅收敛公司全局性故障和重大影响故障。

· 风险分析与识别模块帮助企业通过对系统脆弱性、业务安全生产需求、系统已发生故障分析,寻找影响信息系统安全生产的潜在风险。

· 策略与管控模块是针对已经分析发现的风险制定安全生产管控策略,通过降低、预防威胁发生,提前巩固、消除脆弱性等手段预防风险的发生。

· 观测与预警模块是通过业务状态观测、云资源状态观测、大数据风险分析与预警以及预警管理等能力,快速发现风险。

· 应急响应模块规定了企业缩短故障时间、快速恢复故障应该具备的响应和快恢能力,包括容灾演练、切流、限流、降级、重启、拦截、扩容等能力。

总结

系统安全受内部和外部双重影响,在防止企业系统受外部影响上,信息安全目前相关理论研究和产品建设已经较为完善。当前系统故障更多原因是由于企业内部问题导致,安全工程成为降低系统故障体系化解决方案。

随着企业上云和用云深入,阿里云混合云安全工程为企业上好云、安全用云提供了全套解决方案, 内容包括:安全工程标准培训、企业安全工程标准评测认证(联合信通院)、安全工程产品体系(运维风控等)、业务稳定性咨询等产品与服务, 提升云上业务的安全可控。

原文链接
本文为阿里云原创内容,未经允许不得转载。

点赞
收藏
评论区
推荐文章
Wesley13 Wesley13
3年前
RPA有哪些网络风险?如何通过RPA提升组织安全性
RPA有哪些网络风险?如何通过RPA提升组织安全性随着RPA市场的活人,在当前商业环境中,RPA已成为企业实现数字化转型的重要组成部分。由于RPA机器人的跨平台、跨系统的特性,其可普遍应用于企业各项业务中。所以,RPA项目既应通过保护机器人平台来应对网络风险,也应利用机器人技术来执行更有效、更高效的网络操作。组织必须建立对其RPA平台的信任
Wesley13 Wesley13
3年前
JAVA代码载入史册,但还有80%程序员没有彻底理解IOC...
前几天,在全国抗击新冠肺炎疫情表彰大会上,阿里的三行健康码代码被载入史册。健康码在疫情防控期间,是中国数字化抗疫见证。这三行代码分别是:支付宝团队研发的健康码系统第一行代码;阿里云研发的全国健康码引擎第一行代码;阿里巴巴达摩院研发的新冠肺炎CT影像AI辅助诊断产品第一行代码。!(https://oscimg.oschina.net/o
Wesley13 Wesley13
3年前
IDC:混合云和软件定义是未来数字基础架构的主流模式
1、数字化转型帮助用户再后疫情时代抢占先机虽然疫情已经大体平息,但我们可能永远都不会回到疫情发生前的生活方式,在这种背景下,数字化转型会给人们的生活和工作带来更大的助力。以前我们的工作大部分是面对面开展的,但是疫情使很多人开始通过线上合作、线上会议、线上视频的方式来开展工作,而支撑这些场景的就是IT基础架构。我们观察到全球的数字化已经进入了一个新阶段
wnm wnm
3年前
万能码的码上付来袭(安全扫码专业委员会)
万能码的码上付来袭(安全扫码专业委员会)二维码的常见程度是很高的,甚至可以说我们的生活已经处在二维码当中,就支付来说,已经成为生活的刚需,早在很早之前支付宝就推出了首付款,多种软件APP扫描都可以支付,但有一个缺点就是需要收一定的点,因此对商家来说也是不便的,新上线的码上付则不属于第三方,拒绝手续费,便利商家。
曼成 曼成
1年前
探索实人认证API:保障在线交互安全的关键一步
在数字化时代,随着人们生活的日益数字化,各种在线服务的普及,安全性成为用户体验的至关重要的一环。特别是在金融、电商、社交等领域,确保用户身份的真实性显得尤为重要。而实人认证API作为一种先进的身份验证技术,正在成为保障在线交互安全的关键一步。
曼成 曼成
1年前
数字化风险管理:利用企业失信人API提前预警合作潜在风险
在当今数字化时代,企业面临着日益复杂的商业环境和风险。为了保障商业合作的安全可靠,数字化风险管理变得至关重要。其中,利用先进的技术工具如企业失信人API,提前预警合作潜在风险成为企业经营中的一项关键策略。
玩转服务器之应用篇:从零开始构建小型高可用环境
搭建高可用环境,可以消除单点故障的影响,使系统在出现故障时自动地切换到其它节点,保障系统的平稳运行,提高系统的可靠性和可用性,同时保证数据的安全性,高可用环境已经是现代企业应用的标配。
E小媛同学 E小媛同学
1年前
身份证二要素核验-实名认证API:数据隐私的守护先锋
在当今数字化世界中,数据隐私和安全问题变得尤为重要。随着互联网的普及,个人信息的泄露已经成为潜在的威胁。为了应对这一挑战,身份证二要素核验实名认证API成为了数据隐私的守护先锋,提供了一种强大的工具来确保个人信息的安全。
E小媛同学 E小媛同学
1年前
IP应用场景查询API:深入了解网络用户行为的利器
随着数字时代的不断发展,互联网已经成为人们生活的重要组成部分。而随着越来越多的业务和社交活动迁移到在线平台上,了解和理解网络用户行为变得至关重要。为了满足这个需求,IP应用场景查询API崭露头角,成为深入了解网络用户行为的利器。