V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
Felldeadbird
V2EX  ›  云计算

前沿数控的云事故,是不是说明云并不安全?

  •  1
     
  •   Felldeadbird · 2018-08-06 13:05:44 +08:00 · 7323 次点击
    这是一个创建于 2336 天前的主题,其中的信息可能已经有所发展或是发生改变。
    今天看新闻,腾讯云出事故了 https://www.cnbeta.com/articles/tech/754293.htm

    文中提到:这次故障中,“前沿数据”也表示目前没有任何本地本分数据用来恢复。

    按照字面理解,云上数据应该是很安全的,毕竟行业是这么吹的。从这个事故中,是否可以推断低几率事件的存在,云就肯定不安全呢?
    57 条回复    2018-08-08 19:51:27 +08:00
    ScotGu
        1
    ScotGu  
       2018-08-06 13:10:22 +08:00   ❤️ 1
    1.当 SLA 是什么?

    2.安全又不代表 100%。

    3.墨菲定律
    abcbuzhiming
        2
    abcbuzhiming  
       2018-08-06 13:12:04 +08:00
    楼主你没坏过硬盘吗,云上说白了不就是一堆物理主机装个虚拟机,凭什么更安全?
    所有的安全都是建立在冗余备份上的,云要是不备份,凭什么更安全呢?
    kulove
        3
    kulove  
       2018-08-06 13:14:28 +08:00
    什么都不安全。。
    但是,这些云不都有异地灾备的么?
    leokino
        4
    leokino  
       2018-08-06 13:17:31 +08:00
    看文章似乎并没有异地容灾。
    kera0a
        5
    kera0a  
       2018-08-06 13:22:27 +08:00 via iPhone
    期待云服务器能把备份也做好。
    云服务应该算一整套解决方案吧,这种基础性工作还得用户单独来做有点麻烦了

    这个例子就算用户备份好像数据也会丢,写进去后读出来是错的,自然备份也是错的吧
    opengps
        6
    opengps  
       2018-08-06 13:22:49 +08:00   ❤️ 2
    楼上别说远了,异地容灾似乎跟这个事件毫无关系。这家数控应该只是买台虚拟机而已,这么低的成本哪里包含异地容灾服务了
    coldear
        7
    coldear  
       2018-08-06 13:25:06 +08:00
    云服务条款里面 durability SLA 是多少?

    比如亚麻 s3 durability:
    "Amazon S3 Standard, S3 Standard – IA, S3 One Zone-IA, and Amazon Glacier are all designed to provide 99.999999999% durability of objects over a given year. This durability level corresponds to an average annual expected loss of 0.000000001% of objects. For example, if you store 10,000,000 objects with Amazon S3, you can on average expect to incur a loss of a single object once every 10,000 years. In addition, Amazon S3 Standard, S3 Standard-IA, and Amazon Glacier are all designed to sustain data in the event of an entire S3 Availability Zone loss."

    没有达到就告呗
    coldear
        8
    coldear  
       2018-08-06 13:25:26 +08:00
    云服务条款里面 durability SLA 是多少?

    比如亚麻 s3 durability:
    "Amazon S3 Standard, S3 Standard – IA, S3 One Zone-IA, and Amazon Glacier are all designed to provide 99.999999999% durability of objects over a given year. This durability level corresponds to an average annual expected loss of 0.000000001% of objects. For example, if you store 10,000,000 objects with Amazon S3, you can on average expect to incur a loss of a single object once every 10,000 years. In addition, Amazon S3 Standard, S3 Standard-IA, and Amazon Glacier are all designed to sustain data in the event of an entire S3 Availability Zone loss."

    没有达到就 gao 呗
    kulove
        9
    kulove  
       2018-08-06 13:28:18 +08:00
    @opengps 不要似乎, 也不要用应该,你就知道别人只是用的虚拟主机了?
    kulove
        10
    kulove  
       2018-08-06 13:29:40 +08:00   ❤️ 3
    @opengps 云硬盘( Cloud Block Storage,CBS )为您提供用于 CVM 的持久性数据块级存储服务。云硬盘中的数据自动地在可用区内以多副本冗余方式存储,避免数据的单点故障风险,提供高达 99.9999999% 的数据可靠性。
    这是官方的介绍,“云硬盘中的数据自动地在可用区内以多副本冗余方式存储”,这有什么好洗地的?
    nciyuan
        11
    nciyuan  
       2018-08-06 13:34:29 +08:00 via Android   ❤️ 1
    插个队
    ........腾讯云可特么奇葩呢
    网络质量奇葩的一比,白天的时候就在现在,刚才从 GitHub 上 clone,速度为数 KB/s。前几天从 Apache 基金会的 SVN 服务器 checkout,是大量的小文件,白天速度 10-20KB/s,还有从 IETF 的 rsync 服务器同步一些东西,小文件还行,感官比较快。大文件 30-40KB/s。
    你们有见过 8 个小时才下 1GB ?最后我终于熬到了夜里一点半,忍痛 Control + C,接着重新输入指令
    然后我感到的无形之中的风,非常凉爽
    Σ>―(〃°ω°〃)♡→
    网速好到不行,连连脱口而出-----爽
    看着 SSH 的网速每秒 100+KB/s,Grafana 监控(存在延迟)到服务器的带宽保持在 10+MB/s,百十 KB 级别小文件仍然能保持 3-7MB/s 的速度。
    在不到一个小时的时间内,近 20GB 左右的数据下载完了,内心
    (/≧▽≦)/~┴┴
    Felldeadbird
        12
    Felldeadbird  
    OP
       2018-08-06 13:49:35 +08:00
    @abcbuzhiming 云 不是表示 数据都有多重备份么。如果只是一组备份,那就不应该叫云了。我是这样理解的。
    Nobitasean
        13
    Nobitasean  
       2018-08-06 13:59:10 +08:00   ❤️ 2
    @Felldeadbird 云没有表示数据有多重备份,云的解释比较模糊
    gam2046
        14
    gam2046  
       2018-08-06 14:05:34 +08:00   ❤️ 1
    这个故事更说明了,不要什么东西老想着自己做。

    给别人做,出了问题能甩锅。自建,出了故障,到时候你怎么办?锅都没法甩啊。
    mhycy
        15
    mhycy  
       2018-08-06 14:06:52 +08:00   ❤️ 1
    吹归吹,好好了解下云平台的架构(特指云服务器平台)就会知道,那东西本质上就是一个虚拟机。
    问题来了:虚拟机的安全性与可靠性由什么来决定?

    归根结底还是对技术的不了解,对数据的不负责。
    maichael
        16
    maichael  
       2018-08-06 14:07:35 +08:00
    云再靠谱也不是 100%,何况还是不靠谱的居多。
    abcbuzhiming
        17
    abcbuzhiming  
       2018-08-06 14:08:27 +08:00   ❤️ 3
    @Felldeadbird 云从来没表示过有这种说法
    crab
        18
    crab  
       2018-08-06 14:11:08 +08:00
    @kulove 感觉异地容灾很多都是忽悠的,记得之前看到因为光纤被挖断最后也得老老实实等。
    imdong
        19
    imdong  
       2018-08-06 14:41:53 +08:00
    不要相信任何人与任何机构的承诺。
    真正重要的东西,就应该多重备份。
    在云上,丢了,云赔钱,数据没了。
    有些东西不是钱能买来的。
    jadec0der
        20
    jadec0der  
       2018-08-06 14:44:03 +08:00
    @kulove 腾讯云说的是「一块操作系统云盘」,我理解就是 VPS 的硬盘,不是云硬盘,也不存在多备的情况。
    kulove
        21
    kulove  
       2018-08-06 14:53:52 +08:00
    @jadec0der 买了云服务器,默认送了 20G 系统盘,但是这个系统盘是可以在云硬盘界面看到的。。
    bhaltair
        22
    bhaltair  
       2018-08-06 15:01:32 +08:00
    本地备份+1
    jadec0der
        23
    jadec0der  
       2018-08-06 15:03:14 +08:00
    @kulove 我看了一下腾讯云控制台,确实没有做区分,把系统盘和弹性盘都放在云硬盘里,但是我猜应该不是一样的东西。

    弹性盘是同可用区内都可以挂载的,机器和系统运行的机器不一定是同一台,可能是通过网络访问硬盘的。系统盘显然没有通过网络访问的道理。
    opengps
        24
    opengps  
       2018-08-06 15:04:59 +08:00
    @kulove 仔细看下,云硬盘在可用地多副本,不是异地,异地容灾说的至少是跨城市级别,腾讯这个三副本只是同机房里存三份数据。类似于 raid1,至不过数量是 3,这三份是同时进行读写的
    isCyan
        25
    isCyan  
       2018-08-06 15:08:04 +08:00   ❤️ 1
    @jadec0der 系统盘也分类型的,现在云上大部分除了本地 SSD 都是云盘啊
    liprais
        26
    liprais  
       2018-08-06 15:08:21 +08:00
    说明以后不做备份的运维直接开除就行了
    opengps
        27
    opengps  
       2018-08-06 15:09:15 +08:00   ❤️ 2
    借楼解读下:(我也是被人问烦了,技术服务中,总有人问我阿里云有没有 vps,答案是没有!)
    VPS:单个物理服务器里的虚拟机(虚拟机硬盘往往用的是母鸡的硬件)
    云服务器:物理机集群里的虚拟机(虚拟机硬盘用的往往是共享存储的硬盘)
    假设物理机遇到硬盘故障,VPS 跟着母鸡一起死。云服务器可以自动漂移到其他母鸡上继续运行。所以云服务器的可用性就是高于 VPS 的
    kulove
        28
    kulove  
       2018-08-06 15:09:43 +08:00
    @jadec0der 如果没区分的话,认为有灾备的话没问题,毕竟说明页也没说不包括系统盘不是。

    @opengps 同机房的三份数据硬盘都坏了..也说不过去吧...
    MrCurly
        29
    MrCurly  
       2018-08-06 15:13:53 +08:00 via iPhone
    同意二楼,安全建立在冗余上,而云这个概念显然不包括冗余,冗余应该是为了云安全而使用的手段。
    YvesX
        30
    YvesX  
       2018-08-06 15:20:39 +08:00   ❤️ 3
    我就是冲着这些基础建设的服务购买各种云计算产品的。
    连容灾都要我自己做,怎么不让我自己部署机房备用网络呢?
    opengps
        31
    opengps  
       2018-08-06 15:21:15 +08:00
    @kulove 我也觉得不应该。按照目前腾讯给出的解释,是硬盘的写入读出不同,这个描述其实有点模糊,三副本毕竟都还是虚拟磁盘文件。
    虽然三个副本,正常情况下写入内容相同,但是底层存储由于是不同的物理底层,按理物理磁道说不会相同,可以排除掉是同一批硬盘同时触发这么一个极端情况。
    既然事实是同时坏三个副本的数据,那么问题应该归结于镜像存储的软件(软 raid 之类的底层软件),而不是归结给物理硬盘
    有存储届的朋友提过,这种情况不会是单个案例,应该还有其他同类情况出现没有被发现,可能是由于这样的原因,腾讯选择下架整个同批次硬盘
    lshero
        32
    lshero  
       2018-08-06 15:31:34 +08:00   ❤️ 2
    只能说明一些公司的产品经常进行虚假宣传

    https://azure.microsoft.com/zh-cn/features/resiliency/
    这样详细教育客户怎么构建高可用的业务才敢宣称 99.99%
    不知道某些云 99.9999999% 的数据可靠性是怎么算出来的
    ladypxy
        33
    ladypxy  
       2018-08-06 15:32:55 +08:00
    @YvesX 云只是给你一台虚拟机。。。和容灾没有关系啊。。像我们现在公司上云,所有的服务器全是 aws 一份,azure 一份,互相备份。。
    msg7086
        34
    msg7086  
       2018-08-06 15:58:20 +08:00
    云计算原本的定义是利用资源池有效地分配资源,方便地伸缩架构,可以用微小的工作( API 脚本等)完成资源的申请和释放。
    云这个概念本身就没有涉及到数据安全性,而且恰恰相反,云是利用伸缩架构来降低对可用性的要求的。
    比如 AWS 上,多个 EC2 节点,多个 LB 节点,分布在多个机房的多个可用区里,其中任何一个节点离线、重启,都不会影响业务正常运行,因为会自动 Failover 到其他节点去。所以对云计算来说,单个虚拟服务器挂掉是很寻常的事情。
    我司之前有一个 VPS 放在 AWS EC2 上,结果某一天登录上去发现机器被重启过了。也没有警报也没有通知什么的,他就给你重启了。道理很简单,厂家默认你有几十几百台机器一起跑,重启一台根本不会影响系统正常运行。至于你只有一台,那是你选错了产品罢了。

    之前看过一篇说 AWS 的文章,开头上来就是一句:如果你每个服务只开一台机器跑,那就别用 AWS (云计算)!

    最后再说一句,云计算是个市场营销术语,强行区分 VPS 和云服务器是没有意义的。VPS 是虚拟专用服务器的缩写。每一台云计算服务器本质上都是「虚拟的」「专用的」「服务器」,也就是 VPS。
    ryd994
        35
    ryd994  
       2018-08-06 16:18:25 +08:00 via Android   ❤️ 1
    @lshero 咳咳,其实 azure 的可用性比 AWS 略差
    这是内部自己承认的,sla 有满足,但是最后统计下来就是差一点
    当然,现在也在不停改进
    ryd994
        36
    ryd994  
       2018-08-06 16:29:06 +08:00 via Android
    @opengps “云服务器可以自动漂移到其他母鸡上继续运行”
    你说的是 live migration 么?
    技术上可行,实际上直接给你在另一台 host 上重启比较快
    你说的 host 硬盘故障问题不存在。因为计算节点和储存节点是分离的。计算节点不储存用户数据,通过网络挂载。本地 SSD 是有,但是本地 SSD 不保数据
    计算节点能故障啥?要么网络要么 CPU,这都不是可以热迁移的情况。唯一有用的就是如果要维护节点,可以把虚拟机迁移走再维护。但是其实现在都有在线升级的能力,必须关机维护的情况非常少(比如去年的 spectre 就是一例)。完全可以等用户自己业务需要关机的时候,逐步退役,最后再把剩下的全部重启一遍。反正 sla 只保 uptime,不保证不重启
    opengps
        37
    opengps  
       2018-08-06 16:48:03 +08:00
    @ryd994 live migration 没听过。
    用过 VMware Vsphere 虚拟化平台的知道这个热迁移的意思。可能的故障太多,在小概率也是概率。比如你说计算节点故障不会有,但我轻松可以举反例说主机掉电。计算节点用的任何组件,电容可能击穿,电阻可能变化等等很多不太可能出现但是却一定有的反例。

    A 一般故障自动热迁移,(管理员经常手动热迁移下架某台物理服务器)
    B 部分无法实现热迁移的故障,会自动迁移后自动重启(为了保证业务不断,这里需要软件设计成跟随系统重启)
    C 极少数故障,迁移 cpu 内存资源之后不能重启(灾难级故障,普通人员遇到了无解,手动使用万能重启法解决)

    用我的分类 ABC,可以看出,可用性(用时长计算):
    A 足够解决时候是 100%(业务无中断)。
    B 方案解决时候是重启和恢复业务压力所需要的时间(业务中断几分钟)。
    C 类别则是人工排除掉故障所用的时间(往往是几小时到几天)
    night98
        38
    night98  
       2018-08-06 17:46:44 +08:00
    自动快照,应该是可以挽救大部分数据的。

    但是按照腾讯云给的说明,消费才 3K 多,应该是只有单服务器的价格消费,这样丢了所有数据,也是运气有点好。。
    huanxianghao
        40
    huanxianghao  
       2018-08-06 18:40:27 +08:00
    @YvesX #30 你这思路也是奇特。那是不是你买车,卖车的应该送你终生的保险?然后顺便给你配个司机?

    其实是可以包全套的,只要你给钱,钱给够了,什么都可以让别人给你做。
    woshipanghu
        41
    woshipanghu  
       2018-08-06 18:52:47 +08:00
    快照是最基础的服务
    能出这种事故技术多么的不成熟
    woshipanghu
        42
    woshipanghu  
       2018-08-06 18:54:00 +08:00
    丢个一两天的数据还能理解 全丢 这是什么骚操作
    princeofwales
        43
    princeofwales  
       2018-08-06 18:55:10 +08:00
    很简单,很多所谓的云,都是假云
    为什么很多大厂的磁盘 I/O 也只有 30、40MB/S,不是他们用不起 SSD,是因为你看到的盘,基本都是网络挂载的,多份冗余
    很多云的概念都被一些廉价的 VPS 混淆了,比如测速脚本里的 I/O 测试,好几百 M 好牛逼啊。人家只是一台物理机的物理硬盘,能做个 RAID10 已经是业界良心了,哪里搞得了商用级别的分布式存储。
    hugedata
        44
    hugedata  
       2018-08-07 09:02:46 +08:00
    @kulove 说明页写明了“不包含系统分区”了吗?
    kulove
        45
    kulove  
       2018-08-07 09:12:02 +08:00
    @hugedata 没看到,我的意思是包含系统盘。
    byuc
        46
    byuc  
       2018-08-07 10:19:44 +08:00
    出事情指责用户不备份,和指责被 qj 受害者穿着暴露其实是同一个概念。

    我花那么多钱上云,数据说没就没了。还不如自建。
    jusalun
        47
    jusalun  
       2018-08-07 10:43:10 +08:00
    并不是,主要是前沿数控买的是基础版 2G CDB,单节点+hadoop 备份( 3 副本就是这么来的)
    而腾讯的备份是物理备份,XtraBackup 压完后并不会进行有效性检测,如果出问题的就是这个节点磁盘,那么这时候备份实际上以及被污染了,副本备份系统 hadoop 拖走的全是无效备份。
    因此才出现了 3 备份同时 GG 的奇特场景
    图贴不上来
    https://www.zhihu.com/question/288640327/answer/462001581
    ucanuup
        48
    ucanuup  
       2018-08-07 11:47:57 +08:00
    这个样子,还不如搬瓦工咯。
    Admstor
        49
    Admstor  
       2018-08-07 11:55:01 +08:00
    以当事公司的技术能力,如果他们自建服务器,即使采用 RAID 阵列,也可能因为没有注意到警告信息,直到服务器彻底挂了才反应过来
    所以结果上来说大概也没啥差别

    不是给腾讯洗地
    腾讯这次的故障真是极为低级和优质,架构上肯定存在问题
    stevenhawking
        50
    stevenhawking  
       2018-08-07 12:59:12 +08:00
    当年盛大云因为不对用户负责就凉凉了
    jmk92
        51
    jmk92  
       2018-08-07 13:00:23 +08:00
    类似于阿里、腾讯的灾备,许多人相信,某一个地方出现故障了,自动就切换了。

    殊不知,其实是手动切
    qiuqiuer
        52
    qiuqiuer  
       2018-08-07 14:49:43 +08:00 via Android
    Raid+固定 ip,+不间断电源,弄个源码改改,5 年了,表示没处过事。
    ZE3kr
        53
    ZE3kr  
       2018-08-07 15:40:36 +08:00 via iPhone   ❤️ 2
    @lshero 可用率和数据可靠性不一样。比如 AWS S3 可用率为 99.9%,数据可靠性为 99.999999999%
    lshero
        54
    lshero  
       2018-08-07 15:50:22 +08:00 via Android
    @ZE3kr 两个不同层面的东西对比确实不妥
    webjin1
        55
    webjin1  
       2018-08-08 08:25:36 +08:00 via Android
    哈哈,便宜,快,安全。那是不可能的
    CommandZi
        56
    CommandZi  
       2018-08-08 16:40:20 +08:00
    http://tech.qq.com/a/20180808/013486.htm

    腾讯给出的故障过程复盘,操作程序正确的话,大概就不会是这个后果了。
    levenmode
        57
    levenmode  
       2018-08-08 19:51:27 +08:00
    最近我们也准备上云,挺想用腾讯云的,出了这个事情有点犹豫啊。有种之前一直裸奔的感觉,看来还是得给业务备份。完全靠云厂商的服务器不靠谱。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2817 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 07:12 · PVG 15:12 · LAX 23:12 · JFK 02:12
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.