V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
congeec
V2EX  ›  程序员

Colt 贴出了 CDN 流量。煎蛋真的经不起你爬

  •  
  •   congeec ·
    congee · 2017-10-31 15:09:28 +08:00 · 12254 次点击
    这是一个创建于 2614 天前的主题,其中的信息可能已经有所发展或是发生改变。

    链接: http://jandan.net/pic/page-297#comment-3600673
    可以看出一个 ip 能占好多资源 img img

    讲道理,咱得有点良心对吧。人家煎蛋没咋盈利,真要倒了大家摸鱼都不自在。而且 tumblr 上的妹子多多了去了,经得起你玩,而且好多煎蛋上的妹子图都转自 tumblr。你要是一裤裆火憋不住的话,github 上还有硬盘女神

    第 1 条附言  ·  2017-10-31 15:51:07 +08:00
    第 2 条附言  ·  2017-10-31 17:09:07 +08:00


    貌似现在好一些了
    52 条回复    2017-11-03 14:53:13 +08:00
    Nostalgiaaaa
        1
    Nostalgiaaaa  
       2017-10-31 15:16:16 +08:00
    看到煎蛋底下评论骂声一片。。。真的惨
    Lentin
        2
    Lentin  
       2017-10-31 15:20:26 +08:00
    前排提示 tumblr 有 api 随便爬
    togodo
        3
    togodo  
       2017-10-31 15:22:54 +08:00
    公布爬虫代码的后果居然如此可怕。。。。
    f2f2f
        4
    f2f2f  
       2017-10-31 15:26:12 +08:00
    colt 表示晚上要来这怼人啦!准备好小板凳看戏啦!
    congeec
        5
    congeec  
    OP
       2017-10-31 15:27:38 +08:00
    @togodo 好多脚本小子拿来直接用......
    其实也有树大招风的因素,微软还天天受攻击呢
    qqwinds
        6
    qqwinds  
       2017-10-31 15:28:10 +08:00
    q 前排出售小板凳。。。
    zpf124
        7
    zpf124  
       2017-10-31 15:32:49 +08:00
    吃瓜看戏,小板凳准备好了, 话说有个帖子的哥们不是说 gz 解压之后总共才数据才 16M。

    爬 4/500 的那些大仙到底爬了多少遍,还是说爬虫算法写的太捉急了...
    avrillavigne
        8
    avrillavigne  
       2017-10-31 15:33:27 +08:00
    Livid 啥时候也来怼一波
    yuxuan
        9
    yuxuan  
       2017-10-31 15:35:04 +08:00
    前排看戏
    MrIndescribable
        10
    MrIndescribable  
       2017-10-31 15:35:20 +08:00
    我来带一波节奏:

    aHR0cHM6Ly9pLmltZ3VyLmNvbS9QeEF6SHZuLnBuZw==
    congeec
        11
    congeec  
    OP
       2017-10-31 15:39:26 +08:00
    @MrIndescribable 老哥稳👍,打开图前我还在想要不要买营养快线呢😂
    acoldfox
        12
    acoldfox  
       2017-10-31 15:42:04 +08:00
    笑死,从 V2EX 闹到煎蛋又要闹回来了
    mysql
        13
    mysql  
       2017-10-31 15:42:32 +08:00
    他用的什么 cdn
    MrIndescribable
        14
    MrIndescribable  
       2017-10-31 15:42:39 +08:00
    @congeec 我这是新号,图床链接不让发。。。
    aengui
        15
    aengui  
       2017-10-31 15:42:44 +08:00
    硬盘女神还能用吗?
    schema
        16
    schema  
       2017-10-31 15:43:55 +08:00
    某程序员炫耀。。。哈哈哈哈

    也不是一次两次了
    6IbA2bj5ip3tK49j
        17
    6IbA2bj5ip3tK49j  
       2017-10-31 15:44:27 +08:00
    @MrIndescribable

    帮你贴出来
    mdzz
        18
    mdzz  
       2017-10-31 16:06:13 +08:00
    在看到 /t/401866?p=1#r_4904906 50 楼看到下面这张图的时候

    这是启用了分布式爬虫吗?还是说每个请求都新建连接之后又不关闭?

    总之就是觉得这个爬虫技术有点次,还要去爬人家的站
    iCodex
        19
    iCodex  
       2017-10-31 16:09:55 +08:00 via iPhone
    @mysql 好像是又拍云
    yezhiye
        20
    yezhiye  
       2017-10-31 16:43:09 +08:00 via Android
    不是用微博的图床吗…看了下好像就图标还有些 js 文件什么的在服务器上,怎么会被爬掉这么多流量…
    anyele
        21
    anyele  
       2017-10-31 16:56:41 +08:00
    soulmine
        22
    soulmine  
       2017-10-31 16:59:54 +08:00   ❤️ 1
    恕我直言 把人家网站都爬垮的爬虫只能说明太次 无非是什么算法都不优化 一个页面来回爬十几遍 或者说爬起来内部逻辑死循环 一秒钟发了一千个请求 这些都是水平的差距 www
    soulmine
        23
    soulmine  
       2017-10-31 17:01:08 +08:00
    还有这破站有毛线好爬的 虽说我是拿 B 和 zhihu 还有 tieba 当练手的 www
    tumbzzc
        24
    tumbzzc  
       2017-10-31 17:01:59 +08:00
    还是爬 tumblr 吧,丢坟贴
    https://www.v2ex.com/t/316337#reply49
    jy02201949
        25
    jy02201949  
       2017-10-31 17:08:00 +08:00
    次数多了,流量没看出多了很多啊
    ctsed
        26
    ctsed  
       2017-10-31 17:10:29 +08:00 via Android
    @zpf124 他那只算了 html 页吧,几千几万张图片才 16m ?
    dven
        27
    dven  
       2017-10-31 17:18:20 +08:00
    哈哈哈为啥大家爬的资源都是妹子图
    hcnhcn012
        28
    hcnhcn012  
       2017-10-31 17:29:04 +08:00 via iPhone
    年度大戏?
    Osk
        29
    Osk  
       2017-10-31 18:12:37 +08:00 via Android
    https://{username}.tumblr.com/api/read/json?start={startpostnumber}&num={showposts}
    WordTian
        30
    WordTian  
       2017-10-31 18:36:40 +08:00 via Android
    30 日那天最多的那个爬了 105 万次,平均每秒 12 次多,丧心病狂啊
    zmj1316
        31
    zmj1316  
       2017-10-31 19:22:35 +08:00 via Android
    @ctsed 图片都是微博图床的
    xenme
        32
    xenme  
       2017-10-31 19:29:30 +08:00
    楼上好多厉害的爬虫老司机,合伙写个无影响又快速的煎蛋爬虫好了,或者直接官方出个压缩包,然后直接 BT 每天共享下载
    litter123
        33
    litter123  
       2017-10-31 19:42:12 +08:00
    @WordTian QPS 12,emmm......这很多吗? 105 万次是多了点,不过说实话,也就次数看起来多一点罢了,流量加起来跑了都没 10G 吧
    olOwOlo
        34
    olOwOlo  
       2017-10-31 19:54:18 +08:00
    刚刚翻了一下这个网站,首页不到 3000 页,妹子图、无聊图不过 300 页,其他更少。讲道理整站爬下来估计 5000 次请求左右,更何况图片请求全部在微博上(怎么没人心疼微博?),像第二张图这种明显明显明显有问题的 IP 稍微有点反爬机制都能 ban 了,还是说 CDN 不提供防火墙功能么 = =
    wisper
        35
    wisper  
       2017-10-31 20:05:33 +08:00
    @olOwOlo 因为定期清理。无聊图现在基本保持 300 的留存度,原来是一年到两年清理一次,现在没有教养的没事爬虫一挂,想摸鱼的蛋友就刷不了。所以你们这么牛逼你们自己做个摸鱼的站点啊,非硬生生把人逼得骂脏话才显得你们牛逼大发了吗
    wisper
        36
    wisper  
       2017-10-31 20:08:14 +08:00
    @litter123 煎蛋非盈利,本来就是 sein 老大的个人 blog,后来慢慢成蛋友摸鱼的地方。你可以说 clot 做的慢不好让他女装,但是恶意爬虫这是生孩子没屁眼的行为。
    WordTian
        37
    WordTian  
       2017-10-31 20:28:30 +08:00 via Android
    @litter123 哥们,爬虫不单是看流量的。高并发的时候,对服务器的 cpu 和内存资源消耗是很大。大公司招聘前后端程序员的时候,对这些东西的调优都会有一定要求的。

    针对每个请求,服务器得处理,得读写数据,得把请求的资源返回,这消耗的都是服务器的资源。

    而且那只是其中最显眼的一个爬虫,还有很多其他的爬虫,还有很多蛋友在正常浏览网站(不要小看蛋友的访问量)。整体的访问量还是很高的。

    再加上煎蛋还是基于 wordpress 的站。。。

    再加上站长投放的广告很少,盈利也不多,估计用的网站服务器性能也不咋地。。。
    x7395759
        38
    x7395759  
       2017-10-31 21:42:41 +08:00
    我觉的 clot 还是有套路的,其实要 ban 爬虫就这么难吗,技术上解决不了?
    MuaGeWang
        39
    MuaGeWang  
       2017-10-31 21:57:53 +08:00
    @x7395759 都是走的 CDN,没有到那边服务器
    banwagong
        40
    banwagong  
       2017-10-31 22:45:38 +08:00
    有没有大佬会做反代的?
    congeec
        41
    congeec  
    OP
       2017-10-31 23:01:32 +08:00 via iPhone
    @banwagong 很多人都会吧。貌似去年 V2EX 流行反代,GayHub 上一大堆反代 Google 的教程和代码
    soulmine
        42
    soulmine  
       2017-10-31 23:39:58 +08:00
    @xenme 没意义啊 就算有 zip 包 你还准备解压 然后在电脑上一个个看完么 本来就是个吐槽的地方
    realpg
        43
    realpg  
       2017-11-01 08:41:42 +08:00
    @zpf124 #7 很多入门写爬虫的都不会写兼容 gzip 的 request
    annielong
        44
    annielong  
       2017-11-01 10:03:44 +08:00
    爬虫咋占那么多资源,难道来个循环抓取吗,明显不正常
    xxdd
        45
    xxdd  
       2017-11-01 11:01:18 +08:00
    羡慕站长 可以积累丰富的反爬经验···
    yu099
        46
    yu099  
       2017-11-01 11:29:37 +08:00 via Android
    @annielong 可能抓评论?
    litter123
        47
    litter123  
       2017-11-01 12:15:28 +08:00
    @wisper 2333,确实不应该恶意爬虫
    @WordTian emmm....高并发确实很吃 CPU,但是前提是页面是动态的,煎蛋访问量这么大,早就全静态化了。

    wordpress 很庞大,体积很臃肿,效率比较低,但是,静态化以后资源利用几乎降为 0 (除了带宽资源)

    投放的广告虽然少,但是可是一提的,站长日入 500 以上(猜测,不对勿喷)
    WordTian
        48
    WordTian  
       2017-11-01 12:40:57 +08:00
    @litter123
    但是你没算支出啊

    技术:ECS 服务器,RDS 数据库,图床服务器,CDN 服务,Memcache 缓存,网络安全服务及日常维护。
    人员:煎蛋办公室全职员工工资及每月几十位兼职作者的稿费。

    当然,现在煎蛋办公室都没了,人员支出估计少了很多

    关于流量,昨天 sein 的原话:
    "被恶意爬站还被分享爬虫,导致煎蛋这几天高峰访问次数高达 1500 万次 /天
    如果是真实流量当然是好事,但近 9 成是爬虫"
    litter123
        49
    litter123  
       2017-11-01 12:46:48 +08:00
    @WordTian emmm......如果是这样,确实支出很多。

    不过我觉得你说的服务器,除了 CDN 1T 流量最多 300 元左右,其他都能在一台服务器上搞定,一台服务器价格大概 600 月付吧,就算买个 3、4 台组集群(逃
    q573709499
        50
    q573709499  
       2017-11-02 06:26:57 +08:00   ❤️ 1
    @litter123 站长已经多次表示这是他业余时间维护的小站,真日入 500 如何? 9 成流量来自爬虫,你说说怎么盈利,虽然蛋友发的妹子图,无聊图没有版权,好歹也是爱煎蛋的人,而不是我转载回去后声称都是我找的,我爬虫技术好棒棒。坛子里面那个收集妹子图做站点的,删除是删除了,还在他 qq 群里面声称开源爬虫代码,有能力就直接和大站玩啦
    Anhedonia
        51
    Anhedonia  
       2017-11-03 13:02:18 +08:00
    @mdzz
    牵出来看一下
    mdzz
        52
    mdzz  
       2017-11-03 14:53:13 +08:00
    @Anhedonia 圈我也没用啊,这些爬虫都不是我写的,也不是我分享的,我是直接分享爬取后的数据以免大家再次爬取
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5364 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 40ms · UTC 07:12 · PVG 15:12 · LAX 23:12 · JFK 02:12
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.