V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
415829566
V2EX  ›  Python

默默的撸了套爬虫,本以为可以爬点残羹剩饭,突然发现想太多

  •  
  •   415829566 · 2018-03-16 16:10:59 +08:00 · 11682 次点击
    这是一个创建于 2478 天前的主题,其中的信息可能已经有所发展或是发生改变。
    原本想把现有一些热词,一些字母、数字啥的提交到 whois,
    查看下是否注册了域名,
    然后抢注赚点钱话,
    然后。。。
    结果很明显,
    跪了
    附录 git:
    https://github.com/tiancl/getIP
    78 条回复    2018-03-23 08:39:34 +08:00
    415829566
        1
    415829566  
    OP
       2018-03-16 16:11:06 +08:00
    kevindu
        2
    kevindu  
       2018-03-16 16:15:34 +08:00   ❤️ 1
    这代码写的。。
    Luckyray
        3
    Luckyray  
       2018-03-16 16:16:27 +08:00 via iPhone
    这么简单的功能很早见有人干过了……
    manzhiyong
        4
    manzhiyong  
       2018-03-16 16:18:06 +08:00
    年轻人呀
    415829566
        5
    415829566  
    OP
       2018-03-16 16:19:13 +08:00
    @kevindu 老铁别这样啦,新人好虚
    415829566
        6
    415829566  
    OP
       2018-03-16 16:19:35 +08:00
    @Luckyray 等下,我找个想哭的表情
    415829566
        7
    415829566  
    OP
       2018-03-16 16:19:50 +08:00
    @manzhiyong 心好累
    Immortal
        8
    Immortal  
       2018-03-16 16:22:04 +08:00   ❤️ 8
    几个 for 倒是整整齐齐
    afeicool
        9
    afeicool  
       2018-03-16 16:24:12 +08:00
    man whois
    c1ay
        10
    c1ay  
       2018-03-16 16:25:22 +08:00
    好整齐
    415829566
        11
    415829566  
    OP
       2018-03-16 16:29:17 +08:00
    @Immortal 噗,这个。。。。祖传手艺

    @c1ay 全都 get 到吐槽点了
    ScotGu
        12
    ScotGu  
       2018-03-16 16:46:31 +08:00   ❤️ 1
    这种从 chinaz 获取的 whois 真的可信么
    直接用 whois 命令从官方获取多好~
    mcfog
        13
    mcfog  
       2018-03-16 16:47:00 +08:00
    游标卡尺了解一下
    mixias
        14
    mixias  
       2018-03-16 16:47:01 +08:00   ❤️ 1
    无意冒犯 不过楼主这几个 for 真的是笑死了,一家人就是要整整齐齐。jpg
    archknight
        15
    archknight  
       2018-03-16 16:49:06 +08:00
    真的好整齐啊
    415829566
        16
    415829566  
    OP
       2018-03-16 16:49:29 +08:00
    @mixias 一家人就是要整整齐齐,认真脸.jpg

    @ScotGu 表示没想太多,然后。。。我瞅瞅去

    @mcfog 好滴,我瞅瞅去,谢谢
    misaka19000
        17
    misaka19000  
       2018-03-16 16:51:51 +08:00
    不能接受变量和操作符之间不留空格
    hnbcinfo
        18
    hnbcinfo  
       2018-03-16 16:53:04 +08:00   ❤️ 4
    这几个 for 排列的真好看,

    cheneydc
        19
    cheneydc  
       2018-03-16 16:54:47 +08:00   ❤️ 3
    有种国庆节的既视感
    415829566
        20
    415829566  
    OP
       2018-03-16 17:00:07 +08:00
    @hnbcinfo
    @cheneydc
    恩,一家人就要整整齐齐的在一起,写代码也一样。微笑脸.jpg
    toku
        21
    toku  
       2018-03-16 17:02:19 +08:00
    @Immortal 你这句话莫名的把我逗笑了
    zdnyp
        22
    zdnyp  
       2018-03-16 17:06:55 +08:00
    整齐...比我厉害多了...我就会写写小爬虫....
    geagerg
        23
    geagerg  
       2018-03-16 17:11:32 +08:00   ❤️ 1
    既然都 chinaz 了,为什么不去这里找找呢 http://del.chinaz.com/
    xpresslink
        24
    xpresslink  
       2018-03-16 17:14:21 +08:00
    看了一眼代码, 差点就吐了
    Len1133
        25
    Len1133  
       2018-03-16 17:17:13 +08:00
    年轻真好
    415829566
        26
    415829566  
    OP
       2018-03-16 17:28:06 +08:00
    @geagerg 之前没想到这个,我看看

    @xpresslink 老铁别闹,心好累

    @Len1133 嘿嘿
    julyclyde
        27
    julyclyde  
       2018-03-16 17:30:33 +08:00   ❤️ 1
    itertools 了解一下
    Hopetree
        28
    Hopetree  
       2018-03-16 17:32:47 +08:00
    哈哈哈,你用 0-9 还有 A-Z 去随机生成域名,然后按照 1-5 位去排列,基本都是注册了,短域名早没了,长域名也没啥用,因为这个想法应该很早就有人去实践了
    GPU
        29
    GPU  
       2018-03-16 17:45:11 +08:00
    vdaily.iu.vc 这个域名不知道值多少钱
    patx
        30
    patx  
       2018-03-16 17:54:18 +08:00 via Android
    想法挺好的
    415829566
        31
    415829566  
    OP
       2018-03-16 18:00:53 +08:00
    @julyclyde 谢谢,以改写

    @Hopetree 还是太天真了

    @GPU 这个应该不值钱吧


    @patx 主要想自己尝试下
    closedevice
        32
    closedevice  
       2018-03-16 18:03:10 +08:00
    侮辱了爬虫这个有深度的词,叫做自动化提交脚本更合适.
    xpresslink
        33
    xpresslink  
       2018-03-16 18:08:17 +08:00
    @cheneydc
    老铁还是你的语言精练,一眼就看到中间三列轰炸机巡航啊
    Kilerd
        34
    Kilerd  
       2018-03-16 18:08:33 +08:00
    全排列算法了解一下。
    liliang
        35
    liliang  
       2018-03-16 18:10:42 +08:00 via Android
    没有什么是三层 for 循环搞不定的,如果有,再加一层
    artandlol
        36
    artandlol  
       2018-03-16 18:18:41 +08:00 via iPhone
    你现在在金字塔底层
    xpresslink
        37
    xpresslink  
       2018-03-16 18:23:41 +08:00   ❤️ 1
    实在看不下去了,我们在用的是 python 不是 C 语言啊!!!

    优雅地成生成 4-7 位数字可以仿照下面的写法。

    >>> from itertools import product
    >>> from string import digits
    >>> for length in (4, 7):
    □□□□□□□□for num in product(digits, repeat=length):
    □□□□□□□□□□□□print(''.join(num))


    0000
    0001
    0002
    0003
    0004
    0005
    0006
    0007
    0008
    0009
    0010
    0011
    infra
        38
    infra  
       2018-03-16 18:28:48 +08:00
    楼主还是太年轻了。。。 刚发现我接触域名整 10 年了
    steveway
        39
    steveway  
       2018-03-16 20:14:14 +08:00
    算法复杂度 O(n^4)系列...
    不过看起来有点暴力美哈哈哈
    throns
        40
    throns  
       2018-03-16 21:31:40 +08:00 via iPhone   ❤️ 3
    没事楼主,不要气馁,精神很好,你亮代码有人给建议很好,接受、改进、学习就好了。
    netcore
        41
    netcore  
       2018-03-16 21:39:38 +08:00 via Android
    @mixias 修真聊天群了解下
    ericls
        42
    ericls  
       2018-03-16 21:50:21 +08:00 via iPhone
    楼主不要气馁 permutation 了解一下
    yorTX9t
        43
    yorTX9t  
       2018-03-17 00:06:19 +08:00
    C++er 路过,pythonic 的代码是这样么?

    ```
    for num in range( 100000 ):
    print( str(num).zfill(6) )
    ```
    yorTX9t
        44
    yorTX9t  
       2018-03-17 00:06:56 +08:00
    我去,空格被吞了
    huntzhan
        45
    huntzhan  
       2018-03-17 01:58:48 +08:00
    ..............................................
    不忍直视
    lrxiao
        46
    lrxiao  
       2018-03-17 04:12:30 +08:00
    itertools 了解一下 23333
    gowl
        47
    gowl  
       2018-03-17 05:13:51 +08:00
    如果域名是给自己用的话,可以试试从对语言的直觉和想象出发~
    taojing10
        48
    taojing10  
       2018-03-17 06:56:58 +08:00 via iPhone
    毫无算法啊……算法课白学了
    cszeus
        49
    cszeus  
       2018-03-17 07:21:44 +08:00
    没太明白,用 itertools 跟 for n in xrange(1000, 1000000)有什么区别么。
    还有 mysql insert 是可以一次性 insert 多个值的(多行),为什么要每次 insert 一个呢。
    hardman
        50
    hardman  
       2018-03-17 07:41:54 +08:00 via Android
    我很佩服楼主这样写代码都发到 v2,代码全是槽点😄
    hardman
        51
    hardman  
       2018-03-17 07:43:33 +08:00 via Android
    话说 xiulianer.com 这个值多少钱
    Hydjan
        52
    Hydjan  
       2018-03-17 07:44:22 +08:00
    说实话二维码时代域名已被淡化
    oracle128g
        53
    oracle128g  
       2018-03-17 08:34:31 +08:00 via iPhone
    不会 python 看了下 for 循环排版还是阔以滴 给大佬倒一杯卡布奇诺
    lhx2008
        54
    lhx2008  
       2018-03-17 08:46:03 +08:00 via Android
    当初就写爬虫注册了这两个
    ડ.com
    ᡃ.com
    leavic
        55
    leavic  
       2018-03-17 10:21:39 +08:00
    abcdef、。。。
    zhang1215
        56
    zhang1215  
       2018-03-17 10:37:32 +08:00
    佩服楼主的勇气
    cai314494687
        57
    cai314494687  
       2018-03-17 10:44:36 +08:00
    我前两年干过类似的,结果跟你一样。
    BooksE
        58
    BooksE  
       2018-03-17 11:11:36 +08:00
    哈哈,我的爬虫都是在爬二手网站的数据
    loveCoding
        59
    loveCoding  
       2018-03-17 11:37:26 +08:00
    不错 , 思维敏捷
    sdlearn
        60
    sdlearn  
       2018-03-17 11:45:39 +08:00
    楼主是个人才
    qiayue
        61
    qiayue  
       2018-03-17 11:45:41 +08:00
    楼主晚生了几年,要是十年前做这个事情,就赚钱了。
    双拼域名大约总共有十六万多个,十年前还能注册的,大约还有几万个,你挑选品相好的注册三五千个。
    按照注册成本平均 50 块钱一个,注册 2000 个就是十万块,十年下来本钱就是 100 万。
    按照目前均价 3000 一个计算,全部卖掉,你就有 600 万了。
    净赚 500 万。

    2009 年千团大站前夕,我看到美团的域名,查询了团开头和结尾的双拼,还有一百多个,可惜当年没钱注册。
    前几天大火的文章庄家杜均,他的第一桶金不就是卖域名给团购网站么。

    当然,一切都然并卵,如果十年前你买房了,现在已经身家几千万了
    nieyujiang
        62
    nieyujiang  
       2018-03-17 12:53:25 +08:00 via iPhone   ❤️ 1
    飘逸的 for 循环
    Va1n3R
        63
    Va1n3R  
       2018-03-17 13:44:42 +08:00
    itertools 了解下......
    Arnie97
        64
    Arnie97  
       2018-03-17 13:58:24 +08:00 via Android
    @xpresslink 这是 C 语言被黑的最惨的一次 XD
    idcspy
        65
    idcspy  
       2018-03-17 15:14:15 +08:00
    来晚了,域名早走下坡路了。
    dreamtrail
        66
    dreamtrail  
       2018-03-17 15:17:02 +08:00
    其实还是有用的,我有几个域名就是用程序跑出来的
    ichou
        67
    ichou  
       2018-03-17 15:43:42 +08:00 via iPhone
    (0..9999).sample
    So easy
    hugee
        68
    hugee  
       2018-03-17 17:02:38 +08:00
    @qiayue 说得完全正确,补充下:如果前几年买了比特币的话。。。
    whoami9894
        69
    whoami9894  
       2018-03-17 18:31:41 +08:00 via Android
    @liliang 胡说,lz 明明是五层 for😂
    luozic
        70
    luozic  
       2018-03-18 02:27:00 +08:00 via iPhone
    for 需要那么多层?
    HFcbyqP0iVO5KM05
        71
    HFcbyqP0iVO5KM05  
       2018-03-18 08:50:26 +08:00 via Android
    大家不觉得楼主很可爱么,哈哈哈
    不过 for 循环超过两层了,不过在处理什么业务逻辑,都可以去网上搜搜 Best Practice
    415829566
        72
    415829566  
    OP
       2018-03-19 09:38:12 +08:00
    噗,新的礼拜过来,发现一堆吐槽的。各位老铁良心不会痛么
    iamsunxin
        73
    iamsunxin  
       2018-03-19 10:50:19 +08:00
    这个 F 型的 for 循环流线像极了 PASSAT 的尾灯
    linus3389
        74
    linus3389  
       2018-03-19 13:15:08 +08:00
    没事,这个想法只是晚了 20 年前
    415829566
        75
    415829566  
    OP
       2018-03-19 14:20:35 +08:00
    @linus3389 20 年。。。。我之前还以为自己多那啥
    @iamsunxin
    sigouyi
        76
    sigouyi  
       2018-03-20 16:52:38 +08:00
    这个 for 循环,抱歉我笑了
    cgwh
        77
    cgwh  
       2018-03-22 18:49:38 +08:00 via Android
    楼主代码改得还挺快
    415829566
        78
    415829566  
    OP
       2018-03-23 08:39:34 +08:00
    @cgwh 必须滴,虚心接受各位大佬的建议

    @sigouyi 大佬别闹,心累
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2553 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 105ms · UTC 04:26 · PVG 12:26 · LAX 20:26 · JFK 23:26
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.