首页
注册
登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请
登录
V2EX
›
1a1a11a
›
全部回复第 1 页 / 共 1 页
回复总数
14
2017-03-12 03:37:30 +08:00
回复了
1a1a11a
创建的主题
›
编程
›
爬虫判重
@
Lax
谢谢
2017-03-09 13:02:10 +08:00
回复了
1a1a11a
创建的主题
›
编程
›
爬虫判重
@
jiangzhuo
谢谢
2017-03-09 11:03:37 +08:00
回复了
1a1a11a
创建的主题
›
编程
›
爬虫判重
@
v2pro
好东西,学习了
2017-03-09 11:00:24 +08:00
回复了
1a1a11a
创建的主题
›
编程
›
爬虫判重
@
Lax
HLL 是什么,三个字母不太好搜,能不能给个名字?谢谢啦!
2017-03-09 10:59:47 +08:00
回复了
1a1a11a
创建的主题
›
编程
›
爬虫判重
@
bjlbeyond
好像不太对题?还是我没理解到点?
2017-03-09 10:59:20 +08:00
回复了
1a1a11a
创建的主题
›
编程
›
爬虫判重
@
wmttom
这个主意不错,非常感谢
2017-03-09 10:58:30 +08:00
回复了
1a1a11a
创建的主题
›
编程
›
爬虫判重
@
binux
我把去重完的 url 写磁盘了和待爬 url 队列写磁盘了,要不内存不一会儿就满,服务器是前兆带宽,我满载了在爬。。。
2017-03-09 06:43:31 +08:00
回复了
1a1a11a
创建的主题
›
编程
›
爬虫判重
@
jiangzhuo
哦,对,你的数值错了,是 470 亿,单位是 10 亿,不是 1 亿,所以你的计算要再乘以 10
2017-03-09 06:42:53 +08:00
回复了
1a1a11a
创建的主题
›
编程
›
爬虫判重
@
jiangzhuo
为什么我 72G 的内存刷刷刷就满了 :(,估计有不少费 url ,加上 python 可能比较费内存,你发的这个网址挺好玩的,不知道为什么中间突然降下去了,我一直觉得网页总数是单调增加的,不过从这个网站看,还挺稳定的。
2017-03-09 06:40:14 +08:00
回复了
1a1a11a
创建的主题
›
编程
›
爬虫判重
@
samcode
这个可以考虑,谢谢啦。
2017-03-09 06:38:22 +08:00
回复了
1a1a11a
创建的主题
›
编程
›
爬虫判重
@
gouchaoer
如果没有 redis 这类的,数据库查询会不会慢? 我没测试过,不太了解
2017-03-09 06:37:50 +08:00
回复了
1a1a11a
创建的主题
›
编程
›
爬虫判重
检查过了,主要是 url 数据量太大了,写入磁盘的已经几百 GB 了,不过有些 url 是没意义的,需要想办法过滤掉。
2017-03-09 06:36:28 +08:00
回复了
1a1a11a
创建的主题
›
编程
›
爬虫判重
@
wmttom
bloom filter 在这里不好用吧,再不那么重视准确性的情况下,的确可以用
2017-01-25 10:11:06 +08:00
回复了
magickzl
创建的主题
›
Linux
›
想问下一个 Linux 用户权限的问题?
@
magickzl
隐藏了么? 目录. 开头?
关于
·
帮助文档
·
博客
·
API
·
FAQ
·
实用小工具
·
1053 人在线
最高记录 6679
·
Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 25ms ·
UTC 22:38
·
PVG 06:38
·
LAX 14:38
·
JFK 17:38
Developed with
CodeLauncher
♥ Do have faith in what you're doing.