1
blahnice 2013-08-28 10:55:14 +08:00 1
py3,oh holy christ
|
2
gangsta 2013-08-28 11:00:27 +08:00
+1
以前见过Java版的 |
3
cxshun OP @blahnice py3咋了?是很多组件还不支持还是很不爽它?以前用py2,但最近慢慢过度到py3了。感觉py3还是比py2好多了,py2的编码问题搞的头都大了。
|
4
blahnice 2013-08-28 11:20:25 +08:00 1
@cxshun 只是建议需要在帖子中说明下,毕竟现在外界默认使用的还是非py3.
py3一个大版本不兼容,很多库没跟上直接导致没有使用的欲望。 |
5
justfindu 2013-08-28 11:27:43 +08:00
别啊~ 煎蛋最近总是崩溃~ 这样会增加很大压力啊亲 - -
|
6
greatghoul 2013-08-28 11:31:10 +08:00
煎蛋妹子图不错呀,赶紧去访问下。
|
7
cxshun OP @blahnice 确实,我加上了提醒。
@justfindu 哈哈,只是发出来而已。我加上了说明。其实只是访问网页而已,煎蛋的图源貌似都在渣浪,所以这个应该问题不大。把访问网页的时间设长一点,应该就OK了。但爬图片毕竟不是正事,不能搞太久。 @greatghoul 哈哈,确实啊。但XD要注意身体啊。 @gangsta JAVA版本的实现起来麻烦很多,虽然库大把,还是python好啊。人生苦短啊。 |
8
Hysteria 2013-08-28 12:25:52 +08:00
煎蛋网果真不错,刚好好浏览了一番。
|
9
fengdragon 2013-08-28 12:41:47 +08:00
python2.6下的,使用库urllib,re
https://gist.github.com/fengdragon/6362155 在网页上抓出来的每张图都几十K是正常的么?还是有高清的。。。 直接用urlretrieve下的,刚开始学python,也没并行,一页页的拖下来的 == 26行的time.sleep是因为urlretrieve先建空白再填图,网速顿的话图的下沿有黑边。 自己看网速改吧就 |
10
cxshun OP @fengdragon 不错,实际上处理起来倒不麻烦。但这样会把头像啥的都会取下来吧。另外,没有保存队列啥东西的。如果中途断了就比较杯具了。话说代码中为啥要限定页数呢,1-911,看来XD很久之前写的哦,不错啊。
@Hysteria 哈哈,必须不错啊。但不可看太多,伤身也。 |
11
fengdragon 2013-08-28 15:05:40 +08:00
@cxshun 取图没问题,头像不会爬,正则匹配过而且也加了超时判定,
只是代码太丑了还那么多sleep,我都不好意思看的再 = = 嗯,断了确实就悲剧了。我这网速比较稳定就没加处理(其实是不会。。 加页数限制也是因为还不会抓最大页数。。。。汗。。 |
12
cxshun OP @fengdragon 代码不错啊。其实我比你多的东西就是多了一个保存队列,也多了一堆配置和恢复的东西而已。反正原理就那样。爬图本来就没多少含量,当练练手罢了。
|
13
Loerise 2013-08-28 16:54:39 +08:00
等待微博爬相册工具~
|
14
volCANo 2013-08-28 19:30:18 +08:00
微信摇一摇抓图不就好了嘛
|
15
Alexisused 2013-08-31 12:43:42 +08:00
哈哈 你果然搞出来了啊~
|
16
aisk 2013-08-31 12:46:26 +08:00
|
18
jason52 2013-08-31 21:48:57 +08:00
|
19
SharkIng 2013-08-31 21:56:20 +08:00
py3的确比较失败,库比较脱节所以很少人用,用的话也很不好找到支持的平台
|
20
jason52 2013-08-31 21:56:43 +08:00
from pyquery import PyQuery as pq
import time fp=open("meizhitu.txt",'w') for i in range(800,990): url = 'http://jandan.net/ooxx/page-' + str(i) d1 = pq(url) posts = [] for anchor in d1('#comments p>img'): anchor = d1(anchor) ans = anchor.attr('src') posts.append(ans) print >>fp,ans print i #if (i%10 == 0): #time.sleep(5) fp.close |
21
xavierskip 2013-08-31 23:16:09 +08:00
我写过一个抓取虎扑相册的。恩,最黄的篮球网站。。。
|
22
yipianfengyeqing 2013-09-01 02:22:26 +08:00
宅男福利
|
23
cxshun OP @aisk 哈哈,这个就简单啦,比煎蛋简单多了,等其他有空的XD弄一个。
@xavierskip 哈哈,中国的特色,必须的。 @jason52 这个牛叉。 @SharkIng 确实,变化太大,库的开发者也比较痛苦,也只能怪python自己不争气,说改就改。 |
24
tedd 2014-05-14 11:28:07 +08:00
@cxshun 煎蛋的图不是都链接的是weibo的吗?爬煎蛋图其实也就就是抓到每页的html,实际下载图片都是weibo来的(weibo流量),请问这样会对煎蛋服务器造成压力吗?
|
25
Ljungqvist 2015-02-17 11:20:19 +08:00
执行 img_links = re.findall("http.*jpg",html_content)后提示错误:
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe7 in position 95: ordinal not in range(128) |
26
cxshun OP @tedd 照理应该不会,但还是调低点频率的好,毕竟煎蛋免费的,估计也哆呛的。
@Ljungqvist 印象中貌似没有这样的代码,看样子应该是编码的问题,在文件头部指定下#encoding:utf-8试试。如果再不行,那就可能是网页编码的问题,在网上找找,应该会有对应的文章的。 |