首页
注册
登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请
登录
V2EX 提问指南
广告
V2EX
›
问与答
发现一个很 awesome 的网站
LichMscy
·
2017-10-11 11:50:10 +08:00
· 1979 次点击
这是一个创建于 2568 天前的主题,其中的信息可能已经有所发展或是发生改变。
https://mercury.postlight.com/web-parser/
号称可以直接拉到 HTML 的文章内容正文的数据,测试了很多资讯站基本上都覆盖的比较完美。
不过感觉不太可能是手动覆盖了这些测试站点的样式,所以应该用的算法之类的实现。
大家有相关的资料可以参考下吗?对这个非常感兴趣
awesome
覆盖
测试
HTML
5 条回复
•
2017-10-12 09:22:41 +08:00
1
cubelate
2017-10-11 11:57:35 +08:00
有意思,可能是通过判断位置,z-index,大小之类吧。把自己当做浏览器,分析最前面最大块的内容。
2
airycanon
2017-10-11 12:04:09 +08:00
1
@
kenshin
感觉简悦可以借鉴一下,处理不在支持列表中的网站。
3
ygger
2017-10-11 20:08:21 +08:00
这是我的一个正文提取器:
http://kandouban.top/extractor
4
ygger
2017-10-11 20:15:03 +08:00
一些正文提取算法参考:
https://code.google.com/p/cx-extractor/
http://www.cnblogs.com/jasondan/p/3497757.html#!comments
5
kenshin
2017-10-12 09:22:41 +08:00 via iPhone
@
airycanon
之前有参考过这个,但它是传到服务器处理。
即将发布的 1.0.4 基本上可以覆盖全部的页面了。
关于
·
帮助文档
·
博客
·
API
·
FAQ
·
实用小工具
·
5386 人在线
最高记录 6679
·
Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 25ms ·
UTC 08:45
·
PVG 16:45
·
LAX 01:45
·
JFK 04:45
Developed with
CodeLauncher
♥ Do have faith in what you're doing.