发现一个很 awesome 的网站 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

V2EX 提问指南

这是一个创建于 2568 天前的主题，其中的信息可能已经有所发展或是发生改变。

https://mercury.postlight.com/web-parser/

号称可以直接拉到 HTML 的文章内容正文的数据，测试了很多资讯站基本上都覆盖的比较完美。
不过感觉不太可能是手动覆盖了这些测试站点的样式，所以应该用的算法之类的实现。

大家有相关的资料可以参考下吗？对这个非常感兴趣

5 条回复 • 2017-10-12 09:22:41 +08:00

1

cubelate

2017-10-11 11:57:35 +08:00

有意思，可能是通过判断位置，z-index，大小之类吧。把自己当做浏览器，分析最前面最大块的内容。

2

airycanon

2017-10-11 12:04:09 +08:00

1

@kenshin 感觉简悦可以借鉴一下，处理不在支持列表中的网站。

3

ygger

2017-10-11 20:08:21 +08:00

这是我的一个正文提取器： http://kandouban.top/extractor

4

ygger

2017-10-11 20:15:03 +08:00

一些正文提取算法参考： https://code.google.com/p/cx-extractor/
http://www.cnblogs.com/jasondan/p/3497757.html#!comments

5

kenshin

2017-10-12 09:22:41 +08:00 via iPhone

@airycanon
之前有参考过这个，但它是传到服务器处理。
即将发布的 1.0.4 基本上可以覆盖全部的页面了。

关于 · 帮助文档 · 博客 · API · FAQ · 实用小工具 · 5386 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 25ms · UTC 08:45 · PVG 16:45 · LAX 01:45 · JFK 04:45
Developed with CodeLauncher
♥ Do have faith in what you're doing.