Python如何截取特定字符串？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Python Cookbook

› Using Google App Engine

推荐下载

› Latest Google App Engine SDK

其他兼容技术

› AppScale

这是一个创建于 4582 天前的主题，其中的信息可能已经有所发展或是发生改变。

例子:
<html>
<head>
<title>Test</title>
</head>
<body>
输出我
我来捣乱
</body>
</html>

用Pyhton提取其中的'输出我'。输出第一个和第一个之间的内容。

谢谢！！

title

HTML

head

13 条回复 • 1970-01-01 08:00:00 +08:00

INT21H

2012-06-14 19:47:46 +08:00

>>> from BeautifulSoup import BeautifulSoup
>>> html="""<html>
... <head>
... <title>Test</title>
... </head>
... <body>
... 输出我
... 我来捣乱
... </body>
... </html>"""
>>> bs = BeautifulSoup(html)
>>> bs.p
输出我
>>> bs.p.contents
[u'\u8f93\u51fa\u6211']
>>>

vfasky

2012-06-14 20:56:33 +08:00

<code>
html = '''<html>
<head>
<title>Test</title>
</head>
<body>
输出我
我来捣乱
</body>
</html>'''

for t in html.split('') :
print t.replace('','')
break;
</code>

vfasky

2012-06-14 20:58:41 +08:00

https://gist.github.com/2930119

muzuiget

2012-06-14 21:03:12 +08:00

关键词：正则表达式，DOM。

goofansu

2012-06-14 21:05:13 +08:00

最近也在玩，beautifulsoup很棒

yibin001

2012-06-14 21:16:34 +08:00

beautifulsoup还真是个神器

likuku

2012-06-14 21:29:06 +08:00

#!/usr/bin/env python
# encoding: utf-8
"""
html.py

Created by likuku on 2012-06-14.
Copyright (c) 2012 __MyCompanyName__. All rights reserved.
"""

import sys
import os

html="""
<html>
<head>
<title>Test</title>
</head>
<body>
输出我
我来捣乱
</body>
</html>
"""

def main():
for text in html.split('\n'):
if text.find('') != -1:
tmp = text.replace('','').replace('','')
print tmp
break

if __name__ == '__main__':
main()