初学者必须具备的基本技能。本文将介绍。
1. 使用urllib库打开HTML文件
内置的HTTP请求库,可以用来发送HTTP请求和获取HTTP响应。使用urllib库打开HTML文件的步骤如下:
port urllib.request
seple/’)lse.read()tl)
2. 使用requests库打开HTML文件
第三方库,用于发送HTTP请求和获取HTTP响应。使用requests库打开HTML文件的步骤如下:
port requests
seple/’)lse.texttl)
3. 使用BeautifulSoup库解析HTML文件
第三方库,用于解析HTML和XML文件。使用BeautifulSoup库解析HTML文件的步骤如下:
port BeautifulSoupport requests
seple/’)sel.parser’)t(soup.prettify())
l库解析HTML文件
ll库解析HTML文件的步骤如下:
lport etreeport requests
seple/’)lse.text)gl)t(result)
l.parser模块解析HTML文件
ll.parser模块解析HTML文件的步骤如下:
lport HTMLParserport requests
class MyHTMLParser(HTMLParser):dle_starttag(self, tag, attrs):t(“Start tag:”, tag) attrs:t(” attr:”, attr)
dledtag(self, tag):td tag :”, tag)
dle_data(self, data):t(“Data :”, data)
seple/’)
parser = MyHTMLParser()se.text)
ll编程打下基础。