文章

【Python】爬虫(crawler)库

requests、bs4 beautifulsoup4、selenium。

【Python】爬虫(crawler)库

requests

网页下载器。

requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库。 requests自称“HTTP for Humans”,经过高度封装,提供的api非常方便。

pip安装命令:

1
pip install requests

导包示例:

1
import requests

beautifulsoup4

网页解析器,简写为bs4。

相比于传统正则表达方式去解析网页源代码,bs4要简单得多。 简单来说,这是Python的一个HTML或XML的解析库,可以用它方便地从网页中提取数据。

pip安装命令:

1
2
3
4
pip install beautifulsoup4

# 使用此库还需要lxml,如果没有安装,则要安装
pip install lxml

导包示例:

1
from bs4 import BeautifulSoup

selenium

搞定动态加载网站。

Selenium 是最广泛使用的开源 Web UI(用户界面)自动化测试套件之一。Selenium 支持的语言包括C#,Java,Perl,PHP,Python 和 Ruby。目前,Selenium Web 驱动程序最受 Python 和 C#欢迎。 Selenium 测试脚本可以使用任何支持的编程语言进行编码,并且可以直接在大多数现代 Web 浏览器中运行。在爬虫领域 selenium 同样是一把利器,能够解决大部分的网页的反爬问题。

pip安装命令:

1
pip install selenium

导包示例:

1
import selenium
本文由作者按照 CC BY 4.0 进行授权