【Python】爬虫（crawler）库

requests、bs4 beautifulsoup4、selenium。

发表于 2026/03/23

作者 苦不闲

次浏览 1 分钟阅读

requests

网页下载器。

requests是用python语言基于urllib编写的，采用的是Apache2 Licensed开源协议的HTTP库。 requests自称“HTTP for Humans”，经过高度封装，提供的api非常方便。

pip安装命令：

pip install requests

导包示例：

import requests

beautifulsoup4

网页解析器，简写为bs4。

相比于传统正则表达方式去解析网页源代码，bs4要简单得多。简单来说，这是Python的一个HTML或XML的解析库，可以用它方便地从网页中提取数据。

pip安装命令：

  
pip install beautifulsoup4

# 使用此库还需要lxml，如果没有安装，则要安装
pip install lxml

导包示例：

  
from bs4 import BeautifulSoup

selenium

搞定动态加载网站。

Selenium 是最广泛使用的开源 Web UI（用户界面）自动化测试套件之一。Selenium 支持的语言包括C#，Java，Perl，PHP，Python 和 Ruby。目前，Selenium Web 驱动程序最受 Python 和 C＃欢迎。 Selenium 测试脚本可以使用任何支持的编程语言进行编码，并且可以直接在大多数现代 Web 浏览器中运行。在爬虫领域 selenium 同样是一把利器，能够解决大部分的网页的反爬问题。

pip安装命令：

pip install selenium

导包示例：

import selenium

Python, 库

Python library

本文由作者按照 CC BY 4.0 进行授权

文章列表

Python

基础

库

【Python】爬虫（crawler）库

requests

beautifulsoup4

selenium

热门标签