32个Python爬虫项目

阅读量：800 次

发布时间：2023-04-17

本文共 2278 字，大约阅读时间需要 7 分钟。

Python爬虫项目列表：从入门到实战的绝佳选择

作为一名技术爱好者，我最近整理了一系列Python爬虫项目，这些项目不仅适合入门学习者，还能帮助开发者提升技能。下面是32个精心挑选的Python爬虫项目，全部链接均指向GitHub，供大家参考。

微信公众号爬虫

基于搜狗微信搜索的微信公众号爬虫接口，返回结果是列表，每一项均是公众号具体信息字典。这个项目可以扩展成基于搜狗搜索的爬虫，适合对微信公众号内容感兴趣的开发者。

豆瓣读书爬虫

可以爬下豆瓣读书标签下的所有图书，按评分排名依次存储，存储到Excel中。这个项目支持筛选高分书籍（如评价人数>1000），还可以按主题存储到Excel不同的Sheet。爬取时采用User Agent伪装为浏览器，加入随机延时以更好地模仿浏览器行为，避免被封IP。

知乎爬虫

此项目的功能是爬取知乎用户信息以及人际拓扑关系，爬虫框架使用Scrapy，数据存储使用MongoDB。适合对社交网络数据分析感兴趣的开发者。

Bilibili用户爬虫

总数据数：20119918，抓取字段：用户id、昵称、性别、头像、等级、经验值、粉丝数、生日、地址、注册时间、签名等。抓取完成后会生成B站用户数据报告。这个项目适合对B站用户行为和数据分析感兴趣的开发者。

新浪微博爬虫

主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注。代码获取新浪微博Cookie进行登录，可通过多账号登录来防止反爬。主要使用Scrapy框架。

小说下载分布式爬虫

使用Scrapy、Redis、MongoDB、Graphite实现一个分布式网络爬虫。底层存储MongoDB集群，分布式使用Redis，爬虫状态显示使用Graphite。主要针对一个小说站点。

中国知网爬虫

设置检索条件后，执行src/CnkiSpider.py抓取数据，抓取数据存储在/data目录下，每个数据文件的第一行为字段名称。适合需要爬取学术论文的开发者。

链家网爬虫

爬取北京地区链家历年二手房成交记录。涵盖链家模拟登录代码，适合房地产数据分析的开发者。

京东爬虫

基于Scrapy的京东网站爬虫，保存格式为CSV。适合京东电商数据分析的开发者。

QQ 群爬虫

批量抓取QQ 群信息，包括群名称、群号、群人数、群主、群简介等内容，生成XLS(X)/CSV结果文件。适合需要处理社交数据的开发者。

乌云爬虫

乌云公开漏洞、知识库爬虫和搜索。全部公开漏洞的列表和每个漏洞的文本内容存在MongoDB中。爬取全部文本和图片需要10G空间和2小时（10M电信带宽）。漏洞搜索使用Flask作为Web server，Bootstrap作为前端。

hao123网站爬虫

以hao123为入口页面，滚动爬取外链，收集网址，记录内链和外链数目，记录title等信息。目前每24小时可收集数据为10万左右，适合需要大规模网页数据分析的开发者。

机票爬虫（去哪儿和携程网）

Findtrip是一个基于Scrapy的机票爬虫，整合了国内两大机票网站（去哪儿 + 携程）。适合机票数据分析和比较的开发者。

网易客户端内容爬虫

基于requests、MySQLdb、TornDB的网易客户端内容爬虫。适合需要爬取网易客户端特定页面内容的开发者。

豆瓣多平台爬虫

豆瓣电影、书籍、小组、相册、东西等爬虫集。适合需要整合多平台数据的开发者。

QQ空间爬虫

包括日志、说说、个人信息等，一天可抓取400万条数据。适合需要处理社交数据的开发者。

百度mp3全站爬虫

使用Redis支持断点续传。适合需要爬取大规模音乐数据的开发者。

淘宝和天猫爬虫

可以根据搜索关键词或物品ID抓取页面信息，数据存储在MongoDB中。适合电商数据分析和爬虫开发的开发者。

股票数据爬虫

一个股票数据（沪深）爬虫和选股策略测试框架。根据选定的日期范围抓取所有沪深两市股票的行情数据。支持使用表达式定义选股策略，支持多线程处理，保存数据到JSON文件或CSV文件。适合金融数据分析和开发的开发者。

百度云盘爬虫

适合需要爬取百度云盘特定内容的开发者。

社交数据爬虫

支持微博、知乎、豆瓣等社交平台数据爬取。适合需要处理社交网络数据的开发者。

代理IP池

一个Python爬虫代理IP池，适合需要代理IP池的开发者。

网易云音乐评论爬虫

爬取网易云音乐所有歌曲的评论。适合音乐数据分析的开发者。

煎蛋妹纸图片爬虫

适合需要爬取特定网站图片的开发者。

cnblogs列表页爬虫

适合需要爬取技术博客的开发者。

慕课网视频爬虫

适合需要爬取在线课程视频的开发者。

中国知网爬虫（更新）

设置检索条件后，执行src/CnkiSpider.py抓取数据，抓取数据存储在/data目录下，每个数据文件的第一行为字段名称。适合学术数据爬取的开发者。

知道创宇爬虫题目

适合需要爬取编程题目的开发者。

爱丝APP图片爬虫

适合需要爬取特定APP图片的开发者。

动态IP解决新浪反爬机制

快速抓取内容，适合需要处理动态IP和反爬机制的开发者。

CSDN博客文章爬虫

适合需要爬取技术博客文章的开发者。

西刺代理IP爬虫

爬取西刺上的代理IP，并验证代理可用性。适合需要处理代理IP的开发者。

2018.8.2更新

本系统是一个主要使用Python3、Celery和requests来爬取职位数据的爬虫，实现了定时任务、出错重试、日志记录、自动更改Cookies等功能，并使用ECharts + Bootstrap来构建前端页面，展示爬取到的数据。

转载地址：http://wvgfk.baihongyu.com/

你可能感兴趣的文章

Oracle学习总结（5）—— SQL语句经典案例

查看>>

Oracle学习总结（6）—— SQL注入技术

查看>>

Oracle学习总结（7）—— 常用的数据库索引优化语句总结

查看>>

Oracle学习总结（8）—— 面向程序员的数据库访问性能优化法则

查看>>

Oracle学习总结（9）—— Oracle 常用的基本操作

Oracle学习第二天---Profile的使用

查看>>

Oracle学习第五课

查看>>

Oracle安全攻防，你可能不知道自己一直在裸奔

查看>>

Oracle安装、Navicat for Oracle、JDBCl连接、获取表结构

查看>>

Oracle安装与远程连接配置（附Oracle安装包）

查看>>

Oracle官方推荐的性能测试工具！简单、精准又直观！

查看>>

ORACLE客户端连接

查看>>

oracle密码包含,【扫盲】Oracle用户密码含有特殊字符的处理办法

oracle常用SQL——创建用户、表空间、授权（12C）

查看>>

Oracle常用函数整理

查看>>