博客
关于我
32个Python爬虫项目
阅读量:798 次
发布时间:2023-04-17

本文共 2278 字,大约阅读时间需要 7 分钟。

Python爬虫项目列表:从入门到实战的绝佳选择

作为一名技术爱好者,我最近整理了一系列Python爬虫项目,这些项目不仅适合入门学习者,还能帮助开发者提升技能。下面是32个精心挑选的Python爬虫项目,全部链接均指向GitHub,供大家参考。

微信公众号爬虫

基于搜狗微信搜索的微信公众号爬虫接口,返回结果是列表,每一项均是公众号具体信息字典。这个项目可以扩展成基于搜狗搜索的爬虫,适合对微信公众号内容感兴趣的开发者。

豆瓣读书爬虫

可以爬下豆瓣读书标签下的所有图书,按评分排名依次存储,存储到Excel中。这个项目支持筛选高分书籍(如评价人数>1000),还可以按主题存储到Excel不同的Sheet。爬取时采用User Agent伪装为浏览器,加入随机延时以更好地模仿浏览器行为,避免被封IP。

知乎爬虫

此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用Scrapy,数据存储使用MongoDB。适合对社交网络数据分析感兴趣的开发者。

Bilibili用户爬虫

总数据数:20119918,抓取字段:用户id、昵称、性别、头像、等级、经验值、粉丝数、生日、地址、注册时间、签名等。抓取完成后会生成B站用户数据报告。这个项目适合对B站用户行为和数据分析感兴趣的开发者。

新浪微博爬虫

主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注。代码获取新浪微博Cookie进行登录,可通过多账号登录来防止反爬。主要使用Scrapy框架。

小说下载分布式爬虫

使用Scrapy、Redis、MongoDB、Graphite实现一个分布式网络爬虫。底层存储MongoDB集群,分布式使用Redis,爬虫状态显示使用Graphite。主要针对一个小说站点。

中国知网爬虫

设置检索条件后,执行src/CnkiSpider.py抓取数据,抓取数据存储在/data目录下,每个数据文件的第一行为字段名称。适合需要爬取学术论文的开发者。

链家网爬虫

爬取北京地区链家历年二手房成交记录。涵盖链家模拟登录代码,适合房地产数据分析的开发者。

京东爬虫

基于Scrapy的京东网站爬虫,保存格式为CSV。适合京东电商数据分析的开发者。

QQ 群爬虫

批量抓取QQ 群信息,包括群名称、群号、群人数、群主、群简介等内容,生成XLS(X)/CSV结果文件。适合需要处理社交数据的开发者。

乌云爬虫

乌云公开漏洞、知识库爬虫和搜索。全部公开漏洞的列表和每个漏洞的文本内容存在MongoDB中。爬取全部文本和图片需要10G空间和2小时(10M电信带宽)。漏洞搜索使用Flask作为Web server,Bootstrap作为前端。

hao123网站爬虫

以hao123为入口页面,滚动爬取外链,收集网址,记录内链和外链数目,记录title等信息。目前每24小时可收集数据为10万左右,适合需要大规模网页数据分析的开发者。

机票爬虫(去哪儿和携程网)

Findtrip是一个基于Scrapy的机票爬虫,整合了国内两大机票网站(去哪儿 + 携程)。适合机票数据分析和比较的开发者。

网易客户端内容爬虫

基于requests、MySQLdb、TornDB的网易客户端内容爬虫。适合需要爬取网易客户端特定页面内容的开发者。

豆瓣多平台爬虫

豆瓣电影、书籍、小组、相册、东西等爬虫集。适合需要整合多平台数据的开发者。

QQ空间爬虫

包括日志、说说、个人信息等,一天可抓取400万条数据。适合需要处理社交数据的开发者。

百度mp3全站爬虫

使用Redis支持断点续传。适合需要爬取大规模音乐数据的开发者。

淘宝和天猫爬虫

可以根据搜索关键词或物品ID抓取页面信息,数据存储在MongoDB中。适合电商数据分析和爬虫开发的开发者。

股票数据爬虫

一个股票数据(沪深)爬虫和选股策略测试框架。根据选定的日期范围抓取所有沪深两市股票的行情数据。支持使用表达式定义选股策略,支持多线程处理,保存数据到JSON文件或CSV文件。适合金融数据分析和开发的开发者。

百度云盘爬虫

适合需要爬取百度云盘特定内容的开发者。

社交数据爬虫

支持微博、知乎、豆瓣等社交平台数据爬取。适合需要处理社交网络数据的开发者。

代理IP池

一个Python爬虫代理IP池,适合需要代理IP池的开发者。

网易云音乐评论爬虫

爬取网易云音乐所有歌曲的评论。适合音乐数据分析的开发者。

煎蛋妹纸图片爬虫

适合需要爬取特定网站图片的开发者。

cnblogs列表页爬虫

适合需要爬取技术博客的开发者。

慕课网视频爬虫

适合需要爬取在线课程视频的开发者。

中国知网爬虫(更新)

设置检索条件后,执行src/CnkiSpider.py抓取数据,抓取数据存储在/data目录下,每个数据文件的第一行为字段名称。适合学术数据爬取的开发者。

知道创宇爬虫题目

适合需要爬取编程题目的开发者。

爱丝APP图片爬虫

适合需要爬取特定APP图片的开发者。

动态IP解决新浪反爬机制

快速抓取内容,适合需要处理动态IP和反爬机制的开发者。

CSDN博客文章爬虫

适合需要爬取技术博客文章的开发者。

西刺代理IP爬虫

爬取西刺上的代理IP,并验证代理可用性。适合需要处理代理IP的开发者。

2018.8.2更新

本系统是一个主要使用Python3、Celery和requests来爬取职位数据的爬虫,实现了定时任务、出错重试、日志记录、自动更改Cookies等功能,并使用ECharts + Bootstrap来构建前端页面,展示爬取到的数据。

转载地址:http://wvgfk.baihongyu.com/

你可能感兴趣的文章
Mysql 数据类型一日期
查看>>
MySQL 数据类型和属性
查看>>
mysql 敲错命令 想取消怎么办?
查看>>
Mysql 整形列的字节与存储范围
查看>>
mysql 断电数据损坏,无法启动
查看>>
MySQL 日期时间类型的选择
查看>>
Mysql 时间操作(当天,昨天,7天,30天,半年,全年,季度)
查看>>
MySQL 是如何加锁的?
查看>>
MySQL 是怎样运行的 - InnoDB数据页结构
查看>>
mysql 更新子表_mysql 在update中实现子查询的方式
查看>>
MySQL 有什么优点?
查看>>
mysql 权限整理记录
查看>>
mysql 权限登录问题:ERROR 1045 (28000): Access denied for user ‘root‘@‘localhost‘ (using password: YES)
查看>>
MYSQL 查看最大连接数和修改最大连接数
查看>>
MySQL 查看有哪些表
查看>>
mysql 查看锁_阿里/美团/字节面试官必问的Mysql锁机制,你真的明白吗
查看>>
MySql 查询以逗号分隔的字符串的方法(正则)
查看>>
MySQL 查询优化:提速查询效率的13大秘籍(避免使用SELECT 、分页查询的优化、合理使用连接、子查询的优化)(上)
查看>>
mysql 查询数据库所有表的字段信息
查看>>
【Java基础】什么是面向对象?
查看>>