本文共 2278 字,大约阅读时间需要 7 分钟。
作为一名技术爱好者,我最近整理了一系列Python爬虫项目,这些项目不仅适合入门学习者,还能帮助开发者提升技能。下面是32个精心挑选的Python爬虫项目,全部链接均指向GitHub,供大家参考。
基于搜狗微信搜索的微信公众号爬虫接口,返回结果是列表,每一项均是公众号具体信息字典。这个项目可以扩展成基于搜狗搜索的爬虫,适合对微信公众号内容感兴趣的开发者。
可以爬下豆瓣读书标签下的所有图书,按评分排名依次存储,存储到Excel中。这个项目支持筛选高分书籍(如评价人数>1000),还可以按主题存储到Excel不同的Sheet。爬取时采用User Agent伪装为浏览器,加入随机延时以更好地模仿浏览器行为,避免被封IP。
此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用Scrapy,数据存储使用MongoDB。适合对社交网络数据分析感兴趣的开发者。
总数据数:20119918,抓取字段:用户id、昵称、性别、头像、等级、经验值、粉丝数、生日、地址、注册时间、签名等。抓取完成后会生成B站用户数据报告。这个项目适合对B站用户行为和数据分析感兴趣的开发者。
主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注。代码获取新浪微博Cookie进行登录,可通过多账号登录来防止反爬。主要使用Scrapy框架。
使用Scrapy、Redis、MongoDB、Graphite实现一个分布式网络爬虫。底层存储MongoDB集群,分布式使用Redis,爬虫状态显示使用Graphite。主要针对一个小说站点。
设置检索条件后,执行src/CnkiSpider.py抓取数据,抓取数据存储在/data目录下,每个数据文件的第一行为字段名称。适合需要爬取学术论文的开发者。
爬取北京地区链家历年二手房成交记录。涵盖链家模拟登录代码,适合房地产数据分析的开发者。
基于Scrapy的京东网站爬虫,保存格式为CSV。适合京东电商数据分析的开发者。
批量抓取QQ 群信息,包括群名称、群号、群人数、群主、群简介等内容,生成XLS(X)/CSV结果文件。适合需要处理社交数据的开发者。
乌云公开漏洞、知识库爬虫和搜索。全部公开漏洞的列表和每个漏洞的文本内容存在MongoDB中。爬取全部文本和图片需要10G空间和2小时(10M电信带宽)。漏洞搜索使用Flask作为Web server,Bootstrap作为前端。
以hao123为入口页面,滚动爬取外链,收集网址,记录内链和外链数目,记录title等信息。目前每24小时可收集数据为10万左右,适合需要大规模网页数据分析的开发者。
Findtrip是一个基于Scrapy的机票爬虫,整合了国内两大机票网站(去哪儿 + 携程)。适合机票数据分析和比较的开发者。
基于requests、MySQLdb、TornDB的网易客户端内容爬虫。适合需要爬取网易客户端特定页面内容的开发者。
豆瓣电影、书籍、小组、相册、东西等爬虫集。适合需要整合多平台数据的开发者。
包括日志、说说、个人信息等,一天可抓取400万条数据。适合需要处理社交数据的开发者。
使用Redis支持断点续传。适合需要爬取大规模音乐数据的开发者。
可以根据搜索关键词或物品ID抓取页面信息,数据存储在MongoDB中。适合电商数据分析和爬虫开发的开发者。
一个股票数据(沪深)爬虫和选股策略测试框架。根据选定的日期范围抓取所有沪深两市股票的行情数据。支持使用表达式定义选股策略,支持多线程处理,保存数据到JSON文件或CSV文件。适合金融数据分析和开发的开发者。
适合需要爬取百度云盘特定内容的开发者。
支持微博、知乎、豆瓣等社交平台数据爬取。适合需要处理社交网络数据的开发者。
一个Python爬虫代理IP池,适合需要代理IP池的开发者。
爬取网易云音乐所有歌曲的评论。适合音乐数据分析的开发者。
适合需要爬取特定网站图片的开发者。
适合需要爬取技术博客的开发者。
适合需要爬取在线课程视频的开发者。
设置检索条件后,执行src/CnkiSpider.py抓取数据,抓取数据存储在/data目录下,每个数据文件的第一行为字段名称。适合学术数据爬取的开发者。
适合需要爬取编程题目的开发者。
适合需要爬取特定APP图片的开发者。
快速抓取内容,适合需要处理动态IP和反爬机制的开发者。
适合需要爬取技术博客文章的开发者。
爬取西刺上的代理IP,并验证代理可用性。适合需要处理代理IP的开发者。
本系统是一个主要使用Python3、Celery和requests来爬取职位数据的爬虫,实现了定时任务、出错重试、日志记录、自动更改Cookies等功能,并使用ECharts + Bootstrap来构建前端页面,展示爬取到的数据。
转载地址:http://wvgfk.baihongyu.com/