经常有新手小白在学习完 Python 的基础知识之后,不知道该如何进一步提升编码水平,那么此时找一些友好的网站来练习爬虫可能是一个比较好的方法,因为高级爬虫本身就需要掌握很多知识点,以爬虫作为切入点,既可以掌握巩固 Python 知识,也可能在未来学习接触到更多其他方面的知识,比如分布式,多线程等等,何乐而不为呢!,下面我们介绍几个非常简单入门的爬虫项目,相信不会再出现那种直接劝退的现象啦!,豆瓣作为国民级网站,在爬虫方面也非常友好,几乎没有设置任何反爬措施,以此网站来练手实在是在适合不过了。,我们以如下地址为例子,https://movie.douban.com/subject/3878007/,可以看到这里需要进行翻页处理,通过观察发现,评论的URL如下:,https://movie.douban.com/subject/3878007/comments?start=0&limit=20&sort=new_score&status=P&percent_type=l,每次翻一页,start都会增长20,由此可以写代码如下,使用range函数,步长设置为20,同时通过title等于“没有访问权限”来作为翻页的终点。,下面继续分析评论等级。,豆瓣的评论是分为三个等级的,这里分别获取,方便后面的继续分析,其实可以看到,这里的三段区别主要在请求URL那里,分别对应豆瓣的好评,一般和差评。,最后把得到的数据保存到文件里。,这里使用jieba来分词,使用wordcloud库制作词云,还是分成三类,同时去掉了一些干扰词,比如“一部”、“一个”、“故事”和一些其他名词,操作都不是很难,直接上代码。,,对于海报的爬取,其实也十分类似,直接给出代码,这是一个国外的电影影评网站,也比较适合新手练习,网址如下,https://www.rottentomatoes.com/tv/game_of_thrones,,我们就以权力的游戏作为爬取例子。,我这里选取的是如下网站,http://db.18183.com/,,好了,今天先分享这三个网站,咱们后面再慢慢分享更多好的练手网站与实战代码!
文章版权声明
1 原创文章作者:cmcc,如若转载,请注明出处: https://www.52hwl.com/16616.html
2 温馨提示:软件侵权请联系469472785#qq.com(三天内删除相关链接)资源失效请留言反馈
3 下载提示:如遇蓝奏云无法访问,请修改lanzous(把s修改成x)
4 免责声明:本站为个人博客,所有软件信息均来自网络 修改版软件,加群广告提示为修改者自留,非本站信息,注意鉴别