fiction中文网爬虫代码分析
前言
记录开发爬虫系统的一些代码分析
管道处理
对于下载的txt
1 | # 下载到本地 |
这个是ftp上传 修改的地方在执行一次的地方
1 | # 上传到ftp |
两种方法的代码端不一样 总之还是注意基础吧
content_gbk = content.encode('gbk')
这句话的意思是将字符串编码为gbk 因为前端写的时候是逻辑
file_obj = BytesIO(content_gbk)
这句话是将变成可读的os,不然会保存
开发注意的问题
1.self相当于java中的全局变量,如何需要传递一些数据就可以使用self
2.for循环里面的nwe item是一套,脱离for循环会发送对象不统一的情况,导致数据乱序
3.因为爬虫请求是多线处理,而响应的时候不一定是按照顺序响应,所以需要对数据进行for前面的索引来排序
4.def start_requests(self, result=result): 使用=传参 其余几个爬虫也得使用=号 不然会显示签名有问题
新建一个爬虫,不同的网站对应不同的规则
scrapy genspider ibiqiuge_spider www.ibiqiuge.com
xpaht 下载
爬虫 Edge浏览器安装Xpaht Helper插件平替Chrome浏览器Xpaht Helper插件定位元素_Bruce小鬼的博客-CSDN博客
linux安装
可以使用PyCharm的软件库一键安装,安装时候先创建一个虚拟环境。方便快捷
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 a.d博客!
评论