当前位置: 数据库免费下载入口 > 中国知网免费下载入口 > 正文

selenium自动化下载知网论文

2018-09-10 12:31 10

导语

听说破解了知网反爬就是大神,我来一试

相关文件

开发工具

Python版本:3.6.4

工具:pycharm

相关模块:

selenium模块;

以及一些Python自带的模块。

安装Python并添加到环境变量,pip安装需要的相关模块即可。

使用方式

  • 我一开始尝试了用面向过程的方法去编程,打算用requests暴力爬取知网,然后失败了,这是分析的url地址                                                                              

  • 其实我暴力破解已经到了最后一步,但是知网恰恰在这最后一步里搞了个玄机,你点击了pdf下载,他会有俩次地址跳转,我先是尝试了重写时间点,time.strftime(),之后试着带着cookies去,访问了cookiejar而且对之前的cookies进行了字典合并,结果依然有js跳出来说我访问超时

  • 最后万般无奈,查了许多博客资料,发现他们都是用知网接口的,和我暴力破解的初衷相违背,所以没有采用,之后又想起了selenium神器,所以把代码都推倒重来,这次可以了

  • 部分源码展示

    更多

    代码截止2018-09-09测试无误。

    欢迎 发表评论:

    Copyright © 2018 数据库免费下载入口 豫ICP备16000724号