0

python抓取js渲染的网页内容

- Python爬虫 - 阅 2

经常看到一些网站,它的内容在直接查看源代码的里面是没有要爬的内容的,都是一些js代码,用javascript输出的。用requests的get方法,爬不到里面的内容。 这里介绍一种使用Selenium来实现。Selenium是用来实现动态渲染页面爬取的。 首先要做下准备工作: 在chrome使用命令…

0

抓取gbk网站,解决Python爬虫中文乱码

- Python爬虫 - 阅 2

乱码问题是很常见的一种事情,记录一下解决python爬虫中的乱码问题 在相应的文本位置加入encode('ISO-8859-1')

0

Python扫描网站目录简单测试

- Python爬虫 - 阅 78

新手尝试用Python写一个简单扫描网站的目录的脚本,扫出来的页面不是404的就把目录名称保存到txt中,404页面直接丢弃,就是不存在的,如果有防火墙,会出现很多误报的情况,或者直接卡死,大家再看着优化处理吧,简单代码如下: import requests import time def getstatus(…

      pip之家  懒人模板    长沙庆典策划公司