无论是网页还是APP客户端,现在越来越流行使用JSON串方式去加载内容数据,这就导致了传统的采集方式不能够奏效,因为当蜘蛛爬虫请求时,只能够获得该URL的静态内容,也就是一次性加载完符合相应条件的内容。

而JSON串数据需要通过人为的GET或POST请求方式来进行数据再加载,从性能角度来说,这是最优的,但对于搜索引擎蜘蛛来说,非常不友好。

言归正传,很多SEO或者网站内容编辑运营在经手内容时,都会接触到火车头这个工具,火车头的采集功能目前已经足够强大,早前只能够进行简单的页面机器抓取,现在对于JSON类的内容加载也能够轻松应对。

注意,本次只说到如何抓取JSON数据,而并不是说批量抓取JSON串,以应用宝评论结果为例,如下,

打开应用宝,搜索“王者荣耀”结果页面:https://sj.qq.com/myapp/search.htm?kw=%E7%8E%8B%E8%80%85%E8%8D%A3%E8%80%80

加载完成后,使用浏览器自带的开发者模式,谷歌chrome直接快捷键F12即可,然后切换到Network模式,

翻到底部后,页面自动加载,注意观察Network下的加载数据,

然后你将会获得一个请求链接,打开这个请求链接后,

虽然这一串乱七八糟的东西看上去很头疼,但是其实他本质也有自己的数据格式,使用火车头内容采集设置中的json工具,既可以看到他的数据结构,

在这里,你只要选择到你想要采集的字段即可,

我选择了appname这个字段以及设置了循环新纪录,然后测试效果如下,

教程如下,以此类推,可以采集多种JSON类数据。