注:本文教程只做蓝天采集规则分析使用,如有侵权请联系我删除!

今日头条是一个日更新过万的自媒体信息平台,每天都有大量的优质内容。我们的蓝天采集器如何来采集内容发布到我们网站里面呢,今天蜀戎就给大家分析一下蓝天采集规则。

今日头条的防采集非常的厉害,规则也是经常在变,所以呢几乎是过一段时间就要更新一次规则。

打开今日头条https://www.toutiao.com;F12,头条内容是ajx传输的,鼠标往下滑动,可以看到下图所示内容。

今日头条链接地址

https://www.toutiao.com/api/pc/feed/?max_behot_time=1588211805&category=__all__&utm_source=toutiao&widen=1&tadrequire=true&as=A175FE2AFA07F93&cp=5EAA07FF99A32E1&_signature=uMABbAAgEBDQ2nK18FMWjrjBQHAAOZ4w1Z8htwQfhVrRDH-5A1MbwMuitOu6bUHSOvmIen6YQY8IYilvnTPp6wdu.FPmuhX20Fbf3gP4C8b6qS8fInO5ahFKSYRofl01cVe;

打开内容是json加密,如下图显示

json加密

把链接复制粘贴在蓝天采集器测试抓取解析入下图;

解析入下图

好了,这里我们就已经获取到想要的列表页数据了,把起始页链接设置为刚才获取到的链接(他是有分页的,这里可以自己去分析他的数字变化)

起始页链接

点击规则设置;

链接规则设置

链接

链接已经提取到了,添加内容页字段就可以了;

内容规则

content: '[内容1]'slice

标题规则

<title>[内容1]</title>;

测试效果图:

结果页

到此今日头条内容采集完成,这个是目前最新最全的教程,测试真实有效!一个小时采集2000+内容没有出现一点问题。内容都是完整无错。

相关文章