我的梦想就是流浪天涯
导航

主页 > 技术教程 >

小旋风:蜘蛛池采集规则编写内容库与句子库教程

 知青    2020-05-07    技术教程  

添加规则 。 选择整篇内容或者句子段落

比如说我们要采集新浪新闻,地址是:https://news.sina.com.cn/

就在列表配置选项的匹配网址里填上以上地址。。


打开采集源的地址,选择其中一篇新闻。复制它的链接地址。

这里的是地址是:https://news.sina.com.cn/c/2019-05-03/doc-ihvhiewr9625655.shtml

然后,内容匹配规则可以这样写

https://news.sina.com.cn/(w)/(d)-(d)-(d)/(w)-(w).shtml


内容截取规则:

打开内容地址。右键查看源代码,找到内容区域。


然后内容截取规则可以这样写;

<div class="wap_special"


像新浪这种大型网站,它的内容页有些是不一样的,我们可以写多几个匹配。

保存后,看看效果!!



原文标题:小旋风:蜘蛛池采集规则编写内容库与句子库教程

原文地址:https://www.qqzla.com/js/244.html

TAG标签: