此文只是作为分析测试,如有侵犯权限联系我们删除。
源站:www.unionrepair.com 由于源站服务器在国外所以打开速度比较慢,源站是一个shop商城,我们今天就测试采集产品价格,标题以及内容。
第一步:添加任务(名称随意)采集网址规则
起始网址:意思是从那里开始采集(也就是打开的意思);
多级网址获取:这里就是我们采集产品的网址链接;
以上是提取页面链接地址规则:
以上是选定区域网址:
开始:<
div
class
=
"ty-tabs cm-j-tabs cm-j-tabs-disable-convertation clearfix"
>
结束:
<
div
class
=
"ty-mainbox-container clearfix about-company-desc"
>
网址提取方式:
<
div
class
=
"ty-grid-list__image"
> <
a
href
=
"https://参数"
>
网址的链接提取规则我们就配置好了,由于网站是外国的所以我们别忘记把网站的cookie填写上。
第二步:采集内容规则
标题:
<
meta
property
=
"og:title"
content
=
" "
/>
价格:<
input
type
=
"hidden"
name
=
"pda_send_dataprice"
value
=
" "
/>
内容:<code class="xml plain" style="font-size: 13px; white-space: pre; padding: 0px !important; font-fam