慧聪网企业名录采集示例

示例分(fēn)析

使用(yòng)IE浏览器,打开慧聪网首页,进入“找公司”一栏目,选择“热门區(qū)域”中的上海,打开网址,钩选中“买卖通会员”进行筛选,得到上海地區(qū)所有(yǒu)买卖通员网址:http://www.search.hc360.com/cgi-bin/ls,----1--y3z5fnn74i--------0----------zhh3viy-23ilt6r2zhh3viy----1---0-.html(请点击此链接打开。) 好了,本示例要采集的是在慧聪网中“上海地區(qū)所有(yǒu)买卖通会员”的企业名录数据。

创建任務(wù)

在软件主窗口,单击菜单“任務(wù)”->“新(xīn)建任務(wù)(N)”,打开“任務(wù)编辑”对话框来创建一个任務(wù)。下面通过图文(wén)说明,一步步讨论如何填写设置任務(wù)属性:

第一步:任務(wù)概述

在“任務(wù)概述”中,请按上图填写“任務(wù)名称”及选择相应的“分(fēn)类”;“网站首页”、“备注说明”可(kě)随意填写,其他(tā)保持默认即可(kě)。其它设置暂且不讨论,等您熟练以后再参考我们的帮助文(wén)档。

 

第二步:任務(wù)概述

起始地址就是我们要采集内容的入口地址,在这里是“会员企业列表”:http://www.search.hc360.com/cgi-bin/ls,----1--y3z5fnn74i-0-{page}------0------0---4-zhh3viy-23ilt6r2zhh3viy----1---0-.html。其中,“{page}”是他(tā)们的分(fēn)页变量名,这个可(kě)以通过对“会员企业列表”进行翻页并观察得出。如果“{page}=1”就表示第1页,“{page}=25”表示第2页,“{page}=49”表示第3页,以此类推。我们為(wèi){page}指定一个开始页码“1”,结束页码“122”,递增变量“24”,就表示将要采集1到122页,每自动翻页变量{page}就加24,那么第一页{page}就是1,第二页是25,第三页是49,与“会员企业列表”中的下一页功能(néng)相对应了。具體(tǐ)内容设置如下表:

名称 内容 说明
起始地址 http://www.search.hc360.com/cgi-bin/ls,----1--y3z5fnn74i-0-{page}------0------0---4-zhh3viy-23ilt6r2zhh3viy----1---0-.html 对应网页中的下一页链接
开始页码 1 开始采集的页码
结束页码 122 结束采集的页码
递增变量 24 自动翻页变量

 

第三步:导航页面

因為(wèi)该任務(wù)有(yǒu)两层,所以需要建两条“导航规则”,分(fēn)别命名為(wèi):“列表页”和“内容页”。我们需要从“列表页”提取“内容页”的网址,以实现导航。因此,设“列表页”為(wèi)“导航页”,并填写“下一层网址模板”以提取网址。而“内容页”只需选中“最终页面”,然后保存即可(kě)。细心的朋友确定发现我们需要的是慧聪网会员企业的联系方式,而不是他(tā)的供求信息数据,所以需要使用(yòng)用(yòng)高级选项中的“网址替换”功能(néng),将在“列表页”中采集到的“内容页”网址替换成我们所需要的联系方式的网址。例如从列表页“http://www.search.hc360.com/cgi-bin/ls,----1--y3z5fnn74i-0-49------0------0---4-zhh3viy-23ilt6r2zhh3viy----1---0-.html”,我们采集到的第一个内容页网址為(wèi)“http://shyinzhong.b2b.hc360.com/shop/busin.html”,然后通过网址替换功能(néng)将内容页网址替换為(wèi)“http://shyinzhong.b2b.hc360.com/pubinfo/businesscard.html

层次名称 层次类型 下一层网址模板 高级选项
列表页 导航页 http://.*.b2b.hc360.com/shop/busin.html 使用(yòng)“网址替换”功能(néng),将http://.*.b2b.hc360.com/shop/busin.html替换為(wèi)http://.*.b2b.hc360.com/pubinfo/businesscard.html;是将从列表页中采集下来的网址中“/shop/busin.html”部分(fēn)替换為(wèi)“/pubinfo/businesscard.html”(参见下图设置)
内容页 最终页面 无需设置

输入旧值“/shop/busin.html”,输入新(xīn)值“/pubinfo/businesscard.html”,其他(tā)默认设置;点“添加(A)”添加规则到“替换内容列表”中,然后再点“确定(O)”即可(kě)。

 

问:如何找出“导航页”的“下一层网址标识符”呢(ne)?

 

第四步:数据采集

通过导航页面规则,我们采集最终页的内容网址為(wèi):http://shyinzhong.b2b.hc360.com/pubinfo/businesscard.html数据采集主要任務(wù)是编写所需要采集数据的采集规则,这点非常重要,是能(néng)否采集到数据的关键问题。例如上图中的数据名称為(wèi)“公司名称”,前标识符為(wèi)“class="title">”,后标识符為(wèi)“</a>”,这两个标识符是在对应的最终网页“http://shyinzhong.b2b.hc360.com/pubinfo/businesscard.html”的网页源码中取得的,具體(tǐ)数据采规则如下表:

数据名称 字段名称 前标识符 后标识符 高级选项
公司名称 companyname class="title"> </a> 去除HTML代码
联系人 LinkMan class="name"> </a> 去除HTML代码
职務(wù) Duty <span class="duty"> </span> 去除HTML代码
手机 mobile 手机: <br/> 去除HTML代码,去除空格符
地址 Address 地址: <br/> 去除HTML代码
邮编 zip 邮编: <br/> 去除HTML代码,去除空格符
電(diàn)话 phone 電(diàn)话: <br/> 去除HTML代码
传真 fax 传真: <br/> 去除HTML代码
网址 siteurl 网址: </td> 去除HTML代码,去除空格符

 

第五步:采集结果

如图所示,我们不在这里做任何设置,采集后直接将结果导出即可(kě)。

 

示例总结

在本示例中,我们讨论了以下内容:任務(wù)设置流程、哪些是必填项与可(kě)选项、简单的设置及其原理(lǐ),以及引入了一些概念。本示例非常简单,仅供入门學(xué)习之用(yòng)。网站结构复杂多(duō)变,设置时应灵活运用(yòng)、举一反三。另外,如果有(yǒu)兴趣,建议把帮助文(wén)档(在線(xiàn)帮助)从头到尾阅读一遍。一是可(kě)以对各种功能(néng)留下印象,以便日后运用(yòng)自如;二是可(kě)以融会贯通,加深对各种示例的理(lǐ)解。

示例任務(wù)下载

static/file/GetEnAlibaba_Setup

下载后减压,在“新(xīn)建任務(wù)”处导入一下,即可(kě)保存。

 

在學(xué)习过程有(yǒu)任何问题,欢迎与我们联系。>> 点这里查看联系方式

 


Copyright © 2007-2019SumWill.Com All Rights Reserved