选中了,走下去,别回头!!!
今天初涉采集功能!
上一篇 /
下一篇 2007-06-06 00:06:51
/ 个人分类:dz讨论区
经过一个阶段的努力,论坛的前台后台操作已经比较熟悉了。但对于ss还是很陌生,操作起来没有那么顺手,正好这两天生态市行动计划的工作告一段落,可以抽空学习一下ss的操作了。
ss即所谓的社区模块,是一个做社区不错的程序,只可惜我知之甚少,里面许多需要进行代码操作,因为好久没有接触过具体的网页代码了,所以若想把社区做的漂亮些,做的个性化些,目前还做不到,只能沿用dz官方的风格。由于官方的风格是基于独立主机考虑的,所以社区目前的部分功能充其量只能算做“摆设”,等我们有足够的能力去购买独立主机的时候,我想这些功能就会逐步开放,大家共同期待,呵呵!
目前社区的功能比较完善,只是需要学习,需要摸索。现在最大的一个问题就是社区内缺少实质性的内容,缺少真正属于河海精英论坛个性的东西,缺乏大家都能用得到的资源。希望能以一周年活动为契机,尽快完善起来。
今天所涉及到的采集功能只是社区资讯部分的一个功能,因为做社区,内容上还是要丰富一下,也方便同学们及时了解学校的最新情况。所以就需要借用其它站点的资料,为我所用——也就是采集。
采集主要是利用采集规则来进行,ss自带的采集器有比较强大的功能(看了几篇关于采集的文章得出的初步结论,不一定正确),只是规则的制定,需要不少时间来消化,目前没有一个相关的教程说明,只能自己摸索了。通过别人做出的采集规则,导入机器人之后,点击”编辑规则“就可以看到里面的具体内容。先开始是一头雾水,不知所云,不过通过对比发现了部分规律。
首先就是要找到总的序列表,即list,其实就是一个信息集成的页面,比如新闻类板块等,好多条新闻集中在一个页面上,以list形式展现,所以第一项定义的就是[page],这个我发现就是找到翻页(下一页)的链接,同时要明确页数的排列规则,如果是1,2,3这样的顺序排列的话,page=[page],举个例子:假如总序列表的链接是:www.hhubbs.com/index.htm,又假定其第二页的排列方式是www.hhubbs.com/index2.htm,这样的话规则就可以写成www.hhubbs.com/index_[page].htm(这个结论不一定正确,只是我的感觉)。还需要进一步的证实,因为今天实验采集的站点是动网的程序,这个方法并不适用,aspx格式的还有待于研究。采集规则更为复杂。
对于标题的采集定义:即title,这个一般而言,大部分的网站都是以<title>title</title>这样的形式来显示标题的,当然今天采集的水利部的网站上面好像不是这样定义的,这个要通过对采集页面右键→查看源代码,通过看源代码来定义标题设置。如果网站本身没有来源(from),则对此项可以不予理会。
对于内容的采集,同样要仔细查看message位于的位置在何处,必须要有唯一性,否则采集不到内容的。这个要仔细检查。采集的根域名即为www.hhubbs.com。
今天下午就摸索了这么多,对动网的采集还是不太明白,有时间得问问高手才行,呵呵!希望有兴趣的同学加入进来,如果可能的话,我们将提供实验的空间(现在的免费空间也比较多,呵呵)。
导入论坛
收藏
分享给好友
推荐到圈子
管理
举报
TAG:
采集器