发新话题
打印

个人的一点小小经验 适合新手

本主题由 cntom 于 2008-1-13 00:36 置顶

个人的一点小小经验 适合新手

去年用过几天小蜜蜂,昨天开始又用来采了点东西。小蜜蜂中估计最难的是 过滤和替换,同时也是最有用的,灵活使用一般来说都可以完美过滤。另外我在国外空间使用有点点问题,估计是数据库字段设置问题。其实一个就是导库的时候数据库地址仅为30个字符,其实设50差不多,就是localhost那里。另外我的空间上一直不能从前台指定保留某些tag,只能直接在mysql里面操作。

个人一点经验,供新手参考:
1.首先设置保留tag,这个等级似乎是最高的。
2.过滤的框框里面填的意思是填了什么,采集时候就不要什么,如果有多次过滤则需要点击 增加过滤。
3.替换的原理和过滤一样,其实可以这样理解:过滤A=替换A为空白。这样看来似乎可以不要过滤功能了。呵呵
4.在写过滤规则的时候如果不行就把每次过滤只针对一个<td></td>,似乎针对<tr><td></td></tr>就不行。但是针对<table><tr><td>……</td></tr></table>又可以。呵呵,我就是每次都针对一个td来过滤。麻烦是麻烦点,但是没有办法。这里的管理员已经够好了,再添麻烦实在不好意思。有时候似乎[增加过滤]和<td>之间有空格也不行。
5.耐心分析下每次更改规则之后测试内容的源码,看看问题究竟出在哪里。
呵呵,关键是规则,耐心一点应该没有问题。

多谢小蜜蜂团队!

TOP

另外我一直没有搞懂 替换区域 和 区域过滤 如何使用,哪位指点一下用法?

开发人员设置了这两个功能,但是我们不知道怎么用,失败哦。呵呵

TOP

谢谢分享

1、过滤和替换需要灵活应用,有时候用替换可以达到过滤的效果,但是也不是任何时候都好用

2、采集的时候定义好HTML标签是BC的最高级应用,这个用好了可以减少很多过滤问题

3、所谓区域,就是a.....b之间的范围,范围以内的内容被替换或者过滤掉,这种适合大面积取消不用的内容比较适合

TOP

补充一条
在二次修改规则时
如果规则中含有
复制内容到剪贴板
代码:
&nbsp;
这种内容的朋友要注意了
在添加完规则后再来二次修改 BC会将此代码显示成一个空格 如果不注意再来修改这个地方
保存之后在数据库中的内容就是一个个空格了 而不是
复制内容到剪贴板
代码:
&nbsp;
那么就会影响采集
我以前有很多次是这样
添加完规则后测试正常
二次修改时没注意这个东西 保存后再测试就不行了
模板仿制-热衷采集-乐教好友-QQ:314050425

TOP

二次修改似乎 > 符号对应的源码 也会 显示为 >。呵呵

TOP

某些特殊代码,设计规则时候可以只取其中一部分,比如nbsp;  
BC可以识别的,不一定非要标准完整的HTML代码

TOP

  这个在规则里用变量来代替,以前遇到过

TOP

谢谢分享!
奇网 -无奇不有 http://www.qiwang.com.cn/ QQ:155172

TOP

发新话题