个人的一点小小经验 适合新手
去年用过几天小蜜蜂,昨天开始又用来采了点东西。小蜜蜂中估计最难的是 过滤和替换,同时也是最有用的,灵活使用一般来说都可以完美过滤。另外我在国外空间使用有点点问题,估计是数据库字段设置问题。其实一个就是导库的时候数据库地址仅为30个字符,其实设50差不多,就是localhost那里。另外我的空间上一直不能从前台指定保留某些tag,只能直接在mysql里面操作。
个人一点经验,供新手参考:
1.首先设置保留tag,这个等级似乎是最高的。
2.过滤的框框里面填的意思是填了什么,采集时候就不要什么,如果有多次过滤则需要点击 增加过滤。
3.替换的原理和过滤一样,其实可以这样理解:过滤A=替换A为空白。这样看来似乎可以不要过滤功能了。呵呵
4.在写过滤规则的时候如果不行就把每次过滤只针对一个<td></td>,似乎针对<tr><td></td></tr>就不行。但是针对<table><tr><td>……</td></tr></table>又可以。呵呵,我就是每次都针对一个td来过滤。麻烦是麻烦点,但是没有办法。这里的管理员已经够好了,再添麻烦实在不好意思。有时候似乎[增加过滤]和<td>之间有空格也不行。
5.耐心分析下每次更改规则之后测试内容的源码,看看问题究竟出在哪里。
呵呵,关键是规则,耐心一点应该没有问题。
多谢小蜜蜂团队!