发新话题
打印

[其他] 小蜜蜂采集器标准版:V2.1 Build 0423

本主题由 cntom 于 2008-1-13 00:36 移动

小蜜蜂采集器标准版:V2.1 Build 0423

小蜜蜂采集器:文章采集、图片采集、Flash采集利器、BBS论坛采集利器
欢迎使用不受目标语言限制、不选存储对象数据库的在线采集器,Google、Baidu搜索排名第一,完全免费,放心使用。
软件应用环境:支持PHP+Mysql+ZEND Optimizer的WEB系统
当前版本:V2.1 Build 0423 释放时间:08.04.23 10:18
旧版本用户升级请参考升级文件目录下说明文件操作!!!

更新说明:
V2.1 Build 0423 释放时间:08.04.23 10:18
1、完善数据库直导功能,修正导库内容中有单引号之类导致mysql数据库拒绝入库缺陷,程序自动处理保障完整导库。


---------------
适用范围:
1、部署环境不限,Windows、Linux、FreeBSD、Solaris等凡是可以安装PHP语言支持环境的系统均可以;
2、采集目标不限,静态HTML、动态PHP/ASP/JAVA页面都可采集;
3、采集对象支持:文章、图片、Flash;
4、完美的内容入库解决方案,小蜜蜂采集器提供2种入库方式:数据库直导和模拟提交。
  1)数据库直导完美支持任何基于Mysql数据库存储信息的内容管理系统,包括多表/多字段联动系统导库,
     支持直导规则追加自定义SQL语句,可实现更高级的导库后内容构造,比如对导库后特定内容使用SQL语句再加工这样的高级应用。
  2)模拟提交导库理论上支持任何目标,不受目标程序语言、数据库类别限制;实际使用效果受目标应用程序影响。

  
各采集模块功能简介:
1、 文章采集模块 专门采集文章/图片,也可采集文章中附带的Flash,但是功能不如Flash采集模块强大;
2、 BBS论坛采集模块  专门采集BBS论坛内容;
3、 Flash采集模块 专门采集Flash小游戏,可完美采集缩略图、游戏简介;

采集内容导库简介:各模块采集的内容均可自由导入WEB应用系统。

功能介绍:     
1、支持文章内容分页采集;
2、支持论坛采集
3、支持UTF-8转换到GB2312,可采集内容字符格式为UTF-8的目标;
4、支持把文章内容保存到本地;
5、支持站点+栏目管理方式,使采集管理一目了然;
6、支持链接替换、分页链接替换,破解某些使用JS/后台程序设置的防采功能;
7、支持采集器设置无限过滤功能;
8、支持图片采集保存到本地,自动替换文件名避免重复;
9、支持FLASH文件采集保存到本地,自动替换文件名避免重复;
10、支持限制PHP FOPEN、FSOCKET函数功能的虚拟主机;
11、支持采集结果人工筛选,并提供“空标题、空内容”的快速过滤删除;
12、支持Flash专业站采集,专门采集flash小游戏,可完美采集缩略图、游戏简介;
13、支持全站配置规则导入、导出;
14、支持栏目配置规则导入、导出,提供规则复制功能简化设置;
15、提供导库规则导入、导出;
16、支持自定义采集间隔时间,避免被误认为DDOS攻击而拒绝响应,可采集设置了防DDOS攻击的网站;
17、支持自定义入库间隔时间,躲避虚拟主机并发数限制;
18、支持自定义内容写入,用户可设置任意内容(如自己的链接、广告代码),写入到所采集内容的:最前面、最后面,或者随机写入;导库时自动带上需要写入的内容,无需修改您WEB系统的模版。
19、支持采集内容替换功能,用户可设置替换规则随意替换;
20、支持html标签过滤,允许采集到的内容仅保留必要的html标签甚至无任何html标签的纯文本。若系统默认的标签不满足您的需要,还可以自定义其他HTML标签提升采集性能;
21、支持多种CMS导库 如:小蜜蜂商务门户网站系统(BBWPS)、DedeCms(织梦) 、PHP168、mephpcms、Mambo、Joomla、多讯(DuoXun) 、SupeSite、Cmsware、帝国ECMS、新雨动网(XYDW)CMS、动易CMS、风讯CMS、HUGESKY CMS、PHPCMS系统导库;
22、支持PHPWIND、Discuz、BBSxp论坛导库;
23、支持WordPress、Bo_Blog日志系统导库,除了官方提供导库规则以外,您也可以自己设计所用系统的导库规则,导库设计功能完全开放;
24、附带数据库优化工具,减少频繁采集数据碎片过多降低数据库性能。

以下特殊功能仅“小蜜蜂采集器”拥有:
1、支持采集过程断点续采功能,不受浏览器意外关闭影响,重新启动后不会重复采集;
2、支持自动对比过滤功能,对已采集的链接系统不会进行重复采集和入库;
  以上两条功能可大幅度减少采集时间,降低系统负载。
3、支持系统每日自动创建图片保存目录,方便管理;
4、支持采集/导库间隔时间设置,避免被目标站识别为流量攻击而拒绝响应;
5、支持自定义内容写入,达到简单防采功能;
6、支持html标签过滤,近乎完美的显示您想要的采集效果;
7、完美的内容入库解决方案,不受目标程序语言、数据库类别限制。
以上众多强劲功能给您免费使用,即刻安装使用体验信息采集的轻松、高效。
-----------------------------
选择小蜜蜂采集器的好处:
1、小蜜蜂程序采用PHP开发支持跨平台运行,无论Windows还是Unix类操作系统都可运行,是一个高效采集、完美入库的在线应用软件。
2、小蜜蜂不受安装地点限制,家里、单位电脑、网站服务器都可以;推荐直接安装在网站服务器上运行,更能体会小蜜蜂超强功能和方便之处。
3、采用服务器安装,可将采集的图片/Flash直接抓取到本机使用;无需像其他采集器采集到个人电脑还要将数据FTP上传服务器。试想如果您当天采集图片、Flash超过100M,上传时间是个什么概念。
4、采用服务器安装,可快速进行采集内容导入CMS文章系统或BBS论坛系统;若您使用非在线的采集器,远程入库或上传SQL文件来入库都会浪费时间。
5、小蜜蜂独有的断点续采、重复采集过滤功能,更能节约您制作内容时间。
-----------------------------
单点下载:http://www.bbwps.com/down/beecollector.7z

7Z后缀压缩文件解压工具:http://www.7-zip.org/zh-cn/

多点下载:http://www.downreg.com/down/?f-soft--id-11626.html

Windows支持环境(集成Apache/php/mysql,本地测试推荐使用):
http://bbs.bbwps.com/thread-6265-1-1.html

TOP

支持自动对比过滤功能,对已采集的链接系统不会进行重复采集和入库;
================================================

非常喜欢这个功能.

TOP

我们有专门负责策划功能的同事、专门程序实现的同事来认真的做小蜜蜂,以后会有更多好用的功能出来

TOP

怎么下载不了阿

抱歉抱歉,我编辑帖子时候把下载地址放错了。已经修正
by cntom

TOP

“对已采集的链接系统不会进行重复采集和入库”

请教下:假如采集后,由于其他原因,需要对已经采集过的数据重新采集要怎么搞?……

TOP

引用:
Beta1.2.315版本升级到Beta1.2.322版本:
1)以二进制模式上传覆盖小蜜蜂程序目录以下文件:
/class
/require
/template
以及根目录下所有PHP程序。

2)上传/update
运行该目录中的UPDATE315_322.php
按照这里的方法升级,结果访问
http://www.***.com/xmf/update/update315_322.php
出现下面的错误:
引用:
Warning: main(./cache/db_config.php) [function.main]: failed to open stream: No such file or directory in G:\FriendSite\citycz.com\citycz\update\update315_322.php on line 2

Fatal error: main() [function.require]: Failed opening required './cache/db_config.php' (include_path='.;C:\php5\pear') in G:\FriendSite\citycz.com\citycz\update\update315_322.php on line 2

TOP

找到原因了,说明文档说的不清楚导致:

2)上传/update
运行该目录中的UPDATE315_322.php


给我感觉是直接上传整个文件夹上去,既访问http://www.***.com/***/update/update315_322.php
刚刚试着把UPDATE315_322.php放在程序根目录下,访问了下,这次成功了

是我们的说明文件写错了;谢谢指正!^_^
已经修正说明文件 By cntom

TOP

如果说是想要重新采集以前采集过的连接,这个只能手动了,在数据库中把记录删除了就OK了,表:loadurl查找出url把那一行删除了就可以了

TOP

-.- 我不知道是哪个版本了...

您先倒出规则备份,然后重新装新版好了。

如果您没有遇见CMS无法显示图片,或者没有觉得设置图片目录不方便,那就暂时不要升级。
By cntom

TOP

程序已下载,可是没有导入discuz的规则,欲闷哦!自己又弄不了,因为最近才开始用PHP的程序

TOP

发新话题