主页 M

如何文章被恶意采集及如何防范

2014-05-11 网页编程网 网页编程网

很多站长面对自己的网站被恶意采集都很无奈。尤其是看到对方采集后发表的文章立刻被秒收,自己的原创反而成了“转载”。少量的被采集倒无伤大雅,但如果长期下去,对自己网站优化是非常不利的。那到底该如何防止网站被恶意采集呢?有办法既不影收录又能防止网站被采集吗?当然!

防止恶意采集

招数一

经常查看服务器日志,屏蔽掉异常IP,阻止恶意采集者进入网站。

1、采集文章网站的IP。很多网站所在服务器和采集服务器是同一个。

2、流量过大的IP。此类IP一般都是采集爬虫,直接屏蔽掉。

3、具体的屏蔽IP的方法很多。

通过对方IP找到对方所在主机服务商或者机房。联系主机商或者机房。打一份版权声明文本,Email或传真给主机商或机房。让他们停掉采集网站的服务器。再联系对方域名注册商,Email给他们版权声明文本。要求域名注册商停掉对方的域名解析。

招数二

文章的命名尽量无规律,比如你的文章是<%=id%>.htm的话,请在前面或后面生成个日期,如:20160514-1.htm,前面是日期,这样对一些初级采集者来说很有效。

招数三

不要把所有的文章都放在一个目录下,你可以利用日期生成不同的目录名。

招数四

文章选用不同模板,准备多一些的模板,添文章时可选用不同模板,一般的采集程序是有针对性的,采集前会对页面进行分析,如果发现所有页面的排版无规律,采集程序一般都会选择放弃。

招五图片输出

把重要的数据直接作为图片输出,据说起点小说的vip章节就是这样实现的。这个方法非常彻底,缺点是消耗服务器性能和磁盘空间。

招六动态模板

采集都是通过制定好饿规则,所以如果让被采集页面没有规则,那么依然可以防采集。可以事先做好N套模板,最终效果都挺相似,但是HTML代码结构却不同。比如有一些用<strong>有一些用<B>,有一些用div,有一些用table。每次显示或者输出时随机调用模板。一旦这样,除了“人肉”,基本上可以防住绝大部分的采集程序。

阅读原文
阅读 3348
123 显示电脑版