如何文章被恶意采集及如何防范

2014-05-11 网页编程网 网页编程网

很多站长面对自己的网站被恶意采集都很无奈。尤其是看到对方采集后发表的文章立刻被秒收，自己的原创反而成了“转载”。少量的被采集倒无伤大雅，但如果长期下去，对自己网站优化是非常不利的。那到底该如何防止网站被恶意采集呢？有办法既不影收录又能防止网站被采集吗？当然！

防止恶意采集

招数一

经常查看服务器日志，屏蔽掉异常IP，阻止恶意采集者进入网站。

1、采集文章网站的IP。很多网站所在服务器和采集服务器是同一个。

2、流量过大的IP。此类IP一般都是采集爬虫，直接屏蔽掉。

3、具体的屏蔽IP的方法很多。

招数二

文章的命名尽量无规律，比如你的文章是<%=id%>.htm的话，请在前面或后面生成个日期，如：20160514-1.htm，前面是日期，这样对一些初级采集者来说很有效。

招数三

不要把所有的文章都放在一个目录下，你可以利用日期生成不同的目录名。

招数四

文章选用不同模板，准备多一些的模板，添文章时可选用不同模板，一般的采集程序是有针对性的，采集前会对页面进行分析，如果发现所有页面的排版无规律，采集程序一般都会选择放弃。

招五图片输出

把重要的数据直接作为图片输出，据说起点小说的vip章节就是这样实现的。这个方法非常彻底，缺点是消耗服务器性能和磁盘空间。

招六动态模板

采集都是通过制定好饿规则，所以如果让被采集页面没有规则，那么依然可以防采集。可以事先做好N套模板，最终效果都挺相似，但是HTML代码结构却不同。比如有一些用<strong>有一些用<B>，有一些用div，有一些用table。每次显示或者输出时随机调用模板。一旦这样，除了“人肉”，基本上可以防住绝大部分的采集程序。

阅读原文

阅读 4748

123 显示电脑版