大家做seo的都知道,访问你网站的不仅只有用户,还是爬虫,也就是我们俗称的采集。就也是采集我们网站文章的罪魁祸首。
什么是采集呢?
采集就是使用程序通过自动化操作复制数据。
首先说明,只要是能让浏览器访问的,就没有不能采集的。但是可以通过一定的手段让采集变得非常麻烦,进而在大量数据的情况下延迟采集完成时间,加大采集难度。
常见采集工具
火车头是目前国内使用人数最多的采集工具,入门难度低,其实防采集就是防止90%的小白采集你的网站。因为浏览器上会有源码,无论你是js加密,字体加密,都是可以逆向的。
- 常见的防采集操作
- 1.限制IP地址单位时间的访问次数
- 没有哪个常人一秒钟内能访问相同网站5次,除非是程序访问,而有这种喜好的,就剩下搜索引擎爬虫和讨厌的采集器了。
- 2.屏蔽 IP
- 通过后台计数器,记录来访者IP和访问频率,人为分析来访记录,屏蔽可疑IP。
- 3.利用js加密网页内容
- js代码灵活多变,可以判读referer和设备名称,分辨率等设备信息来完成防采集操作。
js自动添加版权代码
- <script type="text/javascript">
- var ua = navigator.userAgent.toLowerCase();
- if (window.ActiveXObject) { /* 兼容 IE */
- document.body.oncopy = function () {
- event.returnValue = false;
- var selectedText = document.selection.createRange().text;
- var pageInfo = '<br>---------(^-^)---------<br>'
- + '本文章原文链接<br>'+ document.location.href
- + '<br>来源:傲来网络<br>';
- clipboardData.setData('Text', selectedText.replace(/\n/g, '<br>') + pageInfo);
- }
- }
- else {
- function addCopyRight() {
- var body_element = document.getElementsByTagName('body')[0];
- var selection = window.getSelection();
- var pageInfo = '<br>---------(^-^)---------<br>'
- + '本文章原文链接<br>'+ document.location.href
- + '<br>来源:KIENG 博客<br>';
- var copyText = selection.toString().replace(/\n/g, '<br>') + pageInfo; // Solve the line breaks conversion issue
- var newDiv = document.createElement('div');
- newDiv.style.position = 'absolute';
- newDiv.style.left = '-99999px';
- body_element.appendChild(newDiv);
- newDiv.innerHTML = copyText;
- selection.selectAllChildren(newDiv);
- window.setTimeout(function () {
- body_element.removeChild(newDiv);
- }, 0);
- }
- document.oncopy = addCopyRight;
- }
- </script>