Nginx服务器屏蔽与禁止屏蔽网络爬虫的方法

时间:2021-02-04日来源: 作者:

每个网站通常都会遇到很多非搜索引擎的爬虫，这些爬虫大部分都是用于内容采集或是初学者所写，它们和搜索引擎的爬虫不一样，没有频率控制，往往会消耗大量服务器资源，导致带宽白白浪费了。

其实Nginx可以非常容易地根据User-Agent过滤请求，我们只需要在需要URL入口位置通过一个简单的正则表达式就可以过滤不符合要求的爬虫请求：

注意：变量$http_user_agent是一个可以直接在location中引用的Nginx变量。~*表示不区分大小写的正则匹配，通过python就可以过滤掉80%的Python爬虫。

Nginx中禁止屏蔽网络爬虫

可以用 curl 测试一下

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对服务器之家的支持。如果你想了解更多相关内容请查看下面相关链接

原文链接：http://www.codetc.com/article-353-1.html

云服务器/VPS/云主机/服务器修改登陆密码图文教	禁止IP访问网站的多种方法分享(linux,php,nginx,apa
双至强cpu 32g内存服务器做了阵列1更换一个坏的	使用cwRsync实现windows下服务器文件定时同步备份
ibmx335/ibmx336服务器做RAID阵列的图文方法(包括删除	LVS(Linux Virtual Server)Linux 虚拟服务器介绍及配置
配置Memcache服务器并实现主从复制功能（repcache	服务器sas硬盘+sata串口硬盘win2003系统安装方法分
如何快速搭建一个自己的服务器的详细教程（j	服务器定时执行计划任务，定时访问页面(window
DELL服务器RAID H700,PERC H800阵列卡配置中文完全手册	采用软件负载均衡器实现web服务器集群(iis+nginx
dell 服务器开机总是提示按F1才能进入系统解决方	DELL DOSA 6.X 服务器引导光盘Dell Systems Build and Upd
戴尔R510_R410_R610_R710等所有服务器安装win2003解决办	服务器安装Macfee(麦咖啡)杀毒软件后可能出现的问
通过IBM 3650 M2服务器的ServerGuide工具配置RAID图文教	工作站是什么？工作站与服务器二者有什么区别

推荐文章

双至强cpu 32g内存服务器做了阵列1更换一个坏的	配置Memcache服务器并实现主从复制功能（repcache
KB967723补丁造成的MYSQL在Win2003上频繁连接不上的问	rsync同步时出现rsync: failed to set times on “xxxx”:
戴尔R510_R410_R610_R710等所有服务器安装win2003解决办	解析服务器常见错误代码500、501、502、503、504、
服务器技术是什么？有什么用？	Web容器？中间件？Web服务器？傻傻搞不清，一文
服务器维护清单中的7个步骤	web服务器配置（图文详解）
什么是云帮手？云服务器运维管理工具云帮手有	采用分段排查法诊断服务器性能
重新塑造数据中心服务器	图文讲解如何使用Nginx反向代理、负载均衡
服务器12种基本故障及排查方法	DHCP服务是什么_如何使用DHCP服务？
RPC服务器不可用怎么办？解决RPC服务器不可用的	解决RPC服务器不可用Windows time服务无法启动

热门文章

免备案云服务器快吗？使用海外云服务器好不好	云服务器优点有哪些？云服务器缺点你知道吗？
云主机租用要注意的事项?	云服务器设置ftp服务器配置怎么操作？
云服务器搭建难不难？企业云服务器搭建流程	云服务器好用吗？企业用云服务器可靠吗？
阿里云服务器快速配置php环境的方法	欧洲云服务器和VPS有哪些区别？
视频云服务器的配置一般怎么选？	购买真正的云服务器，这几个方面要小心
阿里云申请云盾免费SSL证书(https)	阿里云ECS云服务器如何开放8080端口
阿里云服务器实现域名解析步骤(小白教程)	腾讯云服务器怎么安装安卓模拟器可以安装安卓
解决阿里云ssh远程连接短时间就会断掉的问题	阿里云添加的安全组端口以及添加后无法访问问
阿里云ECS实例设置用户root密码和远程连接的方法	阿里云服务器VNC无法连接及黑屏的原因

微信公众号推荐