博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬虫的攻防技术(转载自自己购买的学习资料)
阅读量:2066 次
发布时间:2019-04-29

本文共 1442 字,大约阅读时间需要 4 分钟。

 

 

爬虫的攻防技术(转载自自己购买的学习资料)

  • 如何发现一个爬虫?一般情况下网站是不会大量的验证用户请求.除非你在访问重要数据.

    • 1)单一的访问频次过高

      • 普通人,10秒访问一个网页, 爬虫一秒获取10个网页

    • 2)单一的ip出现非常规的流量

    • 3) 大量的重复简单的网页浏览行为

    • 4) 只下载html文档, 不下载js

    • 5) 在页面设置陷阱, 用户看不懂, 爬虫是可以的, 比如 hidden

    • 6) 在页面写一段js代码, 浏览器直接执行, 程序不会执行

    • 7) 判断请求头: user-agent

  • 如何不被发现?

    • 多主机的策略, 解决单一ip的问题, 分布式爬取

    • 调整访问频次, 爬一会休息一下

    • 通过不断切换ip, 或者直接使用ip代理的形式

    • 频繁的修改user-agent头

    • Header中的Cache-Control修改为no-cache

    • 当返回状态码是403(服务器资源禁止访问),改变Header和IP。不断改变

  • public static void main(String[] args) throws Exception {

            HttpGet httpGet = new HttpGet("https://news.163.com/");
            
              //我是专门用来模拟浏览器,让我的请求看起来和真实的浏览器一样
            httpGet.setHeader("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8");
            httpGet.setHeader("Accept-Encoding", "gzip, deflate, sdch, br");
            httpGet.setHeader("Accept-Language", "zh-CN,zh;q=0.8");
            httpGet.setHeader("Cache-Control", "no-cache");
            httpGet.setHeader("Cookie", "_ntes_nnid=4b1a6bbc71e14269912bdc23980b3fb1,1531559784738; _ntes_nuid=4b1a6bbc71e14269912bdc23980b3fb1;");
            httpGet.setHeader("Host", "news.163.com");
            httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36");
              httpGet.setHeader("referer","http://news.163.com/");
            
            CloseableHttpClient httpClient = HttpClients.createDefault();
            CloseableHttpResponse res = httpClient.execute(httpGet);
            HttpEntity entity = res.getEntity();
            String html = EntityUtils.toString(entity,"utf-8");
            System.out.println(html);
        }

你可能感兴趣的文章
使用 wrk 压测并精细控制并发请求量
查看>>
Ceph 故障排查笔记 | 万字经验总结
查看>>
使用 Go 从零开始实现 CNI 可还行?
查看>>
KubeSphere 3.1.0 GA:混合多云走向边缘,让应用无处不在
查看>>
Containerd 1.5 发布:重磅支持 docker-compose!
查看>>
基于 Kubernetes 的 Spring Could 微服务 CI/CD 实践
查看>>
5.15 相约上海!2021 年度首届云原生 Meetup | KubeSphere & Friends
查看>>
使用 Cilium 作为网络插件部署 K8s + KubeSphere
查看>>
万变不离其宗,性能优化也有章可循
查看>>
别再乱用 Prometheus 联邦了,分享一个 Prometheus 高可用新方案
查看>>
Litmus 实践:让群魔在混沌中乱舞,看 K8s 能撑到何时
查看>>
Prometheus 存储层的演进
查看>>
Kubernetes 边缘节点抓不到监控指标?试试这个方法!
查看>>
不对全文内容进行索引的 Loki 到底优秀在哪里
查看>>
太强大了!这些 Go 的难点问题都能解决!
查看>>
万字长文:K8s 创建 pod 时,背后到底发生了什么?
查看>>
后云原生时代,Kubernetes:你看我还有机会吗?
查看>>
Wintun:一款惊艳的 WireGuard 虚拟网卡接口驱动
查看>>
个人学习方法分享
查看>>
时隔多年。。终于有一款云原生消息系统出仕了!
查看>>