爬虫的攻防技术(转载自自己购买的学习资料)-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

爬虫的攻防技术(转载自自己购买的学习资料)

阅读量：2066 次

发布时间：2019-04-29

本文共 1442 字，大约阅读时间需要 4 分钟。

爬虫的攻防技术(转载自自己购买的学习资料)

如何发现一个爬虫？一般情况下网站是不会大量的验证用户请求.除非你在访问重要数据.
- 1）单一的访问频次过高
  - 普通人,10秒访问一个网页, 爬虫一秒获取10个网页
- 2)单一的ip出现非常规的流量
- 3) 大量的重复简单的网页浏览行为
- 4) 只下载html文档, 不下载js
- 5) 在页面设置陷阱, 用户看不懂, 爬虫是可以的, 比如 hidden
- 6) 在页面写一段js代码, 浏览器直接执行, 程序不会执行
- 7) 判断请求头: user-agent

如何不被发现？
- 多主机的策略, 解决单一ip的问题, 分布式爬取
- 调整访问频次, 爬一会休息一下
- 通过不断切换ip, 或者直接使用ip代理的形式
- 频繁的修改user-agent头
- Header中的Cache-Control修改为no-cache
- 当返回状态码是403（服务器资源禁止访问），改变Header和IP。不断改变

public static void main(String[] args) throws Exception {

       HttpGet httpGet = new HttpGet("https://news.163.com/");

   //我是专门用来模拟浏览器，让我的请求看起来和真实的浏览器一样
       httpGet.setHeader("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8");
       httpGet.setHeader("Accept-Encoding", "gzip, deflate, sdch, br");
       httpGet.setHeader("Accept-Language", "zh-CN,zh;q=0.8");
       httpGet.setHeader("Cache-Control", "no-cache");
       httpGet.setHeader("Cookie", "_ntes_nnid=4b1a6bbc71e14269912bdc23980b3fb1,1531559784738; _ntes_nuid=4b1a6bbc71e14269912bdc23980b3fb1;");
       httpGet.setHeader("Host", "news.163.com");
       httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36");
       httpGet.setHeader("referer","http://news.163.com/");

       CloseableHttpClient httpClient = HttpClients.createDefault();
       CloseableHttpResponse res = httpClient.execute(httpGet);
       HttpEntity entity = res.getEntity();
       String html = EntityUtils.toString(entity,"utf-8");
       System.out.println(html);
   }

你可能感兴趣的文章

使用 wrk 压测并精细控制并发请求量

Ceph 故障排查笔记 | 万字经验总结

使用 Go 从零开始实现 CNI 可还行？

KubeSphere 3.1.0 GA：混合多云走向边缘，让应用无处不在

Containerd 1.5 发布：重磅支持 docker-compose！

基于 Kubernetes 的 Spring Could 微服务 CI/CD 实践

5.15 相约上海！2021 年度首届云原生 Meetup | KubeSphere & Friends

使用 Cilium 作为网络插件部署 K8s + KubeSphere

万变不离其宗，性能优化也有章可循

别再乱用 Prometheus 联邦了，分享一个 Prometheus 高可用新方案

Litmus 实践：让群魔在混沌中乱舞，看 K8s 能撑到何时

Prometheus 存储层的演进

Kubernetes 边缘节点抓不到监控指标？试试这个方法！

不对全文内容进行索引的 Loki 到底优秀在哪里

太强大了！这些 Go 的难点问题都能解决！

万字长文：K8s 创建 pod 时，背后到底发生了什么？

后云原生时代，Kubernetes：你看我还有机会吗？

Wintun：一款惊艳的 WireGuard 虚拟网卡接口驱动

个人学习方法分享

时隔多年。。终于有一款云原生消息系统出仕了！

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-05-16 13:34:10 当前IP: 3.12.71.26 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我