普通视图

发现新文章,点击刷新页面。
昨天以前首页

为什么应该阻止 ChatGPT 和 Bytedance 爬虫抓取你的页面?


这几天,我发现我的一两个服务器过载(高于平常的CPU使用率),我查看了 Apache 日志,发现 ChatGPT Bot(也称为 GPTBot/1.0)和字节跳动 Bots(也称为 Bytespider)的访问记录。

您可以通过以下 BASH 命令检查访问您服务器的前 10 个 IP:

#!/bin/bash

awk '{a[$1]++}END{for(v in a)print v, a[v]}'  /var/log/apache2/*.log* | sort -k2 -nr | head -10
bytedance-bots-crawling-apache2-logs 为什么应该阻止 ChatGPT 和 Bytedance 爬虫抓取你的页面? ChatGPT (OpenAI) LINUX 折腾 资讯 运维

字节跳动 Bots(Bytespider)访问日志(Apache2)

gptbot-crawling-apache2-logs 为什么应该阻止 ChatGPT 和 Bytedance 爬虫抓取你的页面? ChatGPT (OpenAI) LINUX 折腾 资讯 运维

ChatGPT Bots(GPTBot)访问日志(Apache2)

为什么应该阻止 ChatGPT 和字节跳动 Bots 抓取您的页面?

ChatGPT还有字节跳动都有自己的大模型,他们就是通过抓取你的数据来喂他们的LLMs(大型语言模型)。这些 bots 免费使用您的材料(信息或数据)。它们给您的服务器增加了额外的负担,这是可以避免的。

我不喜欢它们从我的网站获取信息,白撸我的羊毛,但如果您觉得无所谓,可以将它们列入白名单。

如何阻止ChatGPT和字节跳动的爬虫抓取您的页面?

使用 robots.txt 阻止

一种比较软性的阻止方式是在网站根目录的 robots.txt 文件中添加以下内容:

User-agent: GPTBot
Disallow: /

User-agent: Bytespider
Disallow: /

然而,这些爬虫可能选择不遵守这些规则。比如百度爬虫就不遵守。

使用 CloudFlare 的 WAF 规则阻止

另一种更强硬的方法是通过添加一些防火墙规则来阻止它们,例如,您可以添加一个 CloudFlare WAF 规则来阻止它们:

cloudflare-waf-block-gpt-and-bytespider-bots 为什么应该阻止 ChatGPT 和 Bytedance 爬虫抓取你的页面? ChatGPT (OpenAI) LINUX 折腾 资讯 运维

添加 Cloudflare WAF 安全规则以阻止 GPTBot 和 Bytespider Bot 的访问。

比如还可以在表达式编译器(Expression Editor)里加入其它限制:

(http.user_agent contains "GPTBot") or 
(http.user_agent contains "Bytespider") or 
// 可以根据需求加入其它限制,比如限制 Amazonbot
(http.user_agent contains "Amazonbot") or 
// 访问 WordPress 博客访问评论链接
(http.request.uri contains "?replytocom=")

使用 HTTP 头阻止

您可以通过在服务器配置中设置适当的 HTTP 头来阻止特定的用户代理。以下是如何在 htaccess)加速网站”>Apache 和 Nginx 服务器上实现这一点:
对于 Apache,在您的 .htaccess 文件中添加以下内容:

<IfModule mod_rewrite.c>
  RewriteEngine On
  RewriteCond %{HTTP_USER_AGENT} GPTBot [NC,OR]
  RewriteCond %{HTTP_USER_AGENT} Bytespider [NC]
  RewriteRule .* - [F,L]
</IfModule>

对于 Nginx 服务器,在您的 Nginx 配置文件中添加以下内容:

if ($http_user_agent ~* (GPTBot|Bytespider)) {
    return 403;
}

使用自定义中间件阻止

如果您对应用程序的服务器端代码有控制权,您可以编写中间件来阻止这些用户代理。

在 Express(Node.js)中的示例:

app.use((req, res, next) => {
  const userAgent = req.headers['user-agent'];
  if (/GPTBot|Bytespider/i.test(userAgent)) {
    res.status(403).send('Forbidden');
  } else {
    next();
  }
});

在 Django(Python)中的示例:

from django.http import HttpResponseForbidden

class BlockBotsMiddleware:
    def __init__(self, get_response):
        self.get_response = get_response

    def __call__(self, request):
        user_agent = request.META.get('HTTP_USER_AGENT', '')
        if 'GPTBot' in user_agent or 'Bytespider' in user_agent:
            return HttpResponseForbidden('Forbidden')
        return self.get_response(request)

使用这些方法的组合可以有效地阻止 GPT-4 和 ByteSpider bots 访问您的网站。在服务器级别的阻止(通过 HTTP 头、防火墙规则或 WAF)与 robots.txt 指令结合使用可以提供更强大的解决方案。

英文:Why and How You Should Stop the ChatGPT and Bytedance Bots Crawling Your Pages?

本文一共 702 个汉字, 你数一下对不对.
为什么应该阻止 ChatGPT 和 Bytedance 爬虫抓取你的页面?. (AMP 移动加速版本)

扫描二维码,分享本文到微信朋友圈
75a5a60b9cac61e5c8c71a96e17f2d9c 为什么应该阻止 ChatGPT 和 Bytedance 爬虫抓取你的页面? ChatGPT (OpenAI) LINUX 折腾 资讯 运维
The post 为什么应该阻止 ChatGPT 和 Bytedance 爬虫抓取你的页面? first appeared on 小赖子的英国生活和资讯.

相关文章:

  1. 按揭贷款(房贷,车贷) 每月还贷计算器 去年给银行借了17万英镑 买了20万7500英镑的房子, 25年还清. 前2年是定率 Fix Rate 的合同 (年利率2.49%). 每个月大概是还 700多英镑. 有很多种还贷的计算方式, 定率/每月固定 是比较常用的. 简单来说就是 每个月交的钱是...
  2. 你要找什么样的老婆? 找媳妇的标准 昨天和网友在剑桥面基, 网友奔现, 他从爱尔兰过来, 小我12岁, 就聊到了找对象的标准. TLDR; 找老婆不要(只)看颜值, 而要注重性格, 为人处事和顾家等更重要的品质, 当然性和谐也很重要. 在当今社会, 人们对于找伴侣的标准有所不同. 有些人认为颜值是最重要的, 因为外貌吸引力可以让人在日常生活中感到愉悦, 这是人的本性,...
  3. 在LINUX下循环备份的方法 备份是我们常需要做的事, 你可以在服务器上有一个文件夹专门用于存放备份.然后定期删除(可以是一个脚本定期执行),这样就比较麻烦,因为如果你想每次删除比较旧的备份, 你就得对备份进行时间倒序. 其实可以完全利用LINUX下的 date命令来生成想要的文件名用于备份.比如你想保留过去的 24 小时备份,那么,你可以用: 1 2 H=`date +"%H"` ls > backup_$H  #...
  4. HPZ800服务器主板太老不支持超过2TB的大硬盘 我家里一直用的是HPZ800服务器, 很吵, 很老, 虽然这台服务器已经有十年之久(我在EBAY上买来用了五年多了), 但是即使放到今天, 这服务器速度依旧很快, 很稳定. 由于服务器用的是ECC较验内存, 所以基本上不重启关机. HPZ800主机有两个硬核CPU – 因特志强 X5650 – 每个CPU是12核....
  5. 智能手机 HTC One M9 使用测评 虽然我对手机要求不高, 远远没有像追求VPS服务器一样, 但是怎么算来两年内换了四个手机, 先是三星 S4 用了一年多, 然后 Nokia Lumia 635 Windows Phone, 后来又是 BLU, 半年多前换了...
  6. 把年假分成几周请完 – 工作不是全部 我的工作合同里写着 一年享有 25年工作日 带薪假期 这是比较好的福利之一. 搬家的时候请了三天 还有就是零零散散请了几天 比如 看GP 等等. 每年假期可以有 5天能移到 下一年使用 所以我就把剩下的请了 但是是每周请一天...
  7. ChatGPT-4 使用 Math Wolfram 插件解决数学脑筋急转弯问题 这篇文章, 我们看一个简单的数学问题(脑筋急转弯), 并用 Python 解决它. 我们看一下LLM(大型语言模型): ChatGPT3.5和ChatGPT4. 通过 ChatGPT-Plus 订阅(目前每月 20 美元 + VAT增值税), 我们可以启用...
  8. AI 美女视频 – 抖音网红要失业了? 随着 ChatGPT 全网爆火, 这一两个月AI技术的发展真是日新月异, 一两天就有搞出个新名堂, 都有点试玩不动了. 推特上有日本人通过AI搞出了美女视频. 是不是已经很真实了, 我感觉再这么下去抖音网红要失业了. AI做美女图已经相对很成熟了, 比如 Stable.Diffusion, MidJounery (见视频 Youtube,...

为什么放弃创业加入字节跳动

作者 MacTalk
2022年6月9日 16:43

今天我和老沈做了一次对谈,后续会放到播客和我的知识星球里,收获还挺多的。老沈是 Tower 的创始人,后来产品卖给了 Ones,自己加入了飞书团队,现在是飞书的产品副总裁。

我做播客,一般会写个大概的提纲,然后循着一根主线聊,聊的过程中会出现很多意外的灵感。如同我们在一个森林公园转悠,突然发现曲径通幽,不同的枝桠、花草和颜色纷至沓来,美不胜收。这就是让人惊喜的创作过程。

和老沈聊的过程中,很多内容让人惊喜,比如为什么 Tower 不做移动版本,为什么 Tower 不收费,关停另一个项目 知人 HR 系统的考量是什么?卖掉 Tower 的形态是什么?进入字节半年,啥具体业务也不做,这是什么神操作?

特别多有意思的话题。

我觉得老沈从一个执拗的创业者转变成了一个产品的掌控者,至于这个产品是不是属于自己,没那么重要了,他更加看中平台上的空间,飞书的总裁也给了他足够的信任,这很不容易。 每个创业者可能都有一点偏执,说白了就是自己的盲区,2016 年的时候我让老沈好好做移动版,他不是也不听吗,今天和我说,Tower 移动版的缺失是最大的败笔,而知人 HR 系统则完全是一次认知上的打脸。但在这之后,他能够认识到 Tower 的局限性和天花板,决绝的卖掉了 Tower,给到投资人和员工一个体面的交代,然后转身投入飞书,不得不说这是一次还算不错的转身。

老沈正在从一个创业者,转变成工匠。

任何工作的本质,都逃不开重复劳动,只是重复的内容不同。 作家要不停不停的写东西,科学家要不停不停的做实验,医生要不停不停的打针换药做手术,设计师要不停不停的画图,我们要不停不停的写代码。

不同的是,有些人终生都在重复,有些在重复之中不断的积累量变,最终形成质变,写出了不朽的巨著,破解了世界难题,画出了惊世的画作,写出了改变世界的软件。

坚持,耐得住寂寞,才能不断的积累量变,如果再有一点点创意,一点点机遇,才有机会实现最终的质变。对于擅于坚持默默耕耘的人,即便大多数人没能寻求到质变,但依然坚守的人们,好像有个统一的称谓 —— 工匠。

敬请期待我们的播客成品吧。

近期拍的一些照片:

❌
❌