如何操作指南 > 如何为 Scrapy 设置代理

如何为 Scrapy 设置代理

Scrapy 是一个强大的网络抓取和抓取框架，使开发人员能够轻松地从网站中提取数据。但是，有时网站可能会阻止或限制来自单个 IP 地址的请求，从而难以收集所需的数据。为了克服这个问题，Scrapy 允许开发人员设置可用于轮换 IP 地址并绕过这些限制的代理。在本文中，我们将探讨如何为 Scrapy 设置全局和特定请求的代理，使您能够更有效地从网站收集数据。

为 Scrapy 设置代理的最简单方法是使用 scrapy-proxyport 包。
或者，如果您想手动设置代理，请继续阅读。

特定请求的代理

要在 Scrapy 中为特定请求设置代理，您可以在创建 Request 对象时将代理作为 meta 参数传递。下面是一个示例代码片段：

import scrapy

class MySpider(scrapy.Spider):
    name = 'my_spider'
    start_urls = ['http://www.example.com']

    def start_requests(self):
        # 为第一个请求设置代理
        yield scrapy.Request(
            url=self.start_urls[0],
            meta={
                'proxy': 'http://proxy.example.com:8080'
            }
        )

    def parse(self, response):
        # 使用不同的代理发出新请求
        yield scrapy.Request(
            url='http://www.example.com/page2',
            meta={
                'proxy': 'http://proxy2.example.com:8080'
            },
            callback=self.parse_page
        )

    def parse_page(self, response):
        # 对响应做一些事情
        pass

在上面的示例中，第一个请求将使用 http://proxy.example.com:8080 代理，而第二个请求将使用 http://proxy2.example.com :8080 代理。您还可以在 meta 参数中设置其他 Request 参数，例如标头或 cookie。

代理作为中间件

我们的包将为您完成所有工作。如果您想手动执行此操作，请继续阅读。

要为 Scrapy 设置代理，您可以按照以下步骤操作：

打开项目目录中的 settings.py 文件。
找到 DOWNLOADER_MIDDLEWARES 设置并添加以下代码：

'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 1,
'your_project_name.middlewares.ProxyMiddleware': 100,

在您的项目目录中创建一个名为 middlewares.py 的新文件。
将以下代码添加到 middlewares.py 文件：

import random

class ProxyMiddleware(object):
    def process_request(self, request, spider):
        # 要使用的代理列表
        proxy_list = [
            'http://proxy1.example.com:8080',
            'http://proxy2.example.com:8080',
            'http://proxy3.example.com:8080',
        ]
        # 从列表中选择一个随机代理
        proxy = random.choice(proxy_list)
        # 为请求设置代理
        request.meta['proxy'] = proxy

使用您自己的代理列表更新 proxy_list 变量。

您的 Scrapy 蜘蛛现在将对它发出的每个请求使用来自 proxy_list 变量的随机代理。

也可以看看:

scrapy-proxyport - Proxy Port middleware for Scrapy

抓取代理

了解更多