crawlee-proxyport
crawlee-proxyport
Node.js TypeScript paquete proporciona una manera fácil de usar el proxy giratorio para el marco de raspado de Crawlee.npmjs.com/package/crawlee-proxyport - página en npmjs.com
github.com/proxyport/crawlee-proxyport - código fuente en github
github.com/proxyport/crawlee-proxyport - código fuente en github
Requisitos previos
Instalación
$ npm i crawlee-proxyport
Empezando
import { CheerioCrawler, ProxyConfiguration } from 'crawlee'; import { ProxyProvider } from 'crawlee-proxyport'; const startUrls = ['https://example.com']; const crawler: CheerioCrawler = new CheerioCrawler({ useSessionPool: true, persistCookiesPerSession: true, proxyConfiguration: new ProxyConfiguration({ newUrlFunction: (sId) => proxyProvider.newUrlFunction(sId) }), maxRequestRetries: 20, sessionPoolOptions:{ sessionOptions: { // es posible que desee jugar con este número, le recomendamos que utilice un valor entre 10 y 50 maxUsageCount: 20, }, }, async requestHandler({ request, $, log }) { const title = $('title').text(); log.info(`Title of ${request.loadedUrl} is '${title}'`); }, }); const proxyProvider = new ProxyProvider(<API_KEY>, crawler); await crawler.run(startUrls);