Skip to content

Инструмент сбора данных о разделах, товарах и позициях товаров в разделах Wildberries и других российских маркетплейсов

Notifications You must be signed in to change notification settings

raxers/wildsearch_crawler

 
 

Repository files navigation

WildSearch crawler

Инструмент сбора данных о разделах, товарах и позициях товаров из российских маркетплейсов.

На данный момент в том или ином виде поддерживаются следующие площадки:

Установка

Установка скрапера pip install -r requirements.txt

Общие возможности

Все скраперы имеют возможность отправлять POST HTTP коллбэк на указанный адрес после завершения работы. Для отправки коллбэка нужно передать следующие параметры:

  • -a callback_url="https://website.domain/" – URL для передачи вебхука
  • -a callback_params="param1=value1&param2=value2 – urlencoded строка со списком параметров, которые будут отправлены в теле POST запроса коллбэка

Скраперы для Wildberries

wb – универсальный скрапер Wildberries

Скрапер называется wb, запускается в следующих режимах:

  • Без параметров – обход начинается с карты разделов сайта и заканчивается только когда будет собрано всё.
  • Анализ категории: scrapy crawl wb -o artifacts/wb.json -a category_url="https://www.wildberries.ru/catalog/zhenshchinam/odezhda/vodolazki"
  • Анализ товара со всеми вариациями scrapy crawl wb -o artifacts/wb.json -a good_url="https://www.wildberries.ru/catalog/8685970/detail.aspx"

В обоих случаях он сохранит результаты в файл artifacts/wb.json благодаря опции -o.

Помимо возможности задать конкретный товар и конкретный раздел, парсер принимает следующий набор опций (ключ -a нужно ставить каждый раз перед каждой опцией):

  • -a skip_images=true – не сохраняет изображения товаров
  • -a skip_variants=true – сохраняет только родительский товар, но не дочерние
  • -a allow_dupes=true – отключает фильтр дупликатов страниц, чтобы сохранять каждый встреченный товар, даже если он уже был скачан
  • -a skip_details=true – проходится только по каталогу, не заходя в карточки товаров. Выгрузка получается сокращенная (только позиции)

wb_categories – скрапер активных категорий Wildberries

Скрапер называется wb_categories и осуществляет сбор доступных на карте сайта категорий. Запускается без параметров.

wb_brands – скрапер брендов Wildberries

Скрапер называется wb_brands и осуществляет сбор доступных на маркетплейсе брендов. Запускается без параметров.

Скраперы для Ozon

ozon – универсальный скрапер Ozon

Скрапер называется ozon, запускается в следующих режимах:

  • Анализ категории: scrapy crawl ozon -o artifacts/ozon.json -a category_url="https://www.ozon.ru/category/aksessuary-dlya-audiotehniki-15607/"
  • Анализ товара со всеми вариациями scrapy crawl ozon -o artifacts/ozon.json -a good_url="https://www.ozon.ru/context/detail/id/151480118/"

В обоих случаях он сохранит результаты в файл artifacts/ozon.json благодаря опции -o.

ozon_brands – скрапер брендов Ozon

Скрапер называется ozon_brands и осуществляет сбор доступных на маркетплейсе бренов. Запускается без параметров. Может потребовать подбора юзерагента, скорости парсинга и актуальных в данный момент CSS классов для корректной работы.

Скраперы для Productcenter

productcenter_producers – скрапер производителей выставки "Производство России"

Скрапер называется productcenter_producers и выгружает только данные о производителях. Запускается в следующих режимах:

  • Без параметров – обход начинается с меню главной страницы (обходятся только пункты второго уровня)
  • Анализ категории scrapy crawl productcenter_producers -a category_url="https://productcenter.ru/producers/catalog-optichieskiie-pribory-44"
  • Анализ страницы производителя scrapy crawl productcenter_producers -a producer_url="https://productcenter.ru/producers/21613/miteus"

Для скрапера доступен следующий набор опций:

  • -a only_region=r-"moskovskaia-obl-191" – автоматически отфильтрует всех производителей по региону, подствавив его в URL. Нужный регион можно узнать, посмотрев на URL выдачи производителей данного региона
  • -office_coords="55.751999,37.617734" – автоматически вычислит расстояние от адреса производство до указанной точки и подставит в выгрузку. Координаты лучше брать из Яндекс.Карт

Заключение

Скраперы поддерживаются ребятами из Wondersell. Хотите познакомиться? Пишите на [email protected]

About

Инструмент сбора данных о разделах, товарах и позициях товаров в разделах Wildberries и других российских маркетплейсов

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Languages

  • Python 100.0%