Подключите нашего Telegram-бота для уведомлений о новых проектах
Создать парсер, который: Извлекает данные товаров (название, цена, ссылка) из заданной URL-вкладки
Разместить заказ

r
Заказчик
Отзывы фрилансеров:
+ 0
- 0
Зарегистрирован на сайте 3 года и 9 месяцев
Бюджет:
1500 руб
18.49 $ — 16.26 €
Создать парсер, который:
Извлекает данные товаров (название, цена, ссылка) из заданной URL-вкладки Sportmaster.ru.
Обрабатывает все страницы категории (пагинация).
Загружает данные в Google Таблицу при каждом запуске.
Технические требования
Извлекаемые данные:
Название товара.
Цена.
Ссылка на товар.
Пагинация:
Парсер должен автоматически переходить на все страницы категории, пока не соберет все товары (например, 55 товаров → 2 страницы).
Динамический контент:
Использовать инструмент с рендерингом JavaScript (например, Selenium), чтобы корректно обрабатывать AJAX-подгрузку товаров.
Фильтры и сортировка:
Учитывать параметры в URL (например, sortType=BY_PRICE_DESC, фильтр по бренду).
Обновление данных:
Google Таблица полностью перезаписывается при каждом запуске парсера.
Обработка ошибок:
При недоступности сайта выводить сообщение: «Сайт временно недоступен. Попробуйте позже».
Повторять запрос 2-3 раза с интервалом 10 секунд.
Google Таблица:
Столбцы: Название | Цена | Ссылка.
Доступна по ссылке для всех, кому предоставлен доступ.
Инструменты:
Язык: Python.
Библиотеки: Selenium (для рендеринга JS), BeautifulSoup (для парсинга), gspread (для работы с Google Sheets API).
Облачный запуск: Развернуть парсер на Heroku/Google Cloud с простым интерфейсом для ввода URL.
Скорость и задержки:
Добавить случайные задержки между запросами (3-7 секунд) для избежания блокировки.
Передача ссылки:
Через веб-интерфейс (например, Flask-форма), куда пользователь вставляет URL.
Google Sheets API:
Настроить аутентификацию через сервисный аккаунт.
Пример структуры таблицы: Шаблон.
CAPTCHA/анти-бот:
Использовать прокси-серверы (например, ScraperAPI) для обхода блокировок.
Логирование:
Не требуется.
Инструкция для разработчика
Стек:
Python + Selenium (с ChromeDriver).
Веб-интерфейс: Flask/Django для облачного доступа.
Алгоритм работы:
Пользователь вводит URL категории (например,www.sportmaster.ru/catalo...
Парсер:
Определяет общее количество товаров и страниц.
Переходит по всем страницам, извлекая данные.
Сохраняет данные напрямую в Google Таблицу через API.
Пример кода (парсинг страницы):
python
Copy
from selenium import webdriver
from bs4 import BeautifulSoup
import time
def parse_page(url):
driver = webdriver.Chrome()
driver.get(url)
time.sleep(5) # Ожидание загрузки JS
soup = BeautifulSoup(driver.page_source, 'html.parser')
items = soup.find_all('div', class_='product-card')
data = []
for item in items:
name = item.find('a', class_='title').text.strip()
price = item.find('span', class_='price').text.strip()
link = item.find('a', class_='title')['href']
data.append([name, price, f"www.sportmaster.ru {link}"])
driver.quit()
return data
Деплой:
Настроить Flask-приложение на Heroku с формой для ввода URL.
Добавить переменные окружения для Google Sheets API.
Результат
Готовая облачная система, где пользователь:
Вставляет ссылку на категорию Sportmaster.ru.
Запускает парсер.
Получает обновленную Google Таблицу с данными.
___
Если работа будет завершена успешно и быстро – предложу переход к следующему заданию (будет динамический парсинг, то есть если товар на сайте Спортмастер поменял цену – цена в таблице меняется сама и приходит какое-либо уведомление об этом, например в телеграм)
Извлекает данные товаров (название, цена, ссылка) из заданной URL-вкладки Sportmaster.ru.
Обрабатывает все страницы категории (пагинация).
Загружает данные в Google Таблицу при каждом запуске.
Технические требования
Извлекаемые данные:
Название товара.
Цена.
Ссылка на товар.
Пагинация:
Парсер должен автоматически переходить на все страницы категории, пока не соберет все товары (например, 55 товаров → 2 страницы).
Динамический контент:
Использовать инструмент с рендерингом JavaScript (например, Selenium), чтобы корректно обрабатывать AJAX-подгрузку товаров.
Фильтры и сортировка:
Учитывать параметры в URL (например, sortType=BY_PRICE_DESC, фильтр по бренду).
Обновление данных:
Google Таблица полностью перезаписывается при каждом запуске парсера.
Обработка ошибок:
При недоступности сайта выводить сообщение: «Сайт временно недоступен. Попробуйте позже».
Повторять запрос 2-3 раза с интервалом 10 секунд.
Google Таблица:
Столбцы: Название | Цена | Ссылка.
Доступна по ссылке для всех, кому предоставлен доступ.
Инструменты:
Язык: Python.
Библиотеки: Selenium (для рендеринга JS), BeautifulSoup (для парсинга), gspread (для работы с Google Sheets API).
Облачный запуск: Развернуть парсер на Heroku/Google Cloud с простым интерфейсом для ввода URL.
Скорость и задержки:
Добавить случайные задержки между запросами (3-7 секунд) для избежания блокировки.
Передача ссылки:
Через веб-интерфейс (например, Flask-форма), куда пользователь вставляет URL.
Google Sheets API:
Настроить аутентификацию через сервисный аккаунт.
Пример структуры таблицы: Шаблон.
CAPTCHA/анти-бот:
Использовать прокси-серверы (например, ScraperAPI) для обхода блокировок.
Логирование:
Не требуется.
Инструкция для разработчика
Стек:
Python + Selenium (с ChromeDriver).
Веб-интерфейс: Flask/Django для облачного доступа.
Алгоритм работы:
Пользователь вводит URL категории (например,
Парсер:
Определяет общее количество товаров и страниц.
Переходит по всем страницам, извлекая данные.
Сохраняет данные напрямую в Google Таблицу через API.
Пример кода (парсинг страницы):
python
Copy
from selenium import webdriver
from bs4 import BeautifulSoup
import time
def parse_page(url):
driver = webdriver.Chrome()
driver.get(url)
time.sleep(5) # Ожидание загрузки JS
soup = BeautifulSoup(driver.page_source, 'html.parser')
items = soup.find_all('div', class_='product-card')
data = []
for item in items:
name = item.find('a', class_='title').text.strip()
price = item.find('span', class_='price').text.strip()
link = item.find('a', class_='title')['href']
data.append([name, price, f"
driver.quit()
return data
Деплой:
Настроить Flask-приложение на Heroku с формой для ввода URL.
Добавить переменные окружения для Google Sheets API.
Результат
Готовая облачная система, где пользователь:
Вставляет ссылку на категорию Sportmaster.ru.
Запускает парсер.
Получает обновленную Google Таблицу с данными.
___
Если работа будет завершена успешно и быстро – предложу переход к следующему заданию (будет динамический парсинг, то есть если товар на сайте Спортмастер поменял цену – цена в таблице меняется сама и приходит какое-либо уведомление об этом, например в телеграм)
Разделы:
Опубликован:
29.03.2025 | 14:05 [поднят: 29.03.2025 | 14:05]