Подключите нашего Telegram-бота для уведомлений о новых проектах
Обход защиты кью-rator/клаудфлэр... при автоматизированном парсинге сайтов в docker-контейнере
o
Заказчик
Отзывы фрилансеров:
+ 0
- 0
Зарегистрирован на сайте 5 лет и 9 месяцев
Доброго дня,
Исходные данные: веб-сервис (БД + docker-контейнеры на базе php). Одна из задач веб-сервиса – парсинг сайтов.
Как вы знаете, в последнее время всё больше сайтов закрывают защитой от DDoS, заодно и затрудняя нам парсинг.
Задача: стабильно и с минимальными затратами парсить сайты, которые защищены.
Т.е., учитывая существующую инфрастуктуру, создать docker-контейнер с автоматически управляемым браузером для
обхода защиты вида qrator, cloudflare, akamai и других.
*В идеале сделать интеграцию с существующим веб-сервисом (передать html для запрошенного Url между контейнерами в локальной сети
или сделать что-то типа прокси)
Насколько я понимаю, для решения задачи браузер должен удовлетворять таким требованиям:
- работать в режиме с графической средой (headed)
- управляться способом, который сложно отследить (не знаю, можно ли отследить playwritgh и похожие технологии,
какой-то вариант точно должен быть)
- иметь возможность отправлять случайные/управляемые события мыши и клавиатуры
- взаимодействовать с целевым сайтом ровно так же, как и обычный браузер пользователя (так же проходить tls-handshake и иметь идентичный отпечаток)
Решением задачи МИНИМУМ считаем:
- [на нашей инфраструктуре] автоматическое получение html-кода для первого и нескольких следующих Url (полученных из внутренних ссылок) для 2-5 сайтов,
которые дам в личном обсуждении.
- [на нашей инфраструктуре] имитация движения мыши и ввод произвольного текста в окно поиска на одном из сайтов
*Несколько следующих Url и ввод в поле мне нужны для примера кода автоматизации с используемой вами технологией
- Предоставить 2 варианта работы с GUI в контейнере: виртуальную графическую среду И вариант с графикой от хост-системы (когда можно видеть выполнение автоматизации браузером)
- письменные рекомендации по оптимальному алгоритму использования этого браузера с внешними прокси и возможности взаимодействия с headless-системами
(если такое возможно, на что я надеюсь)
Решением задачи ПОЛНЫМ считаем:
- [на нашей инфраструктуре] пример взаимодействия нового docker-контейнера с headless-системами (получение html нескольких страниц
в headless после первичного входа на тех же сайтах)
А если пример взаимодействия будет именно с php – вообще отлично)
*Упоминание "на нашей инфраструктуре" означает, что для приёма задачи я создаю на своей тестовой машине образы по вашим Dockerfile
и с переданными вами исходниками (а не просто смотрю на ваш экран, где происходит "магия").
Хотел бы работать с непосредственным исполнителем, благодарю за внимание
Исходные данные: веб-сервис (БД + docker-контейнеры на базе php). Одна из задач веб-сервиса – парсинг сайтов.
Как вы знаете, в последнее время всё больше сайтов закрывают защитой от DDoS, заодно и затрудняя нам парсинг.
Задача: стабильно и с минимальными затратами парсить сайты, которые защищены.
Т.е., учитывая существующую инфрастуктуру, создать docker-контейнер с автоматически управляемым браузером для
обхода защиты вида qrator, cloudflare, akamai и других.
*В идеале сделать интеграцию с существующим веб-сервисом (передать html для запрошенного Url между контейнерами в локальной сети
или сделать что-то типа прокси)
Насколько я понимаю, для решения задачи браузер должен удовлетворять таким требованиям:
- работать в режиме с графической средой (headed)
- управляться способом, который сложно отследить (не знаю, можно ли отследить playwritgh и похожие технологии,
какой-то вариант точно должен быть)
- иметь возможность отправлять случайные/управляемые события мыши и клавиатуры
- взаимодействовать с целевым сайтом ровно так же, как и обычный браузер пользователя (так же проходить tls-handshake и иметь идентичный отпечаток)
Решением задачи МИНИМУМ считаем:
- [на нашей инфраструктуре] автоматическое получение html-кода для первого и нескольких следующих Url (полученных из внутренних ссылок) для 2-5 сайтов,
которые дам в личном обсуждении.
- [на нашей инфраструктуре] имитация движения мыши и ввод произвольного текста в окно поиска на одном из сайтов
*Несколько следующих Url и ввод в поле мне нужны для примера кода автоматизации с используемой вами технологией
- Предоставить 2 варианта работы с GUI в контейнере: виртуальную графическую среду И вариант с графикой от хост-системы (когда можно видеть выполнение автоматизации браузером)
- письменные рекомендации по оптимальному алгоритму использования этого браузера с внешними прокси и возможности взаимодействия с headless-системами
(если такое возможно, на что я надеюсь)
Решением задачи ПОЛНЫМ считаем:
- [на нашей инфраструктуре] пример взаимодействия нового docker-контейнера с headless-системами (получение html нескольких страниц
в headless после первичного входа на тех же сайтах)
А если пример взаимодействия будет именно с php – вообще отлично)
*Упоминание "на нашей инфраструктуре" означает, что для приёма задачи я создаю на своей тестовой машине образы по вашим Dockerfile
и с переданными вами исходниками (а не просто смотрю на ваш экран, где происходит "магия").
Хотел бы работать с непосредственным исполнителем, благодарю за внимание
Разделы:
Заказ
Опубликован:
05.08.2024 | 12:11 [поднят: 05.08.2024 | 12:11]