Необходим многопоточный или асинхронный парсер на Python (php обсуждается отдельно), который собирает ссылки на страницы с информацией о доставке Интернет-магазинов, например, для ДНС это
(достаточен скрипт по поиску слова "Доставка" в заголовках ссылок). Список ссылок на интернет магазины (входной файл) тут:
.
Далее нужно проверить есть ли доставка определенной транспортной компанией на этой странице (срипт поиска по слову можно взять этот:
входной
). Транспортные компании перечислены в заголовках столбцов файла
. Если упоминание компании есть на странице , то в ячейке напротив адреса сайта ставится 1, иначе 0. Для примера заполнены строки 2 и 34 файла
. Необходимо учитывать синонимы транспортных компаний: для СДЭК это cdek, для ДПД это DPD, для Boxberry Боксберри, Почты России Почта России, 5Post 5 Пост и Пятерочка.
Парсер должен сохранять результат в Excel или CSV (json обсуждается отдельно). На вопросы отвечу в личных сообщениях.