Общее представление:
Инструмент для поиска роликов, содержащих в себе рекламу артикула товара с wb. Артикул представляет собой последовательность 9 цифр, например «189458953» либо ссылка "
www.wildberries.ru/catalo...". Как правило эти артикулы содержаться в описании к ролику или в комментарии автора ролика.
Метрики для сбора:
Ссылка на ролик, ссылка на автора, имя автора, кол-во просмотров, дата выпуска ролика, кол-во лайков, кол-во комментариев, кол-во подписчиков блоггера.
Требования к реализации:
Инструмент должен работать быстро, иметь устойчивость к ошибкам, то есть возможность автоматического перезапуска в случае непредвиденных ошибок. Код парсера должен быть читабельным и модульным, чтобы была возможность легко его редактировать в дальнейшем. Должен считывать артикулы и записывать данные о найденных роликах в базу данных. База данных не должна быть перегружена. Для работы с базой данных должна быть грамотно реализованая система crud (Create, Read, Update, Delete). Инструмент должен использовать мобильные прокси.
Инструменты реализации:
Язык разработки: Python.
Приоритетная библиотека для работы с базой данных: SQLAlchemy.