Нужно собрать данные о всех компаниях на Capterra. Ищу второго исполнителя. например Adobe-Workfront:
www.capterra.com/p/268205... . 13 пунктов: начиная с url текущей страницы продукта и далее все описание продукта. Чтобы открыть боковую панель с Overview нужно кликнуть кнопку в середине страницы, но, на сколько я увидел, данные для панели поступают на страницу сразу при открытии страницы. В середине страницы есть кнопка View all alternatives, которая перенаправляет на страницу /alternatives и на этой странице сбоку есть список альтернативных компаний. Их тоже нужно спарсить.
Прикрепляю два скриншота.
На Capterra много страниц, поэтому явно придется решить проблему с капчами. Для хранения фотографий могу предоставить отдельное хранилище на aws.
Если вы можете решить задачу, то предложите решение, можете предложить свой бюджет.
Результат.
Мне нужна база данных Postgresql, в которой будет две таблицы:
1) Список продуктов: products
Поля: id, capterra-url, title, image, rating, whatis, provider, located, foundation, deployment, training, support, whouses.
В поле img можем использовать ссылку на картинку в публичном хранилище или сохранить картинку в базе.
2) Список альтернатив: alternatives здесь связывает id продукта с id альтернативных продуктов.
Поля: id, id-alt.