Задача: ежедневно в HH:MM спарсить и посчитать количество упоминаний о заданных
сайтах (около 300 шт). Данные сохранить, рассчитать изменение в процентах и показать
пользователю в удобном виде (можно csv файл).
Список ссылок для парсинга будет находиться в файле и может обновляться.
Формат ссылок без кавычек и знаков:
cmegroup.com
lenta.ru
ozon.ru
Парсер для гугл поиск
Парсим количество упоминаний линка в разделе гугл новости за последние 24 часа.
Необходимо узнать количество уникальных упоминаний сайта за сутки. Смотрим все
новости на всех сайтах.
Например, при парсинге линка cmegroup.com
Получим результат:
www.google.ru/search? q=cmegroup.com&newwindow=1&hl=ru&tbm=nws&source=lnt&tbs=qdr:d&sa=X&ved=0ahUKEwi
8yojEg7vbAhUCMJoKHf7rA_EQpwUIHg&biw=1440&bih=752&dpr=1
На 5 мая имеем 3 упоминания. Значение 3 нужно сохранить.
Если на следующий день имеем 6 упоминаний, прирост составит 100%. Данное
значение нужно также сохранить.
Предусмотреть использование прокси, т.к. большое количество запросов будет выдавать
капчу. В случае отрицательного ответа со стороны сервера или появления капчи пробовать
с другим прокси.
Парсер твиттер
Парсим количество упоминаний линка за последние 24 часа (аналогично с гугл).
В отличие от гугл, твиттер может выдать множество постов одного юзера за последние 24
часа. Необходимо предусмотреть проверку уникальности профиля юзера в расчетах
упоминаний.
Также предусмотреть использование прокси.
Полученные данные по парсингу упоминаний в твиттер также сложить в файл и
реализовать расчет изменений в %.
Дополнительно:
1) Для проверки функционала можно реализовать работу без прокси с парсингом 2-4
линков.
2) Код должен быть чистым, удобным для доработок сторонним программистом.