Задача – парсить свежие комментарии с 14 сайтов. На всех сайтах новые комменты выводятся на главной странице, т.е. достаточно заходить раз в N минут на главную и собирать свежие комменты. Список сайтов: pastebin.com/88XiNgVL
На сайтах комментарии к телефонным номерам, везде надо приводить номера к единому формату (ХХХХХХХХХХ), сохранять в БД.
Кроме того, необходимо проверить нет ли текста комментария уже в базе (он мог уже спарситься с других сайтов), а также на наличие на наличие стоп-слов: www, http, sex, porn, escort, .com, .net и т.д.. Если попадается слово из стоп-листа коммент парсить не нужно.
Парсер должен иметь возможность работать как с прокси, так и без. Парсер серверный.
От исполнителя требуется оценка стоимости проекта и сроков.