Нужен парсер на php.
В настоящее время есть парсер на python 2.6 ходит по нескольким сайтам (через анонимайзер) и пишет в базу mysql (taxi-job.ru/rabota.html).
Перестал работать и при выполнении ошибки не выводит, в логе видно, что объекты парсит, но в базу не пишет.
Логин и пароль доступа к базе верные.
Необходим новый парсер, который заменит старый, но не потребует глобального перепиливания сайта.
Парсер должен иметь:
1. Cущность вакансии (пример вакансии: водитель, оператор, диспетчер и т.д., ), которые правятся или расширяются через конфиг.
2. Сайты, которые парсятся добавляются модульно (т.е. если разбивка одного сайта поменялась не ломается все, отключаем сайт в конфиге и работаем по остальным так же и с добавлением.)
3. Получаем с сайтов каждую вакансию с датой размещения на первоисточнике. Проверяем на уникальность, чтобы одна и та же вакансия одной компании не размещались несколько раз (при ее размещении на разных сайтах о работе). Все внешние ссылки должны быть nofollow. В вакансиях должна быть внизу активная ссылка на сайт вакансии.
4. Возможность поиска вакансии одной компании (например, как hh.ru/employer/562617) и отдельно по специальности.
Базово требуется парсить с: 2-3 крупнейших порталов о работе, например таких как: superjob.ru, hh.ru, rabota.yandex.ru по определенному виду деятельности.
Жду предложений.
ТЗ. ПАРСЕР
Вакансии: Водитель такси, Водитель на личном авто такси, Водитель на личном автомобиле такси, Диспетчер такси, оператор такси.
Каждая вакансия с датой размещения на первоисточнике.
Чтобы одна и та же вакансия одной компании не размещались несколько раз (при ее размещении на разных сайтах о работе).
Все внешние ссылки должны быть nofollow
Возможность поиска вакансии одной компании (например, как hh.ru/employer/562617) и отдельно по специальности. В вакансиях должна быть внизу активная ссылка на сайт вакансии.
Парсить с:
www.superjob.ru/ hh.ru/
rabota.yandex.ru/search.x...