Многопоточный парсер ресурса CIAN.ru, с установкой на cервер VPS , т.к. данных оч. много (от 2000 до 150 000 страниц) и их надо парсить ежедневно.
Парсер должен иметь web интерфейс с возможностью изменения параметров: 1. Частоты/ дат парсинга по проектам. 2. Вставкой стартовых url с user ID. 3. Возможностью парсить только объекты с фото. 4. Возможностью парсить только телефоны из объявлений. 5. Логом процессов в реальном времени, их сохранением автоматом. 6. Управления итогами: перемещение по папкам, удаление, скачивание. 7. Должна иметься возможность скопировать архив с фото в определённую папку и распаковать их там, с целью получения доступа к фоткам по ссылке вида: www.domen.ru/fotki/foto.j...
Возможности работы протестировать заранее, т.к. на ресурсе-источнике есть защита, кот. обходится путём ввода логина-пароля, кот. я и предоставлю. Соотв., надо ещё и с предавторизацией сделать скриптик.
Задачи к реализации: 1. Парсинг из CIAN.ru наших и чужих объектов в таблицу XLS/ CSV + папка с фотографиями. 1.1. Разбивка по столбцам – для каждой категории недвижимости она своя и приводится ниже. 1.2. К подготовке два типа объектов, ниже приводятся ссылки на конкретно наши объекты, именно их и надо парсить. В функционале заложить возможность изменения id_user на другой, т.к. у нас неск. учёток, а так же парсить просто все объекты из определённой категории. Ещё раз, наши лоты: - квартиры на продажу в Москве и Московской области; www.cian.ru/cat.php?deal_... - дома и земельные участки в Московской области; www.cian.ru/cat.php?subur...
1.3. Столбцы итогового файла CSV для каждого типа объекта (через точку с запятой).
1.3.1. Квартиры. Пример заполнения и столбцы в файле CIAN_Kvartira_primer.csv №;Заголовок;Область;Район;Город;Улица;Номер дома;Расстояние;До метро;Кол-во комнат;Общая площадь;Жилая площадь;Площадь кухни;Площадь комнат;Этаж;Этажность;Тип дома;Наличие лифта;Санузел;Наличие балкона;Куда выходят окна;Цена, руб.;Тип продажи;Дата публикации;Контакты;Описание;Фотографии;Ссылка на URL;Ссылки на фотографии
1.3.2. Дома и участки. Пример заполнения и столбцы в файле CIAN_DOM_Uchastok_primer.csv №;Объект;Регион;Адрес;Шоссе;Расстояние от МКАД, км;Площадь уч-ка, соток;Площадь дома, м2;Цена, руб.;Контакты;Описание;Фотографии;Ссылка на URL;Ссылки на фотографии
Даже если нет фоток, парсить инфу надо именно из этих, полных карточек объектов. Получить ID объекта можно по маске из ссылки добавить ФОТО www.cian.ru/editimg.php?i..., в этом примере 860728 – и есть ID квартиры, подставив который в строку для квартир, к примеру, "www.cian.ru/showphoto.php..." мы получим линк на полную карточку объекта. Та же схема и для домов и земли. Полный линк по примеру: www.cian.ru/showphoto.php...
1.5. Итоги принимаю в виде установленного скрипта на моём сервере и инструкции по работе с ним. Хостинг: handyhost.ru handyhost.ru/services/vps... , сейчас тариф VPS1 1.6. Файл CSV для каждой из двух категорий свой: Doma_uchastki_ id_user_date_time.csv Kvartiry_ id_user_date_time.csv 1.7. Фотки пакуются в архив ZIP без сжатия. Имя архива: Pictures_РАЗДЕЛ (Doma_uchastki или Kvartiry)_id_user_date_time.zip
1.8. Во вложении: 1.8.1. Само ТЗ. TZ_Parser_CIAN.txt 1.8.2. Шаблоны для квартир и домов-участков. CIAN_Kvartira_primer.csv, CIAN_DOM_Uchastok_primer.csv 1.8.3. Пример рабочего парсера CIAN, собирающего номера телефонов из объявлений. ph_CAIN_Parser_tel.php 1.8.4. Пример парсера, аналогичного ТЗ выше. CIAN_Parser_foto_data_all.zip
1.9. Предоставлю: - доступ в личный кабинет юзера на cian.ru; - доступы на VPS-хостинг.
Отвечаем в заявке: — комфортный бюджет (без фанатизма!); — сроки (от 5 дней); методика реализации (язык программирования и т.п.); — иные комментарии.