Подключите нашего Telegram-бота для уведомлений о новых проектах

Многопоточный web парсер с CIAN.ru в CSV + jpg.

Разместить заказ
2 фрилансера уже откликнулись на этот заказ
Цены от 5000 ₽ до 5000 ₽.
Данные обновляются раз в 10 минут.
1
Заказчик
Отзывы фрилансеров: + 8 - 0
Зарегистрирован на сайте 15 лет и 10 месяцев
Бюджет: по договоренности
Многопоточный web парсер с CIAN.ru в CSV + jpg.

www.weblancer.net/project...

Многопоточный парсер ресурса CIAN.ru, с установкой на cервер VPS , т.к. данных оч. много (от 2000 до 150 000 страниц) и их надо парсить ежедневно.

Парсер должен иметь web интерфейс с возможностью изменения параметров:
1. Частоты/ дат парсинга по проектам.
2. Вставкой стартовых url с user ID. 
3. Возможностью парсить только объекты с фото.
4. Возможностью парсить только телефоны из объявлений.
5. Логом процессов в реальном времени, их сохранением автоматом.
6. Управления итогами: перемещение по папкам, удаление, скачивание.
7. Должна иметься возможность скопировать архив с фото в определённую папку и распаковать их там, с целью получения доступа к фоткам по ссылке вида: www.domen.ru/fotki/foto.j...

Возможности работы протестировать заранее, т.к. на ресурсе-источнике есть защита, кот. обходится путём ввода логина-пароля, кот. я и предоставлю. Соотв., надо ещё и с предавторизацией сделать скриптик.

Задачи к реализации:
1. Парсинг из CIAN.ru наших и чужих объектов в таблицу XLS/ CSV + папка с фотографиями.
1.1. Разбивка по столбцам – для каждой категории недвижимости она своя и приводится ниже.
1.2. К подготовке два типа объектов, ниже приводятся ссылки на конкретно наши объекты, именно их и надо парсить. 
В функционале заложить возможность изменения id_user на другой, т.к. у нас неск. учёток, а так же парсить просто все объекты из определённой категории. Ещё раз, наши лоты:
- квартиры на продажу в Москве и Московской области;
www.cian.ru/cat.php?deal_...
- дома и земельные участки в Московской области;
www.cian.ru/cat.php?subur...

1.3. Столбцы итогового файла CSV для каждого типа объекта (через точку с запятой).

1.3.1. Квартиры. Пример заполнения и столбцы в файле CIAN_Kvartira_primer.csv
№;Заголовок;Область;Район;Город;Улица;Номер дома;Расстояние;До метро;Кол-во комнат;Общая площадь;Жилая площадь;Площадь кухни;Площадь комнат;Этаж;Этажность;Тип дома;Наличие лифта;Санузел;Наличие балкона;Куда выходят окна;Цена, руб.;Тип продажи;Дата публикации;Контакты;Описание;Фотографии;Ссылка на URL;Ссылки на фотографии

1.3.2. Дома и участки. Пример заполнения и столбцы в файле CIAN_DOM_Uchastok_primer.csv
№;Объект;Регион;Адрес;Шоссе;Расстояние от МКАД, км;Площадь уч-ка, соток;Площадь дома, м2;Цена, руб.;Контакты;Описание;Фотографии;Ссылка на URL;Ссылки на фотографии

1.4. Каждый лот имеет свою полную персональную карточку объекта.
Пример: 
- дома и земля: www.cian.ru/showphoto.php... 
- квартиры: www.cian.ru/showphoto.php...

Даже если нет фоток, парсить инфу надо именно из этих, полных карточек объектов.
Получить ID объекта можно по маске из ссылки добавить ФОТО  www.cian.ru/editimg.php?i..., в этом примере 860728 – и есть ID квартиры, подставив который в строку для квартир, к примеру, "www.cian.ru/showphoto.php..." мы получим линк на полную карточку объекта. Та же схема и для домов и земли. Полный линк по примеру: www.cian.ru/showphoto.php...

1.5. Итоги принимаю в виде установленного скрипта на моём сервере и инструкции по работе с ним.
Хостинг: handyhost.ru handyhost.ru/services/vps... , сейчас тариф VPS1
1.6. Файл CSV для каждой из двух категорий свой: 
Doma_uchastki_ id_user_date_time.csv
Kvartiry_ id_user_date_time.csv
1.7. Фотки пакуются в архив ZIP без сжатия. 
Имя архива: Pictures_РАЗДЕЛ (Doma_uchastki или Kvartiry)_id_user_date_time.zip

1.8. Во вложении:
1.8.1. Само ТЗ. TZ_Parser_CIAN.txt
1.8.2. Шаблоны для квартир и домов-участков. CIAN_Kvartira_primer.csv, CIAN_DOM_Uchastok_primer.csv
1.8.3. Пример рабочего парсера CIAN, собирающего номера телефонов из объявлений. ph_CAIN_Parser_tel.php
1.8.4. Пример парсера, аналогичного ТЗ выше. CIAN_Parser_foto_data_all.zip

1.9. Предоставлю:
- доступ в личный кабинет юзера на cian.ru;
- доступы на VPS-хостинг.


Отвечаем в заявке: — комфортный бюджет (без фанатизма!); — сроки (от 5 дней); методика реализации (язык программирования и т.п.); — иные комментарии.
Разделы:
Опубликован:
11.02.2012 | 17:56
Откликнуться Посмотреть другие заказы Разместить заказ

Теги: нужен программист, резюме программиста, требуется программист, резюме веб программиста

Наши партнеры
Сведения об ООО «Ваан» внесены в реестр аккредитованных организаций, осуществляющих деятельность в области информационных технологий. ООО «Ваан» осуществляет деятельность, связанную с использованием информационных технологий, по разработке компьютерного программного обеспечения, предоставлению доступа к программе для ЭВМ и является правообладателем программы для ЭВМ «Платформа FL.ru (версия 2.0)».
-->-->