Результат нужен в формате яндекс апи (XML)
api.yandex.ru/market/cont... 1. Этап. Категории, бренды.
Список категорий первого уровня
market.yandex.ru/index-fu... Список категорий второго уровня
market.yandex.ru/catalog.... Список категорий третьего уровня
market.yandex.ru/catalog.... Если в каких-то категориях есть четвертый уровень и далее собираем их тоже.
Со страницы четвертого уровня, если она есть
market.yandex.ru/catalogm... берем списки: а) рецепты; б) самые желанные; в) популярные; г) новинки.
Сбор информации о брендах:
Идем по списку производителей, с алфавитного указателя
market.yandex.ru/ (цифры, русский, английский).
По каждой цифре/букве берем список производителей
market.yandex.ru/brands-l... По каждому производителю берем список категорий, включая родительские категории
market.yandex.ru/brands.x... (т.е. одежда, обувь и аксессуары и все что внутри). Родительские категории выделяем отдельно.
По каждому производителю берем (при наличии): сайт, логотип (всегда справа) и список основных категорий этого производителя с картинками
market.yandex.ru/brands.x... 2. Этап. Модели.
На страницах списка категорий первого, второго и третьего уровней есть слева от названия категории оранжевый значок он обозначает, что в этой категории лежат модели, во всех остальных только предложения.
Модель это типовой товар, по которому можно посмотреть список предложений, отзывы. Предложение это конкретное предложение конкретного магазина. Модели от предложений визуально отличаются тем, что в предложении нижней строчкой в карточке товара стоит конкретный магазин, его рейтинг и его отзывы. В моделях там же стоят цены и отзывы по модели. Плюс под ценой у предложения всегда есть кнопка в магазин или в корзину. У модели либо «посмотреть цены», либо ничего (при отсутствии модели в продаже). Модели, которых нет в продаже тоже берем.
Задача собрать только модели. Предложения не собираем.
1. По списку категорий выбираем категорию с моделями:
market.yandex.ru/catalog.... 2. Далее попадаем на обзорную страницу:
market.yandex.ru/catalogm..., с которой по ссылке «посмотреть все модели» попадаем на список моделей.
3. Со страницы списка моделей берем полный список фильтров (справа)
market.yandex.ru/guru.xml... Берем все возможные значения всех параметров(развернутых), включая при наличии диапазоны. Также отдельно берем подсказки (заголовок и текст, без ссылки на список терминов).
4. Со списка моделей заходим на страницу каждой модели
market.yandex.ru/model.xm..., с нее собираем:
• Бренд из хлебных крошек;
• Название модели;
• Все картинки в максимальном разрешении;
• Список похожих товаров (полный со страницы похожих товаров)
market.yandex.ru/model-al... • Список аксессуаров (полный со страницы аксессуаров)
market.yandex.ru/model-to... • Полный развернутый список характеристик со страницы характеристик
market.yandex.ru/model-sp... Характеристики забираем структурой (название значение/я, единица измерения если есть) с указанием родительских характеристик (например, матрица). Значения характеристик, разделенные «,» или «;» указываем отдельными значениями, чтобы их можно было соотнести со значениями из списка фильтров. Со страницы с характеристиками также берем ссылки: Эта модель на сайте
www.canon.ru, снимки, сделанные этим устройством.
3. Этап. Отзывы и обзоры.
• Отзывы со страницы с отзывами
market.yandex.ru/product/... - аватарка, имя того, кто оставил отзыв;
- дата отзыва;
- рейтинг кол-во звездочек;
- отдельно: достоинства, недостатки, комментарий;
- опыт использования значение.
• Обзоры к модели:
market.yandex.ru/model-re... - название;
- ссылка.