Заказчик
Заказчик MironenkoSta | FL.RU

Заказчик

На сайте 8 лет и 5 месяцев (заходил 3 года 9 месяцев 4 дня назад)
1
223.53
Рейтинг
223.53
Все (1)       Заказы (1)        Вакансии (0)       Конкурсы (0)
Разместить заказ
16 Марта 2021
Только безопасная сделка. Итоговая стоимость: обсуждаемо, предлагайте ваши варианты.

Нужен парсер на языке R для товарных фидов xml формата. Данные необходимо складывать в Google Big Query.
Фиды большие по 650 тыс строк (30мб)

нет ограничений по используемым пакетам для r. Просто по итогу перечислите используемые пакеты.

Пример фида в приложении.

Какие данные нужно получать из фида и складывать в Google Big Query:

В таблицу OFFERS_SUMMARY
1.дату (в разбивке год, месяц, день) и время генерации фида
информация находится в теге <yml catalog date="2021-03-16 15:50">

2. Информацию по офферам(товарам) в фиде. Оффером считаем все что заключено в тег <offer id="xxxxxxx" available="truefalse"></offer>
2.1 Общее количество офферов (товаров)
Т.е общее количество тегов <offer id="xxxxx" available="truefalse">

2.2 Количество товаров с параметром available="true"

в таблицу OFFERS_DETAILS
2.3 дату генерации фида (в разбивке год, месяц, день)
2.4 время генерации фида
2.5 Для товаров у которых параметр available="true" нужно получать доп. данные
2.5.1 offer id (числовое обозначение)
2.5.2 price (числовое обозначение)
2.5.3 store (true of false)
2.5.4 pickup (true of false)
2.5.5 delivery (true of false)
если delivery = true, дополнительно получаем параметры из delivery options
2.5.5.1 cost (числовое значение)
2.5.5.2 days (диапазон 1-2,4-6 и т.п)
2.5.6 name (название товара полностью)
2.5.7 vendorCode
2.5.8 barcode (их может быть несколько для каждого offer id, получать надо только первый)
2.5.9 sales_notes (строка. Данный параметр может быть пустым, если ничего нет, оставляем пустым)
2.5.10 manufacturer_warranty (true or false)

В начале выполнения скрипта берем последнюю запись из таблицы OFFERS_SUMMARY
Из фида берем информацию о дате и времени генерации фида. Если данные из таблицы равны данным из фида (год, дата и время), значит парсить фид не надо – данные в фиде еще не обновились.

Если какой-то элемент из списка выше пустой или отсутствует в структуре – в таблицу GBQ пишем 0

Фид будет лежать на домене, т.е это будет не локальный файл

пример таблиц, столбцов сделал в экселе, прикладываю к задаче

Прошло времени с момента публикации: 3 года 9 месяцев 24 дня 13 часов 52 минуты
Раздел: Программирование / Парсинг данных
Наши партнеры
Сведения об ООО «Ваан» внесены в реестр аккредитованных организаций, осуществляющих деятельность в области информационных технологий. ООО «Ваан» осуществляет деятельность, связанную с использованием информационных технологий, по разработке компьютерного программного обеспечения, предоставлению доступа к программе для ЭВМ и является правообладателем программы для ЭВМ «Платформа FL.ru (версия 2.0)».