Платный заказ
Бюджет:
5000 руб
Только безопасная сделка. Итоговая стоимость: обсуждаемо, предлагайте ваши варианты.
Нужен парсер на языке R для товарных фидов xml формата. Данные необходимо складывать в Google Big Query.
Фиды большие по 650 тыс строк (30мб)
нет ограничений по используемым пакетам для r. Просто по итогу перечислите используемые пакеты.
Пример фида в приложении.
Какие данные нужно получать из фида и складывать в Google Big Query:
В таблицу OFFERS_SUMMARY
1.дату (в разбивке год, месяц, день) и время генерации фида
информация находится в теге <yml catalog date="2021-03-16 15:50">
2. Информацию по офферам(товарам) в фиде. Оффером считаем все что заключено в тег <offer id="xxxxxxx" available="truefalse"></offer>
2.1 Общее количество офферов (товаров)
Т.е общее количество тегов <offer id="xxxxx" available="truefalse">
2.2 Количество товаров с параметром available="true"
в таблицу OFFERS_DETAILS
2.3 дату генерации фида (в разбивке год, месяц, день)
2.4 время генерации фида
2.5 Для товаров у которых параметр available="true" нужно получать доп. данные
2.5.1 offer id (числовое обозначение)
2.5.2 price (числовое обозначение)
2.5.3 store (true of false)
2.5.4 pickup (true of false)
2.5.5 delivery (true of false)
если delivery = true, дополнительно получаем параметры из delivery options
2.5.5.1 cost (числовое значение)
2.5.5.2 days (диапазон 1-2,4-6 и т.п)
2.5.6 name (название товара полностью)
2.5.7 vendorCode
2.5.8 barcode (их может быть несколько для каждого offer id, получать надо только первый)
2.5.9 sales_notes (строка. Данный параметр может быть пустым, если ничего нет, оставляем пустым)
2.5.10 manufacturer_warranty (true or false)
В начале выполнения скрипта берем последнюю запись из таблицы OFFERS_SUMMARY
Из фида берем информацию о дате и времени генерации фида. Если данные из таблицы равны данным из фида (год, дата и время), значит парсить фид не надо данные в фиде еще не обновились.
Если какой-то элемент из списка выше пустой или отсутствует в структуре в таблицу GBQ пишем 0
Фид будет лежать на домене, т.е это будет не локальный файл
пример таблиц, столбцов сделал в экселе, прикладываю к задаче