На входе: интернет-сайт с каталогом продукции
Требуется получить структурированную базу товаров и партномеров в формате xls, access или sql + вложенные файлы (иллюстрации и pdf)
Сайт-донор:
www.helukabel.com/ru/ там каталог товаров (верхнее меню каталог, там раскрывающийся список, четыре уровня вложенности)
там две основные сущности типы кабелей (собственно, один пункт меню один тип кабеля)
и у каждого типа кабеля есть таблица партномеров
соответственно, на входе две таблицы типы (с полями иллюстрация, технические характеристики, строение, свойства, применение, присоединенные файлы для загрузки, раздел каталога) и таблица партномеров с указанием типа кабеля, к которому относятся эти партномера. Поля в таблицах партномеров могут различаться в зависимости от типов кабеля.
Есть сложность ошибка на самом сайте-доноре. У них используется транслитерация названий для урлов, и у многих кабелей возникает серверная ошибка слишком длинного запроса. Решение есть с использованием английского дерева
www.helukabel.com/en/prod... например, самый первый кабель в русской версии меню ссылка дает "414 Request-URI Too Large"
www.helukabel.com/en/prod... если в этой ссылке en заменить на ru откроется верная страница для парсинга
фактически надо пройтись по английскому дереву, заменить en на ru для конечных кабелей и спарсить русские тексты