Требуется написание dll-ки для парсинга контента стороннего сайта.
Конкретнее необходимо получить инструмент для сканирования заданного урла и вытаскивания с него интересующего контента.
К примеру, скрипт должен потребовать входным параметром урл-адрес страницы (к примеру
zakupka.com/t/tolstovki-p... и должен отдать после выполнения текст в примерном формате:
Толстовки, пайты женские
----------------------------------------------------------------- --------------------------------------------
Производитель:Собственное производство|Glem|Vilno|...
Тип:толстовка (пайта)|олимпийка (мастерка)|свитшот
Карманы:втачные|накладные|"кенгуру"|отсутствуют
Особенности:на "молнии"|с капюшоном|с коротким рукавом|другое
и т.д.
Таким образом, требуется вытащить набор характеристик с их вариантами значений.
Проект представляет из себя часть дипломной работы, поэтмоу требуется и сам проект (желательно вебсайт вижуалстудии и упакованное все это в dll).
Вот подробное ТЗ.
Как видно на картинке, результат парсинга основывается на названиях параметров, помеченных красными стрелками, а также их вариантах значений, обозначенных синими стрелками.
Обратите внимание, что далеко не все варианты значений параметра могут быть визуально отображены на странице (желтая стрелка). Но сути это не меняет. Парсить надо все-все варианты параметра, даже те, что скрыты изначально от взгляда.
Также обратите внимание на зеленую стрелку. Здесь изначально скрыты все варианты значений параметра "Особенности цвета". Также следует "слизать" все варианты значений этого параметра.
Парсинг, что нас интересует, заключается только в левой боковой панели параметров с их вариантами значений, начиная от параметра "Регион" (но не включая этот параметр в результаты парсинга) и до синей кнопки "Применить".
Выходной результат должен быть записан в текстовый файл в виде:
Толстовки, пайты женские
----------------------------------------------------------------- --------------------------------------------
Производитель:Собственное производство|Glem|Vilno|...
Тип:толстовка (пайта)|олимпийка (мастерка)|свитшот
Карманы:втачные|накладные|"кенгуру"|отсутствуют
Особенности:на "молнии"|с капюшоном|с коротким рукавом|другое
и т.д.
так, первой строкой идет название рубрики (можно получать с тега <h1> страницы)
И построчно для каждого параметра с его вариантами значений, разделенных вертикальной чертой.
Двоеточие отделяет название параметра от перечня вариантов его значений.