Подключите нашего Telegram-бота для уведомлений о новых проектах

Парсинг форума

s
Заказчик
Отзывы фрилансеров: + 2 - 0
Зарегистрирован на сайте 10 лет и 4 месяца
Бюджет: 1500 руб
14.75 $ — 14.14 €
Доброго времени суток. 

Имеется форум (один из известных торрентов) со стандартной иерархией разделов. 
Интересует один из таких разделов, в котором содержится несколько подразделов, и в которых, в свою очередь, содержатся записи, по 50 штук на одной странице. Страниц с записями в подразделах может быть много.

В каждой записи есть одно из ключевых значений: год выпуска (либо в одном значении, либо в диапазоне)
Следующее ключевое значение – название самой темы (записи). 
В названии темы содержится название фильма, и таких названий по разным подразделам может быть много (то есть они повторяются), при этом их различия только в качестве, наличии субтитров и т.д. и т.п. То есть общее только название и год. При этом более главным будет именно название.

Требуется:

1. Вывод данных со всех нужных подразделов форума так, чтобы в отсортированном виде шли названия тем (имена фильмов), и чтобы повторяющиеся ( в любой последовательности) слова из названий разных тем были рядом.

Следующий столбец для сортировки – год выпуска. Следующий – вес файла. И последний – магнет-ссылка на него.

Пример: 
Значения (названия тем)
38 попугаев (Иван Уфимцев) [1976-1991.г., Мультфильмы, DVD5] Крупный план (2002), реставрация. 3.59 Гб
38 попугаев (Иван Уфимцев) [1976-1991, СССР, мультфильм, короткометражка, WEBRip 1080p] 3.36 Гб
38 попугаев (Иван Уфимцев) [1976-1991, Мультфильм, DVDRip] 696 Мб 
И так далее...

Думаю так же потребуется вывод скриншотов, если они есть в живом виде в раздаче. Для визуальной оценки качества.

2. Нужно сравнить выведенные значения с тем, что уже есть на диске для понимания того, что нужно скачать, а что не надо.
То, что уже есть на диске выводится командой dir /с /s > D:filelist.tхt в командной строке Windows. 
Возможно, приведенная команда имеет более функциональную альтернативу (утилиту) чтобы при ее помощи сделать файл с данными для сравнения с тем, что получено с форума.

Сам файл предоставлю.

Как более дорогой вариант: создание небольшой программы с указанным функционалом, в т.ч. сравнения имен и размеров результата парсинга с тем что уже имеется путем указания нужного диска/папки.

Разделы:
Опубликован:
26.03.2020 | 12:25 [последние изменения: 26.03.2020 | 12:25]

Теги: разработать сайт, создать личный сайт, создать одностраничный сайт, нужно сделать сайт, лучшие разработчики, нужно создать сайт, требуется разработчик

Наши партнеры
Сведения об ООО «Ваан» внесены в реестр аккредитованных организаций, осуществляющих деятельность в области информационных технологий. ООО «Ваан» осуществляет деятельность, связанную с использованием информационных технологий, по разработке компьютерного программного обеспечения, предоставлению доступа к программе для ЭВМ и является правообладателем программы для ЭВМ «Платформа FL.ru (версия 2.0)».