Создание программы для парсинга e-mail адресов компаний-ответчиков с сайта
kad.arbitr.ru Каждый день в арбитражном суде города Санкт-Петербурга и Ленинградской области подается множество исковых заявлений.
Задача автоматизировать процесс ежедневного получения e-mail адресов компаний-ответчиков, на которых подали в суд.
Для этого на вышеуказанной странице
kad.arbitr.ru программа должна выставлять наименование суда (АС города Санкт-Петербурга и Ленинградской области) и дату внесения искового заявления сегодня.
После вышеуказанных задач справа формируется перечень поданных сегодня исковых заявлений с колонками: дело, судья/текущая инстанция, истец, ответчик.
Первая задача программы взять название компании-ответчика.
Затем есть 2 возможных варианта действий программы:
1. Программа вводит в поисковик (по нашим наблюдениям гугл больше для этого подходит) название компании-ответчика, взятое ранее, переходит по первой ссылке в результатах поиска, находит на страницах сайта, куда был совершен переход, e-mail компании, и выгружает его в отдельных файл: таблицу/список.
Особенности данного подхода: не всегда первая ссылка ведет именно на нужную компанию, что может привести к потере необходимых нам компаний и включению в список ненужных компаний.
При этом бывает, что поисковик выдает первой ссылкой сайт-рубрикатор (сайты, компилирующие информацию обо всех организациях с их реквизитами). В этом случае искать e-mail нужно только на странице, куда был осуществлен переход, тк сайты-рубрикаторы содержат множество почт на всех своих страницах.
2. Программа интегрируется с сайтом-рубрикатором, на котором содержатся в числе прочих реквизитов организации ее e-mail. И выгружает данный e-mail в отдельный файл: таблицу/список.
Особенности данного подхода: мы не знаем, есть ли рубрикатор, на котором представлены e-mail компаний. Но если таковой существует, то этот способ более приоритетен, тк в рубрикаторе помимо названия компании-ответчика, можно получить и его точные реквизиты: в частности, ИНН (в этом случае программа должна выгрузить не только название компании-ответчика со страницы
kad.arbitr.ru, но и ИНН, что позволит со стопроцентной точностью найти эту компанию на сайте-рубрикаторе).
Итог:
В итоге программа должна выгружать табрицу/список e-mail адресов компаний, привлеченных в качестве ответчиков в текущий день в арбитражном суде города Санкт-Петербурга и Ленинградской области.