Подключите нашего Telegram-бота для уведомлений о новых проектах

Парсинг e-mail адресов компаний

Разместить заказ
i
Заказчик
Отзывы фрилансеров: + 1 - 0
Зарегистрирован на сайте 10 лет и 3 месяца
Бюджет: по договоренности
Исполнитель определен: Антон Зиновьев  
Создание программы для парсинга e-mail адресов компаний-ответчиков с сайта kad.arbitr.ru

Каждый день в арбитражном суде города Санкт-Петербурга и Ленинградской области подается множество исковых заявлений. 
Задача – автоматизировать процесс ежедневного получения e-mail адресов компаний-ответчиков, на которых подали в суд. 

Для этого на вышеуказанной странице kad.arbitr.ru программа должна выставлять наименование суда (АС города Санкт-Петербурга и Ленинградской области) и дату внесения искового заявления – сегодня.

После вышеуказанных задач справа формируется перечень поданных сегодня исковых заявлений с колонками: дело, судья/текущая инстанция, истец, ответчик. 

Первая задача программы  – взять название компании-ответчика. 

Затем есть 2 возможных варианта действий программы:

1. Программа вводит в поисковик (по нашим наблюдениям гугл больше для этого подходит) название компании-ответчика, взятое ранее, переходит по первой ссылке в результатах поиска, находит на страницах сайта, куда был совершен переход, e-mail компании, и выгружает его в отдельных файл: таблицу/список.

Особенности данного подхода: не всегда первая ссылка ведет именно на нужную компанию, что может привести к потере необходимых нам компаний и включению в список ненужных компаний. 
При этом бывает, что поисковик выдает первой ссылкой сайт-рубрикатор (сайты, компилирующие информацию обо всех организациях с их реквизитами). В этом случае искать e-mail нужно только на странице, куда был осуществлен переход, тк сайты-рубрикаторы содержат множество почт на всех своих страницах. 

2. Программа интегрируется с сайтом-рубрикатором, на котором содержатся в числе прочих реквизитов организации ее e-mail. И выгружает данный e-mail в отдельный файл: таблицу/список. 

Особенности данного подхода: мы не знаем, есть ли рубрикатор, на котором представлены e-mail компаний. Но если таковой существует, то этот способ более приоритетен, тк в рубрикаторе помимо названия компании-ответчика, можно получить и его точные реквизиты: в частности, ИНН (в этом случае программа должна выгрузить не только название компании-ответчика со страницы kad.arbitr.ru, но и ИНН, что позволит со стопроцентной точностью найти эту компанию на сайте-рубрикаторе). 


Итог:
В итоге программа должна выгружать табрицу/список e-mail адресов компаний, привлеченных в качестве ответчиков в текущий день в арбитражном суде города Санкт-Петербурга и Ленинградской области. 
Разделы:
Опубликован:
27.04.2016 | 16:14

Теги: нужен программист, требуется программист, ищу программиста, создание сайта программирование, программист веб сайтов

Наши партнеры
Сведения об ООО «Ваан» внесены в реестр аккредитованных организаций, осуществляющих деятельность в области информационных технологий. ООО «Ваан» осуществляет деятельность, связанную с использованием информационных технологий, по разработке компьютерного программного обеспечения, предоставлению доступа к программе для ЭВМ и является правообладателем программы для ЭВМ «Платформа FL.ru (версия 2.0)».