Есть известный проект-агрегатор фриланс работ
lancemonitor.com, написанный на Java.
Хочется добавить парсинг данных с новых сайтов.
Парсеры пишутся по предопределенному интерфейсу. Сейчас уже есть 10 сайтов (то уже есть есть примеры).
На вход текст страницы, на выход текст объявления в виде объекта.
Для каждого сайта биржи делается два класса
- имплементация ITopicPageParser парсинг страницы списка работ на бирже
- имплементация IMonItemPageParser парсинг страницы самой работы
Для каждого из этой классов делается по классу юнит-тестов, проверяющих корректность парсинга..
Пример для fl.ru
- FlRuSiteTopicParser и тест FlRuSiteTopicParserTest
- FlRuSiteItemParser и тест FlRuSiteItemParserTest
Для того, чтобы разрабатывать парсеры мозг особо включать не придется, но надо знать:
1. Java core
2. Понимание юнит-тестов
3. Основы maven
4. Основы git
Будет примерно 10 парсеров для разных сайтов.
Оплата за один парсер 200р.