Нужно приложение совместимое с Windows Server 2016 или Win 7
на любом языке
Задача парсинг html файлов
1. Подается на вход папка, внутри этой папки содержатся папки вида:
domain1.com
domain2.co.uk
...
www.domain99.top.us те папки названы в виде доменных имен
2. внутри папок вида domain.com, лежит html файл, с содержаннием вида
pastebin.com/raw/A1gJWXTA По структуре файлы все очень похожи, в некоторых может быть больше строк чем в остальных. Некоторые файлы будут совершенно иного содержания и не содержать нужные нам данные.
3. из этого файла нужно вычленить информацию
define( 'DB_NAME', 'name1' );
define( 'DB_USER', 'user1' );
define( 'DB_PASSWORD', 'pass1' );
define( 'DB_HOST', 'localhost' );
кокретно интересуют значения 'name1','user1','pass1','local host'
если этих значений в файле не обнаружено, то записывать такую папку как fail
4. после завершения сканирования папок и файлов, создать три файла результатов.
- csv файл с содержанием вида
domain1.com localhost name1 user1 pass1
domain2.com localhost name2 user2 pass2
....
domain9.com localhost name3 user3 pass3
- txt файл просто с списком названий доменов из которых удалось извлечь нужные поля
- txt файл с списком доменов, из которых извлечь данные не удалось.
5. Дополнительный фнукционал, отдельный от основного функционала.
Загружается два файла
- csv файл из пункта 4
- txt файл содержащий список доменов (просто доменов, без данных логинпароль)
на выходе создается 2 csv файла
- csv файл без доменов из тхт файла (те с удаленными строками)
- csv файл только с доменами из txt файла (те самые удаленные строки, с loginpassword)