Подключите нашего Telegram-бота для уведомлений о новых проектах
Скрипт на Python
Разместить заказ

a
Заказчик
Отзывы фрилансеров:
+ 1
- 0
Зарегистрирован на сайте 1 год и 8 месяцев
Бюджет:
15 000 руб
181.48 $ — 158.97 €
Необходим следующий скрипт для фильтрации базы данных мейлов.
Можно реализовать на Python, есть старый шаблон который можно доработатть.
1. Скрипт должен из списка мейлов извлекать сайты ( с www, без www, https – у всех сайты записаны по-разному и у кого-то работает с www, у кого-то без и так далее)
2. Далее скрипт должен удалять дубликаты, чтобы не делать лишнюю работу (в базе много мейлов с одинаковыми доменами)
3. Далее скрипт должен пробегать по всем страницам этих сайтов и детектить следующие вещи.
3.1. У меня есть список ключевых слов TRANSPORT. Если на страницах сайтов нет слов из этого списка, записываем данный сайт в список NOT_TRANSPORT. Если ключевики есть, записываем в TRANSPORT.
3.2. Если сайт не резолвится, записываем в результат NOT_VALID.
Невалидные отсеяли, нерелевантные (NOT_TRANSPORT) отсеяли в отдельные файлы, 3.3. Далее скрипт работает уже только со списком TRANSPORT. У нас будет 2 группы – LOCAL и INTERNATIONAL.
3.3.1 Критерии для попадания в список INTERNATIONAL -количество языков на сайте минимум 2, а также ключевые слова INTERNATIONAL.
3.3.2 Если всего 1 язык, но есть ключевое слово, записываем в файл MIXED. Его я буду обрабатывать вручную
3.3.3. Если нет ключевых слов и неважно сколько языков на сайте, записываем в LOCAL.
Можно реализовать на Python, есть старый шаблон который можно доработатть.
1. Скрипт должен из списка мейлов извлекать сайты ( с www, без www, https – у всех сайты записаны по-разному и у кого-то работает с www, у кого-то без и так далее)
2. Далее скрипт должен удалять дубликаты, чтобы не делать лишнюю работу (в базе много мейлов с одинаковыми доменами)
3. Далее скрипт должен пробегать по всем страницам этих сайтов и детектить следующие вещи.
3.1. У меня есть список ключевых слов TRANSPORT. Если на страницах сайтов нет слов из этого списка, записываем данный сайт в список NOT_TRANSPORT. Если ключевики есть, записываем в TRANSPORT.
3.2. Если сайт не резолвится, записываем в результат NOT_VALID.
Невалидные отсеяли, нерелевантные (NOT_TRANSPORT) отсеяли в отдельные файлы, 3.3. Далее скрипт работает уже только со списком TRANSPORT. У нас будет 2 группы – LOCAL и INTERNATIONAL.
3.3.1 Критерии для попадания в список INTERNATIONAL -количество языков на сайте минимум 2, а также ключевые слова INTERNATIONAL.
3.3.2 Если всего 1 язык, но есть ключевое слово, записываем в файл MIXED. Его я буду обрабатывать вручную
3.3.3. Если нет ключевых слов и неважно сколько языков на сайте, записываем в LOCAL.
Разделы:
Опубликован:
01.11.2024 | 12:00 [поднят: 01.11.2024 | 12:00]