Выполнить парсинг проектов на
tilda.cc/ Любой сайт на Tilda может быть открыт по номеру проекта. Например,
project826557.tilda.ws/ Задача: спарсить пул проектов на Tilda, пройдя по всем номерам проектов от 1 000 000 до 6 700 000. В результате нужно составить таблицу Google Docs/Excel, которая будет содержать следующие столбцы:
1. Номер проекта содержит ссылку с номером проекта (
project826557.tilda.ws/) 2. Адрес подключенного домена. Если к проекту подключен домен, то он открывается как по номеру проекта, так и по подключенному домену (например, к проекту
project826557.tilda.ws/ подключен домен
www.a.tancuytut.ru/). Домен получается из исходного кода страницы проекта (парсинг тега link rel="canonical" href="[подключенный_домен]"">). Домен может быть как пользовательским (например,
www.a.tancuytut.ru/), так и поддоменом Tilda (например, у проекта
project1238489.tilda.ws/ домен с поддоменом от Tilda
hangar-group.tilda.ws/).
3. AmoCRM содержит Да или Нет. Если в исходном коде страницы проекта встречается строка amocrm.ru, то Да, иначе Нет.
4. Kommo содержит Да или Нет. Если в исходном коде страницы проекта встречается строка kommo.com или amocrm.com, то Да, иначе Нет.
5. Bitrix24 содержит Да или Нет. Если в исходном коде страницы проекта встречается строка bitrix24, то Да, иначе Нет.
6. Comagic содержит Да или Нет. Если в исходном коде страницы проекта встречается строка comagic.ru, то Да, иначе Нет.
7. Uiscom содержит Да или Нет. Если в исходном коде страницы проекта встречается строка uiscom.ru, то Да, иначе Нет.
8. Metrika содержит Да или Нет. Если в исходном коде страницы проекта встречается строка metrika, то Да, иначе Нет.
9. Roistat содержит Да или Нет. Если в исходном коде страницы проекта встречается строка roistat, то Да, иначе Нет.
10. Телефоны спарсить телефоны со страницы по традиционным маскам +7… , 8 ..…, 7 … с разделителями в виде пробелов, скобок и т.д.
11. Email спарсить Emai’ы из текста страницы
12. Title / Description / H1 из текста страницы
Пример заполнения таблицы:
docs.google.com/spreadshe...