Подключите нашего Telegram-бота для уведомлений о новых проектах

Написать скрипт PHP для поиска нужных элементов на странице

T
Заказчик
Отзывы фрилансеров: + 67 - 1
Зарегистрирован на сайте 14 лет и 8 месяцев
Бюджет: 6000 руб/заказ
58.49 $ — 55.85 €
Исполнитель определен: Максим Федин  
Есть много html контента, допустим (тестировать работу скрипта будем на разных сайтах)
array = (
0 => file_get_contents('www.kakzdorovo.center/dev...,
1 => file_get_contents('www.kakzdorovo.center/psy...,
2 => file_get_contents('www.kakzdorovo.center/blo...,
3 => file_get_contents('www.kakzdorovo.center/lis...,
4 => file_get_contents('www.kakzdorovo.center/dev...
);

нужно найти в коде страниц следующую информацию:
Duplicate Pages – Показывает полные дубли страниц по всему HTML-коду
Duplicate Body Content – Показывает дубли страниц по содержимому блока <body>
Duplicate Titles – Показывает страницы с дублирующимися тегами <title>
Missing or Empty Title – Показывает страницы с отсутствующими или пустыми тегами <title>
Duplicate Descriptions – Показывает страницы с дублирующимися тегами <meta name="description" />
Missing or Empty Description – Показывает страницы с отсутствующими или пустыми тегами <meta name="description" />
Multiple Titles – Показывает страницы, которые содержат более одного тега <title>
Multiple Descriptions – Показывает страницы, которые содержат более одного тега <meta name="description" />
Missing or Empty h1 – Показывает страницы с отсутствующими или пустыми заголовками h1
Multiple h1 – Показывает страницы, которые содержат более одного заголовка h1
Duplicate h1 – Показывает страницы с дублирующимися заголовками h1
Duplicate Canonical URLs – Показывает страницы с дублирующимися тегами <link rel="canonical" />
Min Content Size – Показывает страницы с менее чем 500 символов в блоке <body> (без HTML-тегов)
Meta Refresh Redirected – Показывает страницы, которые содержат <meta http-equiv="refresh" /> с указанием любого URL (включая адрес текущей страницы)
Blocked by Robots.txt – Показывает страницы, запрещённые к индексации с помощью инструкции disallow в файле robots.txt
Blocked by Meta Robots – Показывает страницы, запрещённые к индексации с помощью инструкции <meta name="robots" content="noindex"> в блоке <head>
Blocked by X-Robots-Tag – Показывает страницы, запрещённые к индексации с помощью директивы "noindex" поля X-Robots-Tag в HTTP-заголовках ответа сервера
Internal Nofollowed Links – Показывает ссылки на странице, содержащие внутренние ссылки с атрибутом rel="nofollow"
Missing Images ALT Attributes – Показывает страницы, содержащие изображения с отсутствующим или пустым атрибутом ALT
Max Image Size – Показывает все изображения, размер которых превышает 100 Кбайт
Same Title and h1 – Показывает страницы, у которых заголовок h1 совпадает с содержимым тега <title>
Max Title Length – Показывает страницы, у которых длина тега <title> более 70 символов
Short Title – Показывает страницы, у которых длина тега <title> менее 10 символов
Max Description Length – Показывает страницы, у которых длина тега <meta name="description" /> более 160 символов
Short Description – Показывает страницы, у которых длина тега <meta name="description" /> менее 50 символов
Max h1 Length – Показывает страницы, у которых длина заголовка h1 более 65 символов
Max HTML Size – Показывает страницы с более чем 200 тыс. символов в блоке <body> (включая HTML-теги)
Max Content Size – Показывает страницы с более чем 50 тыс. символов в блоке <body> (без HTML-тегов)
Min Text/HTML Ratio – Показывает страницы, у которых отношение чистого текста (Content Size) ко всему контенту на странице (HTML Size) менее 10%
Nofollowed by Meta Robots – Показывает страницы, содержащие инструкции <meta name="robots" content="nofollow"> в блоке <head>
Nofollowed by X-Robots-Tag – Показывает страницы, у которых в поле X-Robots-Tag в HTTP-заголовках ответа сервера содержится директива "nofollow"
Missing or Empty Canonical Tag – Показывает страницы с отсутствующими или пустыми тегами <link rel="canonical" />
Different Page URL and Canonical URL – Показывает страницы, у которых не совпадают URL в теге <link rel="canonical" /> с URL самой страницы
Max Internal Links – Показывает страницы с более чем 100 внутренних ссылок
Max External Links – Показывает страницы с более чем 10 внешними ссылками
External Nofollowed Links – Показывает страницы, содержащие внешние ссылки с атрибутом rel="nofollow"
Missing or Empty Robots.txt File – Показывает список URL, относящихся к отсутствующим или пустым файлам robots.txt


в массиве страниц может быть неограниченное кол-во урлов. ответом должен быть массив со сравнениями и поиском по странице
Страниц в рассмотрении могут быть сотни тысяч. Это нужно учесть
Разделы:
Опубликован:
24.10.2016 | 18:59 [последние изменения: 24.10.2016 | 20:24]

Теги: нужен программист, резюме программиста, требуется программист, резюме веб программиста

Наши партнеры
Сведения об ООО «Ваан» внесены в реестр аккредитованных организаций, осуществляющих деятельность в области информационных технологий. ООО «Ваан» осуществляет деятельность, связанную с использованием информационных технологий, по разработке компьютерного программного обеспечения, предоставлению доступа к программе для ЭВМ и является правообладателем программы для ЭВМ «Платформа FL.ru (версия 2.0)».