Есть много html контента, допустим (тестировать работу скрипта будем на разных сайтах)
array = (
0 => file_get_contents('
www.kakzdorovo.center/dev...,
1 => file_get_contents('
www.kakzdorovo.center/psy...,
2 => file_get_contents('
www.kakzdorovo.center/blo...,
3 => file_get_contents('
www.kakzdorovo.center/lis...,
4 => file_get_contents('
www.kakzdorovo.center/dev... );
нужно найти в коде страниц следующую информацию:
Duplicate Pages Показывает полные дубли страниц по всему HTML-коду
Duplicate Body Content Показывает дубли страниц по содержимому блока <body>
Duplicate Titles Показывает страницы с дублирующимися тегами <title>
Missing or Empty Title Показывает страницы с отсутствующими или пустыми тегами <title>
Duplicate Descriptions Показывает страницы с дублирующимися тегами <meta name="description" />
Missing or Empty Description Показывает страницы с отсутствующими или пустыми тегами <meta name="description" />
Multiple Titles Показывает страницы, которые содержат более одного тега <title>
Multiple Descriptions Показывает страницы, которые содержат более одного тега <meta name="description" />
Missing or Empty h1 Показывает страницы с отсутствующими или пустыми заголовками h1
Multiple h1 Показывает страницы, которые содержат более одного заголовка h1
Duplicate h1 Показывает страницы с дублирующимися заголовками h1
Duplicate Canonical URLs Показывает страницы с дублирующимися тегами <link rel="canonical" />
Min Content Size Показывает страницы с менее чем 500 символов в блоке <body> (без HTML-тегов)
Meta Refresh Redirected Показывает страницы, которые содержат <meta http-equiv="refresh" /> с указанием любого URL (включая адрес текущей страницы)
Blocked by Robots.txt Показывает страницы, запрещённые к индексации с помощью инструкции disallow в файле robots.txt
Blocked by Meta Robots Показывает страницы, запрещённые к индексации с помощью инструкции <meta name="robots" content="noindex"> в блоке <head>
Blocked by X-Robots-Tag Показывает страницы, запрещённые к индексации с помощью директивы "noindex" поля X-Robots-Tag в HTTP-заголовках ответа сервера
Internal Nofollowed Links Показывает ссылки на странице, содержащие внутренние ссылки с атрибутом rel="nofollow"
Missing Images ALT Attributes Показывает страницы, содержащие изображения с отсутствующим или пустым атрибутом ALT
Max Image Size Показывает все изображения, размер которых превышает 100 Кбайт
Same Title and h1 Показывает страницы, у которых заголовок h1 совпадает с содержимым тега <title>
Max Title Length Показывает страницы, у которых длина тега <title> более 70 символов
Short Title Показывает страницы, у которых длина тега <title> менее 10 символов
Max Description Length Показывает страницы, у которых длина тега <meta name="description" /> более 160 символов
Short Description Показывает страницы, у которых длина тега <meta name="description" /> менее 50 символов
Max h1 Length Показывает страницы, у которых длина заголовка h1 более 65 символов
Max HTML Size Показывает страницы с более чем 200 тыс. символов в блоке <body> (включая HTML-теги)
Max Content Size Показывает страницы с более чем 50 тыс. символов в блоке <body> (без HTML-тегов)
Min Text/HTML Ratio Показывает страницы, у которых отношение чистого текста (Content Size) ко всему контенту на странице (HTML Size) менее 10%
Nofollowed by Meta Robots Показывает страницы, содержащие инструкции <meta name="robots" content="nofollow"> в блоке <head>
Nofollowed by X-Robots-Tag Показывает страницы, у которых в поле X-Robots-Tag в HTTP-заголовках ответа сервера содержится директива "nofollow"
Missing or Empty Canonical Tag Показывает страницы с отсутствующими или пустыми тегами <link rel="canonical" />
Different Page URL and Canonical URL Показывает страницы, у которых не совпадают URL в теге <link rel="canonical" /> с URL самой страницы
Max Internal Links Показывает страницы с более чем 100 внутренних ссылок
Max External Links Показывает страницы с более чем 10 внешними ссылками
External Nofollowed Links Показывает страницы, содержащие внешние ссылки с атрибутом rel="nofollow"
Missing or Empty Robots.txt File Показывает список URL, относящихся к отсутствующим или пустым файлам robots.txt
в массиве страниц может быть неограниченное кол-во урлов. ответом должен быть массив со сравнениями и поиском по странице
Страниц в рассмотрении могут быть сотни тысяч. Это нужно учесть