Внимание: задание интересное, но достаточно сложное, это не просто написать скрипт, нужно прилично подумать.
Участников может быть несколько. Победитель будет объявлен по нашему усмотрению если будет достигнут достойный результат после проведения тестирования. Подразумевается что один человек сделает все скрипты одинаково хорошо, но в случае если в ходе тестирования будет определено что с каким-то из пунктов справился один, а с каким-то другой, то фонд будет поделен в зависимости от сложности этого задания. Вы можете стать победителем досрочно, просто пришлите свой результат выше наших требований, мы его оттестируем и дадим вам ответ. Что значит достойный вы сами поймете в ходе работы над скриптами, поскольку по некоторым из заданий практически невозможно достигнуть 100% результата, поэтому в расчет будет браться наилучший результат, но явно не меньший чем 95 %. Если у вас близко к этим результатам то ждем ваших скриптов для тестирования. Желаем Вам успехов.
1. Поиск ссылок на RSS ленты в списке сайтов
а) собрать все источники с
news.google.com , по всем странам.
б) Исходными данными является список сайтов из пункта а), на страницах которых явно есть ссылка на RSS ленту новостей
в) Необходимо написать скрипт, который мог бы находить эти ссылки в этом списке.
г) скрипт должен найти ссылку, обратиться по ней и распознать отданный ему контент как RSS ленту (убедиться, что ссылка найдена правильно)
д) готовый скрипт на тестовой выборке с гораздо большим числом сайтов должен дать приемлемые результаты, то есть обнаружить максимально возможное число ссылок на RSS ленты при условии, что эта выборка подобрана так, что каждый сайт в списке имеет такую ссылку.
е) скрипт должен уметь работать с различной кодировкой и различными языками (без привязки к конкретному языку)
2. Поиск полного текста новости на странице
а) входные данные: урл страницы (на которой имеется заголовок новости, текст новости и изображения опционально), заголовок и текст самой новости.
б) необходимо написать скрипт, который на заданных урлах сможет распознать
заголовок новости
текст новости
изображение(ия) прикрепленное к новости
в) скрипт должен показать 100% умение находить эти данные на тестовых сайтах (страницы которых будут в начальной выборке) и дать приемлемые результаты в ходе теста на произвольной выборке.
г) Затем из этих текстов ( проводить тест на англоязычных текстах) необходимо составить список самых популярных слов и словосочетаний не более 5 слов ( словом считается и такие одиночные I, and, if, me)
3. Поиск сайтов для проверки на наличие RSS лент
Рекомендации ( ВНИМАНИЕ: это только рекомендация, возможно вы найдете другой более интересный способ).
а) для поиска сайтов-претендентов можно воспользоваться поисковыми системами Google, Yandex (не желательно, так как языковый охват скудный)
б) Google: если воспользоваться поисковой конструкцией "filetype:rss", тогда в выдаче будут документы, которые (возможно!) будут являться rss лентами. каждую такую ссылку из выдачи нужно проверить на предмет действительно является этот документ RSS лентой или нет.
в) такую операцию нужно проделать с произвольным языком (английский, немецкий, русский, итальянский и т.д.)
г) GoogleNews хороший поставщик претендентов для поиска RSS лент
Задача:
Написать скрипт, который будет находить сайты-претенденты для поиска на них RSS лент. Скрипт должен быть не привязан к какому-то конкретному языку, уметь работать с произвольным языком. Как рекомендация использовать поисковые системы Google, GoogleNews
Скприт должен показать приемлемый результат обнаружения RSS лент на сайтах претендентах.
4) Есть исходные данные:
Заголовки новостей, взятые с разных источников, описывающие одно и тоже глобальное событие (событие которое произошло и дальше оно развивается). Событие может состоять из подсобытий. Каждый источник описывает заголовок разными словами.
Требуется сгруппировать эти заголовки по смысловой близости по подсобытиям.
Алгоритм должен работать с любым набором заголовков, которые изначально обладают близостью к одному событию.
Обработчик желательно написать на PHP. К этому пункту прилагаются два файла
Техническое описание.doc и Примеры.xls (в нем есть внизу вкладки с разными новостями)
Если вы хороший специалист и заинтересовались данным конкурсом можете задавать вопросы, в противном случае прошу не отвлекать.
С Уважением, Константин.
Emai: ok@mibe.com
skype: Leksikon35