Подключите нашего Telegram-бота для уведомлений о новых проектах

Парсер для "сырого" текста wikipedia

A
Заказчик
Отзывы фрилансеров: + 1 - 0
Зарегистрирован на сайте 17 лет и 4 месяца
Бюджет: по договоренности
Исполнитель определен: Андрей Билый  
Написать парсер на php, который:
1. Берет из БД заданный текст в "сыром" формате wikipedia

2. Преобразует текст:
2.1 Преобразует технические теги (в скобках {{ }}):
2.1.1 Убирает ненужные теги (вставка контента из другого текста и т.д., не содержащееся в данной статье, кроме картинок)
2.1.2 Преобразует нужные в теги ХТМЛ и вставляет в соответстующую часть преобразованного текста (например, цитаты – в конец раздела)
2.2 Преобразует теги разметки wikipedia в теги ХТМЛ (рисунки, таблиц)
2.2.1 Убирает ненужные (ссылки на другие статьи и т.п., оставляя только текст без ссылки)
2.2.2 Преобазует нужные в ХТМЛ (например, таблицы, списки или выделение разделов)
2.2.3 Под "тегами" также понимаются перенос строки и абзацы, которые надо преобразовать в теги ХТМЛ.
2.3 Преобразует (в основном убирает) теги дополнительных расширений wikipedia

3. Разбивает текст по разделам, в чтобы можно было вывести как всю преобразованную статью целиком, так и отдельный раздел. В выводе по разделам должны быть доступны отдельно заголовок, отдельно – все остальное. Разделы могут вкладываться в другие разделы.

4. Записывает полученный результат в БД целиком и по разделам.



В итоге при выводе целиком должен получится читаемый текст в формате ХТМЛ, готовый к вставке на сайт без изменений.
При выводе по разделам – аналогично выводу целиком.



Доп ссылки:

Wikipedia markup language
en.wikipedia.org/wiki/Hel...
en.wikipedia.org/wiki/Hel...
en.wikipedia.org/wiki/Hel...
www.mediawiki.org/wiki/He...
www.mediawiki.org/wiki/Al...

Можно использовать готовые наработки
johbuc6.coconia.net/doku....
www.d2g.org.uk/index.php?...



После изготовления парсера потребуется поддержка для устранения возможных проблем преобразования.

Примеры "сырого" текста страниц в wikipedia во вложении. Ссылки на них в wikipedia:
en.wikipedia.org/wiki/Ana...
en.wikipedia.org/wiki/Cry...

Естественно, реальные готовые страницы будут чуть меньше, т.к. часть текста в wikipedia может быть просто включением из других статей. И в данном случае ссылки на внутренние статьи wiki вообще не нужны. Внешние ссылки и цитаты надо в виде текста выводить под разделом.

Присылайте предложения с ориентировочным сроком выполнения и стоимостью.
Разделы:
Опубликован:
08.05.2012 | 12:41 [последние изменения: 08.05.2012 | 12:44]

Теги: нужен программист, резюме программиста, требуется программист, резюме веб программиста

Наши партнеры
Сведения об ООО «Ваан» внесены в реестр аккредитованных организаций, осуществляющих деятельность в области информационных технологий. ООО «Ваан» осуществляет деятельность, связанную с использованием информационных технологий, по разработке компьютерного программного обеспечения, предоставлению доступа к программе для ЭВМ и является правообладателем программы для ЭВМ «Платформа FL.ru (версия 2.0)».