Написать парсер на php, который:
1. Берет из БД заданный текст в "сыром" формате wikipedia
2. Преобразует текст:
2.1 Преобразует технические теги (в скобках {{ }}):
2.1.1 Убирает ненужные теги (вставка контента из другого текста и т.д., не содержащееся в данной статье, кроме картинок)
2.1.2 Преобразует нужные в теги ХТМЛ и вставляет в соответстующую часть преобразованного текста (например, цитаты в конец раздела)
2.2 Преобразует теги разметки wikipedia в теги ХТМЛ (рисунки, таблиц)
2.2.1 Убирает ненужные (ссылки на другие статьи и т.п., оставляя только текст без ссылки)
2.2.2 Преобазует нужные в ХТМЛ (например, таблицы, списки или выделение разделов)
2.2.3 Под "тегами" также понимаются перенос строки и абзацы, которые надо преобразовать в теги ХТМЛ.
2.3 Преобразует (в основном убирает) теги дополнительных расширений wikipedia
3. Разбивает текст по разделам, в чтобы можно было вывести как всю преобразованную статью целиком, так и отдельный раздел. В выводе по разделам должны быть доступны отдельно заголовок, отдельно все остальное. Разделы могут вкладываться в другие разделы.
4. Записывает полученный результат в БД целиком и по разделам.
В итоге при выводе целиком должен получится читаемый текст в формате ХТМЛ, готовый к вставке на сайт без изменений.
При выводе по разделам аналогично выводу целиком.
Доп ссылки:
Wikipedia markup language
en.wikipedia.org/wiki/Hel... en.wikipedia.org/wiki/Hel... en.wikipedia.org/wiki/Hel... www.mediawiki.org/wiki/He... www.mediawiki.org/wiki/Al... Можно использовать готовые наработки
johbuc6.coconia.net/doku.... www.d2g.org.uk/index.php?... После изготовления парсера потребуется поддержка для устранения возможных проблем преобразования.
Примеры "сырого" текста страниц в wikipedia во вложении. Ссылки на них в wikipedia:
en.wikipedia.org/wiki/Ana... en.wikipedia.org/wiki/Cry... Естественно, реальные готовые страницы будут чуть меньше, т.к. часть текста в wikipedia может быть просто включением из других статей. И в данном случае ссылки на внутренние статьи wiki вообще не нужны. Внешние ссылки и цитаты надо в виде текста выводить под разделом.
Присылайте предложения с ориентировочным сроком выполнения и стоимостью.