Общие тезисы:
1. Все данные храним в 1 таблице, имя таблицы data_topnews. Структура таблицы:
id инкремент
поля с данными, разбитые на логические составляющие и названные на латинице понятными названиями. Пример: заголовок хранить в столбце с названием title, текст в text и т.п.
поле для хранения ссылки-источника, откуда взят материал
последнее поле таблицы used (пустое по умолчанию)
2. Скрипт должен хранить в настройках список стартовых страниц (откуда парсить данные). Простые урлы вида
www.topnews.ru/news_cat_p... www.topnews.ru/news_cat_e... www.topnews.ru/news_cat_s... www.topnews.ru/news_cat_s... www.topnews.ru/news_cat_s... www.topnews.ru/news_cat_i... www.topnews.ru/news_cat_g... www.topnews.ru/news_cat_k... www.topnews.ru/news_cat_a... www.topnews.ru/news_cat_h... 3. Скрипт запускается по крону и собирает список ссылок на сами новости со стартовой страницы. Сохранив ссылки, вытаскивает данные по каждой из них (текст новости). Интересуют поля (для текстовых новостей):
- заголовок;
- дата и время;
- заглавная картинка к новости (сохраняем файл в папку с путем img/id_новости, ссылку в поле img таблицы);
- описание новости (берем текст из itemtype="description");
- доп. картинки к новости (картинки сохраняем по прежнему принципу, в тексте выводим их по принципу <img src="локальный путь до картинки" />
4. Скрипт будет запускаться часто, с периодичность раз в 1-3 минуты. При каждом запуске он должен пропарсивать все ссылки новостей с корневых страниц, выбирать свежие появившиеся и допарсивать их в базу.