Разработка скриптов для сбора данных по нескольким миллионам сайтов из каталога DMOZ. Среди собираемых данных как показатели поисковых систем (Google PageRank, Alexa Rank и др.), так и характеристики самого сайта (кодировка, мета-теги и др.), а также данные whois (регистратор, владелец и т.д.). Скрипт конечно же поддерживает многопоточность и списки прокси.
http://peter23.com/portfolio/#parse_sites_dmoz