Во-первых, вам нужно будет сделать хотя бы примитивный парсер html-страниц, чтобы вычленять из них гиперссылки. Далее анализировать эти гиперссылки на некое соответствие условию (принадлежность к сайту, т.е. что ссылка не внешняя или принадлежность к разделу сайта, который интересует). Тут вполне обычные операции со строками. Далее создаете массив обнаруженных страниц для сканирования с флагом или датой сканирования. Если ссылка со страницы удовлетворяет условию, проверяете ее наличие в массиве. Если ссылка в массиве не найдена, добавляете ее в массив. После сканирования текущей странице, переходите к следующей в массиве, которая еще не сканировалась или сканировалась давно.
Добавить комментарий