Здравствуй, Ычан. Я полный ламер. Но, возможно, есть готовый вариант решения моего вопроса. Как вам известно, в статьях новостных агрегаторов содержится много ссылок, переносящих на другие статьи, а также есть файлы в виде документов или фото. Существует ли софт, который позволяет проверить отдельно взятую статью, результатом работы которого будет граф ссылок на статьи и файлы к ним? Если нет подходящего софта, то можно ли написать скрипт, который позволяет связать разные опен-сурсные софтины, чтобы они работали как описанное мною ПО. А ещё, чтобы там можно было грабить корованы.
Пикрелейтед - визуализация того, что я подразумевал в OP-посте. Просто читать новостные статьи недостаточно, требуется их автоматический анализ, чтобы не повестись на глупую манипуляцию, как на втором примере картинки.
Про готовый софт не слышал, но это само по себе задача не из титанических. Тупо циклически пропарсить страницу на предмет гиперссылок и переходить по ним, составляя граф переходов - вообще как нефиг делать. Сложности начинаются с отсеиванием ссылок относящихся к статье от всех остальных ссылок на странице которая может на любом шаге из себя структурно и по наполнению представлять что угодно, но в принципе и это далеко не невозможно. Какие-то основные паттерны можно прописать более обще, либо составить небольшую базу для проверенных изданийй, а остальное либо проверять вручную, опционально пополняя базу, либо просто отсеивать.
Чем-то похожим занимался телепорт. Но это было в эпоху Вэб 1.0. Понятия не имею, как это будет работать в современном вэбе с его системами динамической доставки контента, скриптовыми приблудами, защитой контента, маскировками ссылок и т.п.
>>208463 > Сложности начинаются с отсеиванием ссылок относящихся к статье от всех остальных ссылок на странице Одна из причин написания треда. Есть ли что-то общее между устройством новостных агрегаторов, которое позволит для каждого из них отделить тело статьи от всей остальной части сайта и обрабатывать только её?
>>208463
> Сложности начинаются с отсеиванием ссылок относящихся к статье от всех остальных ссылок на странице
Одна из причин написания треда. Есть ли что-то общее между устройством новостных агрегаторов, которое позволит для каждого из них отделить тело статьи от всей остальной части сайта и обрабатывать только её?
>>208467 Есть. Называется API. Потому что отделить зёрна от плевел даже человеку зачастую трудно. И единственный способ заключается в том что сам разработчик ресурса делает работу за тебя, предоставляя возможность получения чистой выжимки без шелухи. Посылаешь запрос на сервер и получаешь нужный результат. Раньше например быта такая штука как "версия для печати". Внизу у почти каждой страницы в интернете на неё ссылка была. Там была только статья с её ссылками без оформления сайта и прочей всячины. Но позже из-за того что её использовали чтобы не смотреть рекламу выпилили. К API по тем же причинам доступ ограничивают. Пользоваться ими могут только разработчики на условиях соглашения с ресурсом. Обычно в нём копирайты и обязательства казать рекламу.
>>208468 А есть ли какие-нибудь карты статей? Идиотская аналогия с картой сайтов, только для статей.
>>208474 Сейчас и карту сайта трудно встретить. Потому что она палит то что не надо. Не то чтоб это было что то секретное, просто хозяину ресурса лучше знать что и в какой последовательности ты должен кликать. Иногда и прямые переходы запрещают, чтоб закладки не делали.
- wahaba + wakaba 3.0.9 + futaba + futallaby -