[d | an-b-bro-fr-gf-hr-l-m-maid-med-mi-mu-ne-o-old_o-p-ph-r-s-sci-sp-t-tran-tv-w-x | bg-vg | au-mo-tr | a-aa-abe-azu-c-dn-fi-hau-jp-ls-ma-me-rm-sos-tan-to-vn | misc-tenma-vndev | dev-stat]
[Burichan] [Futaba] [Gurochan] [Tomorrow] [Архив-Каталог-RSS] [Главная]

Файл: 800px-HoleForceLines.svg.png -(19 KB, 800x600, 800px-HoleForceLines.svg.png)
19 No.208461  

Здравствуй, Ычан. Я полный ламер. Но, возможно, есть готовый вариант решения моего вопроса.
Как вам известно, в статьях новостных агрегаторов содержится много ссылок, переносящих на другие статьи, а также есть файлы в виде документов или фото.
Существует ли софт, который позволяет проверить отдельно взятую статью, результатом работы которого будет граф ссылок на статьи и файлы к ним?
Если нет подходящего софта, то можно ли написать скрипт, который позволяет связать разные опен-сурсные софтины, чтобы они работали как описанное мною ПО. А ещё, чтобы там можно было грабить корованы.

>> No.208462  

Пикрелейтед - визуализация того, что я подразумевал в OP-посте.
Просто читать новостные статьи недостаточно, требуется их автоматический анализ, чтобы не повестись на глупую манипуляцию, как на втором примере картинки.

>> No.208463  

Про готовый софт не слышал, но это само по себе задача не из титанических.
Тупо циклически пропарсить страницу на предмет гиперссылок и переходить по ним, составляя граф переходов - вообще как нефиг делать. Сложности начинаются с отсеиванием ссылок относящихся к статье от всех остальных ссылок на странице которая может на любом шаге из себя структурно и по наполнению представлять что угодно, но в принципе и это далеко не невозможно. Какие-то основные паттерны можно прописать более обще, либо составить небольшую базу для проверенных изданийй, а остальное либо проверять вручную, опционально пополняя базу, либо просто отсеивать.

>> No.208466  

Чем-то похожим занимался телепорт. Но это было в эпоху Вэб 1.0. Понятия не имею, как это будет работать в современном вэбе с его системами динамической доставки контента, скриптовыми приблудами, защитой контента, маскировками ссылок и т.п.

>> No.208467  

>>208463

> Сложности начинаются с отсеиванием ссылок относящихся к статье от всех остальных ссылок на странице

Одна из причин написания треда. Есть ли что-то общее между устройством новостных агрегаторов, которое позволит для каждого из них отделить тело статьи от всей остальной части сайта и обрабатывать только её?

>> No.208468  

>>208467
Есть. Называется API. Потому что отделить зёрна от плевел даже человеку зачастую трудно. И единственный способ заключается в том что сам разработчик ресурса делает работу за тебя, предоставляя возможность получения чистой выжимки без шелухи. Посылаешь запрос на сервер и получаешь нужный результат. Раньше например быта такая штука как "версия для печати". Внизу у почти каждой страницы в интернете на неё ссылка была. Там была только статья с её ссылками без оформления сайта и прочей всячины. Но позже из-за того что её использовали чтобы не смотреть рекламу выпилили. К API по тем же причинам доступ ограничивают. Пользоваться ими могут только разработчики на условиях соглашения с ресурсом. Обычно в нём копирайты и обязательства казать рекламу.

>> No.208474  

>>208468
А есть ли какие-нибудь карты статей? Идиотская аналогия с картой сайтов, только для статей.

>> No.208475  

>>208474
Сейчас и карту сайта трудно встретить. Потому что она палит то что не надо. Не то чтоб это было что то секретное, просто хозяину ресурса лучше знать что и в какой последовательности ты должен кликать. Иногда и прямые переходы запрещают, чтоб закладки не делали.




[d | an-b-bro-fr-gf-hr-l-m-maid-med-mi-mu-ne-o-old_o-p-ph-r-s-sci-sp-t-tran-tv-w-x | bg-vg | au-mo-tr | a-aa-abe-azu-c-dn-fi-hau-jp-ls-ma-me-rm-sos-tan-to-vn | misc-tenma-vndev | dev-stat]
[Burichan] [Futaba] [Gurochan] [Tomorrow] [Архив-Каталог-RSS] [Главная]