IIchan Archives — Электроника и ПО

Файл: 800px-HoleForceLines.svg.png -(19 KB, 800x600, 800px-HoleForceLines.svg.png)

Софт или связка софта для обработки новостей !!EjRSE4Bi Ср 22 мая 2019 23:15:50 No.208461

Здравствуй, Ычан. Я полный ламер. Но, возможно, есть готовый вариант решения моего вопроса.
Как вам известно, в статьях новостных агрегаторов содержится много ссылок, переносящих на другие статьи, а также есть файлы в виде документов или фото.
Существует ли софт, который позволяет проверить отдельно взятую статью, результатом работы которого будет граф ссылок на статьи и файлы к ним?
Если нет подходящего софта, то можно ли написать скрипт, который позволяет связать разные опен-сурсные софтины, чтобы они работали как описанное мною ПО. А ещё, чтобы там можно было грабить корованы.

>>	!!EjRSE4Bi Ср 22 мая 2019 23:19:02 No.208462 Пикрелейтед - визуализация того, что я подразумевал в OP-посте. Просто читать новостные статьи недостаточно, требуется их автоматический анализ, чтобы не повестись на глупую манипуляцию, как на втором примере картинки.

Чии Чт 23 мая 2019 00:47:42 No.208463

Про готовый софт не слышал, но это само по себе задача не из титанических.
Тупо циклически пропарсить страницу на предмет гиперссылок и переходить по ним, составляя граф переходов - вообще как нефиг делать. Сложности начинаются с отсеиванием ссылок относящихся к статье от всех остальных ссылок на странице которая может на любом шаге из себя структурно и по наполнению представлять что угодно, но в принципе и это далеко не невозможно. Какие-то основные паттерны можно прописать более обще, либо составить небольшую базу для проверенных изданийй, а остальное либо проверять вручную, опционально пополняя базу, либо просто отсеивать.

>>	Чии Чт 23 мая 2019 08:47:59 No.208466 Чем-то похожим занимался телепорт. Но это было в эпоху Вэб 1.0. Понятия не имею, как это будет работать в современном вэбе с его системами динамической доставки контента, скриптовыми приблудами, защитой контента, маскировками ссылок и т.п.

!!EjRSE4Bi Чт 23 мая 2019 10:46:57 No.208467

>>208463

> Сложности начинаются с отсеиванием ссылок относящихся к статье от всех остальных ссылок на странице

Одна из причин написания треда. Есть ли что-то общее между устройством новостных агрегаторов, которое позволит для каждого из них отделить тело статьи от всей остальной части сайта и обрабатывать только её?

Чии Чт 23 мая 2019 12:43:25 No.208468

>>208467
Есть. Называется API. Потому что отделить зёрна от плевел даже человеку зачастую трудно. И единственный способ заключается в том что сам разработчик ресурса делает работу за тебя, предоставляя возможность получения чистой выжимки без шелухи. Посылаешь запрос на сервер и получаешь нужный результат. Раньше например быта такая штука как "версия для печати". Внизу у почти каждой страницы в интернете на неё ссылка была. Там была только статья с её ссылками без оформления сайта и прочей всячины. Но позже из-за того что её использовали чтобы не смотреть рекламу выпилили. К API по тем же причинам доступ ограничивают. Пользоваться ими могут только разработчики на условиях соглашения с ресурсом. Обычно в нём копирайты и обязательства казать рекламу.

>>	!!EjRSE4Bi Пт 24 мая 2019 00:45:58 No.208474 >>208468 А есть ли какие-нибудь карты статей? Идиотская аналогия с картой сайтов, только для статей.

Чии Пт 24 мая 2019 01:06:20 No.208475

>>208474
Сейчас и карту сайта трудно встретить. Потому что она палит то что не надо. Не то чтоб это было что то секретное, просто хозяину ресурса лучше знать что и в какой последовательности ты должен кликать. Иногда и прямые переходы запрещают, чтоб закладки не делали.