Сложная проблема: избыточность веб-информации
3 августа 2009 в 04:25

Сложная проблема: избыточность веб-информации

Как Вы добываете информацию на Интернете? И, главное, как Вы при этом решаете проблему избыточности (т.е. как в океане информации Вы находите именно то, что Вам нужно)?
Может быть, для этой цели необходим персональный интеллектуальный робот (agent)?
Как Вы представляете себе его работу?

350
Комментарии (48)
  • 4 августа 2009 в 23:08 • #
    Игорь Олегович Цесельский

    Вопрос действительно актуальный.
    Про агента - поподробнее.
    Это специализированный поисковик, заточенный под определенную тематику?

  • 5 августа 2009 в 06:54 • #
    Михаил Горелкин

    Программный агент (software agent) - это программа, способная выполнять некоторую работу за пользователя (http://en.wikipedia.org/wiki/Software_agent). Интерес представляют интеллектуальные автономные агенты, способные к самостоятельному решению сложных задач по целям, поставленными пользователем. Если задача слишком сложна для одного агента, тогда работу выполняют несколько агентов, согласовывая свои действия между собой (аналогия: роботы). Пример: веб-кроулеры (их еще называют веб-ботами, сокращая "веб-роботы"). Подобный агент, зная интересы пользователя, может производить семантический анализ его электронной почты или рассылок, идущих из групп социальных сетей (интеллектуальный фильтр). Или быть надстройкой над одним, несколькими, или многими поисковиками, работая на заднем плане и методично перемалывая информация, чтобы найти что-нибудь интересное для пользователя. Особенно они полезны для работы в Глубоком Вебе (Deep Web: http://en.wikipedia.org/wiki/Deep_Web). Их особенности: семантический анализ информации, основанный либо на методах обработки естественных языков, либо на statistical learning методах и плотная привязка к интересам конкретного пользователя (они могут отслеживать как он пользуется поисковики, например, и формировать базу его интересов и предпочтений). Сталкиваясь с проблемами, они "просят" пользователя решить их, схватывая его "логику" решения... Но это уже иная веб парадигма - Адаптивный Веб.

  • 5 августа 2009 в 00:50 • #
    Генрих Лемке

    Существует несколько, достаточно продуктивных программных средств целевого поиска информации в инернете - "Аваланч", "Сайт-спутник" и ещё несколько иных.

    Кроме того, Вам, вероятно, может быть полезна интерактивная ИАС "Интегрум".

    Впрочем, они достаточно подробно описаны здесь:

    http://www.professionali.ru/GroupInfo/737

  • 5 августа 2009 в 18:23 • #
    Александр Кузнецов

    Зачем что-то покупать кода большенство сайт имееют rss. И можно подписаться на новые результаты по плогам и формам так же через rss с помошью у google и yandex. Я думаю, что этим продуктам с ними будет сложно конкурировать.

  • 5 августа 2009 в 10:09 • #
    Станислав Маркевич

    Да действительно поиск информации в интернете важный вопрос. Мне лично приходиться заниматься поиском ежедневно и помощь в этом вопросе всегда нужна.
    Как было сказано, Генрих Лемке существуют достаточно много программ, но они до сих пор "не совершенны"

  • 6 августа 2009 в 07:18 • #
    Михаил Горелкин

    В сегодняшнем Веб-е они не могут быть совершенными, т.к. им приходится восстанавливать смысл написанного, а это очень уж неоднозначная штука.

  • 5 августа 2009 в 10:44 • #
    Борис Жгучев

    может быть - важно очень четко понять что нужно - ну и плюс с опытом очень много вариантов отсеивается интуитивно,тем самым экономиться много времени.

    А Вы могли бы рассказать чуть больше про агентов - аваланч или сайт - спутник - можно ли его попробовать где взять ?

  • 5 августа 2009 в 11:43 • #
    no comment

    достаточно изучить синтаксис запросов гугла и яндекса и найдется все что нужно

  • 5 августа 2009 в 13:25 • #
    Павел Новичков

    если было все так просто не делали бы программы анализа на элементах не линейной логики...

  • 5 августа 2009 в 13:31 • #
    Павел Новичков

    Михаил,добрый день!
    хочу посоветоваться;
    услышал от своих:
    если сайт -то он открыт, даже если организаторы тверждают
    что сайт-закрытый...
    всегда найдутся лазейки ,утечки ,сработает человеческий фактор и профессиональная программа-робот увидит это и собирет информацию..
    это так?

  • 5 августа 2009 в 15:48 • #
    Михаил Горелкин

    Павел, добрый день! Даже если есть лазейки, то сложность задачи такова, что без автоматизации решения Вы ничего не сделаете - слишком уж велика избыточность этой информации.

  • 23 октября 2009 в 14:52 • #
    Епифантий Апельсинов

    Je perdu mon amour

  • 23 октября 2009 в 19:01 • #
    Михаил Горелкин

    Mes sincères condoléances

  • 5 августа 2009 в 17:08 • #
    Владимир Шелухин

    Вреда от агента бы не было, да только сдаётся мне, что тут попахивает необходимостью получить в двоичной форме собственного клона, причём с точной копией личности и памяти. Не уверен, что я готов предоставить разработчику доступ к собственным исходникам. :-)
    К тому же я до сих пор прекрасно обхожусь Google, и обычно нахожу искомое в течение секунд (счёт на десятки минут идёт исключительно редко). Проблема избыточности решается просто — вменяемым поисковым запросом (который также очень редко требует уточнения)…
    В общем, просто поиск информации не ощущается как проблема, особенно если работать в одном и том же любовно настроенном собственном браузере.

  • 5 августа 2009 в 17:22 • #
    Михаил Горелкин

    Нет, ничего предоставлять разработчику не нужно, робот все соберет сам (на то он и "умный", и автономный) и будет хранить это конфиденциально на Вашем компьютере. От всего, конечно же, не освободит, но может сэкономить часть жизни для вещей более увлекательных :-) Отсутствие же проблем у Вас вызывает у меня чувство... белой зависти :-)

  • 5 августа 2009 в 18:24 • #
    Александр Кузнецов

    На компьютере хранить не модно. У многи имеют два. Например домашний и рабочий.

  • 5 августа 2009 в 18:46 • #
    Владимир Шелухин

    А также три и больше. Так многие их синхронизируют (я — дважды в сутки). Кроме того, часть информации хранится просто в Сети.

  • 5 августа 2009 в 18:44 • #
    Владимир Шелухин

    Шутка юмора это была. Чтобы быть «умным», ему для начала следует стать мной (или быть в состоянии выспросить у меня, какого же рожна мне хочется). :-)
    А отсутствие проблем может быть просто следствием разумности ожиданий. Я не пытаюсь заставить поисковую машину составить за меня аналитический трактат или осуществить выборку по 40 нечётким критериям. Мне нужно выяснить вопрос — я ищу контекст и разбираюсь с поисковыми вхождениями в нём. При известных навыках это несложно.

  • 6 августа 2009 в 07:24 • #
    Михаил Горелкин

    RE: Чтобы быть «умным», ему для начала следует стать мной (или быть в состоянии выспросить у меня, какого же рожна мне хочется). :-)

    А зачем ему (агенту) это надо, если у Вас нет проблем :-)

  • 5 августа 2009 в 17:32 • #
    Павел Новичков

    Владимир
    может поделитесь информацией?

  • 5 августа 2009 в 18:47 • #
    Владимир Шелухин

    Какой? Моя-то вам зачем?

  • 5 августа 2009 в 18:29 • #
    Павел Новичков

    поясню:
    если Вам нужно анализировать несколько сот тысяч сообщений в день!

  • 5 августа 2009 в 18:47 • #
    Владимир Шелухин

    Не понял? Вроде речь шла о поиске нужной информации (что бы это могло быть, кстати?). Какие такие сообщения?

  • 5 августа 2009 в 19:07 • #
    Павел Новичков

    Михаил об этом и сказал!
    Когда речь идет о сложных задачах ,которые не однозначны уже в области формирования техзадания на поиск,
    не говоря о сортировке и анализе полученной(огромной по объему )информации...
    который не приемлем для программ линейной логики.
    а сами Вы это не сделаете просто потому, что жизни не хватит.

  • 5 августа 2009 в 21:43 • #
    Владимир Шелухин

    Как-то эти задачи не вяжутся с простеньким вопросом, открывающим ветку. Обычно живые люди ищут информацию, поиск которой не требует предварительного составления ТЗ.

  • 5 августа 2009 в 21:59 • #
    Павел Новичков

    Раньше я тоже так думал...

  • 6 августа 2009 в 18:09 • #
    Владимир Шелухин

    То есть с некоторых пор прежде, чем что-то конкретно поискать, вам приходится составлять техническое задание? А кто занимается его исполнением?

  • 6 августа 2009 в 20:44 • #
    Павел Новичков

    мои знакомые
    они же и помогают грамотно составить ТЗ

  • 8 августа 2009 в 18:15 • #
    Роман Маевский

    Павел уточните о чем речь - поиск, сбор или анализ информации? В начале темы вопрос звучал - избыточность при поиске информации.

  • 8 августа 2009 в 19:13 • #
    Павел Новичков

    а если Вам требуются все 3

  • 8 августа 2009 в 20:29 • #
    Роман Маевский

    В таком случае надо сразу уточнять о чем Вы говорите, а то, в данном случае, это получилось в процессе разговора .

  • 6 августа 2009 в 21:10 • #
    Roman Prokopec

    Михаил когда мы задаём вопрос, ведь часть ответа уже есть в вопросе. на основе ответов, которые у вас возникают попробуйте задать эти ответы в поисковиках, первые две странички дадут Вам точный ответ. А потом проверяйте информацию. а проверять информацию надо через людей которые есть в том или ином регионе. только так. мне такой способ позволяет очень точно выходить на нужную информацию

  • 6 августа 2009 в 23:56 • #
    Михаил Горелкин

    Здесь есть еще одна проблема: какими словами выразить мои потребности: пусть я использую для поиска слова А, В, Д, а нужный мне документ использует близкие по смыслу Б, Г, Е. Или он использует А, Б, В, а мне эта комбинация не пришла в голову. Или он использует ту же комбинацию А, Б, В, что и я, но веб-кроулер выхватил для их индексации другую Г, Д, Е... И чем конкретнее поиск, тем уже поле "ответов", и если я делаю research, то могу пропустить действительно что-то для себя интересное. ???

  • 7 августа 2009 в 00:14 • #
    Михаил Горелкин

    P.S. Дополнение к определению Deep Web: Вы можете найти документ на Интернете через поисковик (т.е. он видим), но люди, которым он интересен, никогда не догадаются какую комбинацию слов для этого надо использовать, т.е. Вы его можете найти только... случайно.

  • 7 августа 2009 в 04:26 • #
    Михаил Горелкин

    Более того, проблема поиска не решается методом соответствия по ключевым словам. Точнее говоря, в простых случаях решается, в не очень простых - иногда, и это создает иллюзию решаемости этой задачи, например, сегодняшними поисковиками. Надо переходить к соответствию смыслов. Т.е. агент "вытягивает" из Вас что Вам нужно и ищет это по соответствию смыслов, не отбрасывая и того, что лежит "в стороне", но может заинтересовать Вас или даже переопределить характер Вашего поиска. Находит все ответы, обрабатывает их и возвращает Вам новый документ-резюме, "вычисленный" как в Wllfram|Alpha. То же относится и к фильтрации информации. Одной фразой: от данных к смыслу ( со всеми соответствующими проблемами :-) )

  • 7 августа 2009 в 08:13 • #
    Яцкевич Александр

    Несомненно интеллектуальный робот (agent) - это теоретически довольно мощный инструмент, о котором можно много и долго рассказывать пользователям, раздув щёки.
    Тем не менее, существует довольно простой и старый, как интернет, способ работы с информацией - ПРАВИЛЬНОЕ пользование поисковыми серверами с применением ПРАВИЛЬНО построенных поисковых запросов. ПРАВИЛЬНО строить запросы научиться не сложно и сделать это надо всего один раз. Инструкций в интернете по этому поводу валом. Да поможет Вам Google!
    Да, и не забывайте пользоваться своим мозгом, а то ведь атрофируется совсем, ежели роботов юзать везде и во всем! ;)

  • 7 августа 2009 в 15:20 • #
    Михаил Горелкин

    Есть невидящие решений, есть невидящие проблем и есть... раздраженные существованием щек и мозгов, нарушающих простоту им привычного.

  • 7 августа 2009 в 17:48 • #
    Яцкевич Александр

    Есть еще те, кто не умеет КОНКРЕТНО выражать свои мысли ;)
    Поэтому раздуваются щеки :)

  • 8 августа 2009 в 18:31 • #
    Роман Маевский

    Достаточно много зависит от типа информации - техническая, описание чего-либо или аналитическая. Первое и второе достаточно легко ищется если достаточно точно определена задача поиска. А вот с аналитической действительно нужны роботы. Достаточно часто путают описание чего-либо и различные подборки(в большей части именно аналитические).

  • 29 августа 2009 в 00:46 • #
    Марк Трубинов

    В интернете крайне мало уникальной информации, это показали некоторые исследования и практический опыт.

    Упоминаемый Вами агент в общем смысле попросту не существует, так как чтобы собрать всю информацию ему потребуются бесконечные ресурсы - бесконечный трафик и бесконечное время. Посмотрите публикации про оптимизацию деятельности поисковых роботов - пауков.

    Задача может решаться, выделением в поисковой области, всех людей, что либо на эту тему писавших - первоисточников, заход на их ресурсы, выделение их соавторов, людей как либо связанных с ними.
    Исходя из аксиомы - у любой информации есть источник в нашем случае это человек. Как правило в любой области таких людей не так много.

  • 29 августа 2009 в 03:47 • #
    Михаил Горелкин

    1) Wow! А я весь свой research все еще гуглю. Может те же исследования дают рекомендации как это делать иначе? 2) А я где-то писал, что мне нужна вся информация по теме, разбросанная по Интернету? Да и жизнь не так уж длинна, чтобы ее читать... А этого робота собираюсь сделать под заказ, опираясь на опыт тех же пауков. Кстати, такие роботы - часть Семантического Веба (например, Explorer's Guide to the Semantic Web by Thomas B. Passin, pp. 205- 217), но можно сделать его, опираясь на Natural Language Processing (NLP). 3) Такой тип рекомендаций работает для интеллектуальных социальных сетей, а для Интернета в целом - не думаю.

  • 31 августа 2009 в 01:55 • #
    Марк Трубинов

    На мой взгляд нет разницы, что использовать для поиска google или скажем baidu.com или Вы просто вырезаете строчки из газет, посвящённых тому или иному человеку или компании.
    Я говорил о методике, установить связи автор - тексты, посмотреть кто ещё писал в данной тематике, повторить процедуру. Через некоторое время поисков Вы установите, что в данной конкретной области существует строго ограниченная группа лиц, способных написать на данную тему, заинтересованных в решении данного вопроса, строго ограниченная группа компаний, способная произвести товар или участвовать в такого рода деятельности.
    Что касаемо семантического вэба, то добавление пары строчек в уже существующие тэги не приведёт, к росту упорядоченности информации. Возможно это слегка упростит её извлечение. Например, отделить ФИО от текста в общем случае непросто, не говоря уже о названии организации, в этом случае семантический вэб поможет. Но как и в случае ключевых слов это не панацея.
    PS. Мы говорим о анализе совершённых событий или написанных текстов, гораздо интересней задача становиться, если речь идёт об анализе в реальном времени (почти в реальном), достаточно сказать, что не одного поисковика, отражающего реальную картину интернета, пусть и неполную, не существует, тот же googlebot пытается чаще заходить на более часто обновляемые сайты, да и то не все, а только с определённой репутацией (в кавычках) cnn.com, например.

  • 1 сентября 2009 в 03:52 • #
    Михаил Горелкин

    1) Марк, я сейчас делаю research для одной компании относительно разных подходов к алгоритмическому трейдингу (теории сложности и хаоса, математическая теория игр, кибернетика, модели квантовой динамики и пр.) Какие газеты я должен резать? И к каким экспертам я должен обращаться? А не пошлют ли они меня с этим research? 2) Относительно семантики: она создается исходя из принципа достаточности для машинной обработки. Где-то и встречаются простые случаи, описанные Вами, но я не думаю, что ради них затевается перекрой всего Веба.

  • 1 сентября 2009 в 08:14 • #
    Марк Трубинов

    Газеты резали до того как появился Web - служащие КГБ делали такие ящички, их можно встретить и в каталогах библиотек, сейчас из google или семантического ;o) можно достатать ... авторов текста или новости, по фамилии и имени - это было моё предложение ... ничего более, чтобы упростить анализ, одно дело анализировать тексты и делать пуака, другое дело достать информацию для принятия решения - в Вашем случае ... скорее всего автор ... новости может быть обезличен ... к примеру FRS USA... сообщило ... (и далее следует то что нужно проанализировать).

  • 12 октября 2009 в 18:36 • #
    Максим Смирнов

    Есть такой неологизм Фолксономия.

    Определение из википедии:
    Фолксономия - народная классификация, практика совместной категоризации информации (ссылок, фото, видео клипов и т. п.) посредством произвольно выбираемых меток, называемых тегами. Другими словами, это понятие относится к спонтанному сотрудничеству группы людей с целью организации информации, которое интересно тем, что оно полностью отличается от традиционных формальных методов фасетной классификации

  • 13 октября 2009 в 18:19 • #
    Михаил Горелкин

    Максим, а можете продолжить свою мысль? Извините, не "въехал".

  • 13 октября 2009 в 18:48 • #
    Максим Смирнов

    Наверное, у меня не получится объяснить лучше чем у Тима О'Рейли http://www.computerra.ru/think/234100/ в статье "Что такое Веб 2.0", попробую лаконичней.

    Идя состоит в том, что отделить полезный контент от бесполезного лучше всего могут люди. Примером реализации могут быть социальные закладки, либо отзывы посетителей и голосования на сайтах интернет-магазинов.

    Для поисковых систем этот принцип реализуется следующим образом. Традиционные поисковики индексировали контент и считали клики (условно, больше кликов - выше место в рейтинге). Поисковики нового поколения ищут ссылки на данную страницу. Если страница часто "цитируется" другими сайтами, проще говоря ссылок на эту страницу на других сайтах больше, значит кто-то считает эту страницу полезной и она достойна большего внимания

  • 15 октября 2009 в 05:05 • #
    Михаил Горелкин

    Согласен, хотя и предпочитаю говорить в этом случае о Коллективном Интеллекте, соединяющим человеческий интеллект с алгоритмами искусственного. Кстати, тот же О'Рейли хорошо написал об этом в предисловии к книге Тоби Сегерана "Программируем Коллективный Разум".


Выберите из списка
2019
2019
2018
2017
2016
2015
2014
2013
2012
2011
2010
2009
2008