Сложная проблема: избыточность веб-информации

Сложная проблема: избыточность веб-информации

Как Вы добываете информацию на Интернете? И, главное, как Вы при этом решаете проблему избыточности (т.е. как в океане информации Вы находите именно то, что Вам нужно)? Хотели бы Вы иметь для этой цели персонального интеллектуального робота (agent) и как Вы представляете себе его работу?

266
  • Тема закрыта
Комментарии (8)
  • 28 июля 2009 в 17:32 • #
    Дмитрий Демянюк

    Хороший вопрос.
    Избыточность информационного шума конечно велика.
    Думаю каждый решает эту проблему самостоятельно, мой метод создание для себя что-то вроде таблицы веса по каждому поиску информации и отсечению слишком легких по весу вариантов. Правда и в том что остается очень много пустой информации.
    Робота бы хотелось, основной функционал:
    Селект в свободно распространяемых источниках информации не по словам, а по смысловому под тексту.
    С определением источника и дерева распространения.

  • 28 июля 2009 в 18:54 • #
    Ruben Girgidov

    Ух какая тема, прямо мне по профилю, недели три назад нечто подобное закончили теперь не знаем, куда девать.
    Теперь по делу.
    У таких систем три основных проблемы:
    1. поиск и извлечение информации из сети
    2. фильтр не информационной составляющей (фильтр обвязки страницы)
    3. фильтр информационный (т.е. выкидываем, что не интересно). Требуется строить семантическое дерево конкретного человека, а для этого надо много времени и далеко не у всех есть желание натаскивать дурака агента на это. Плюс к примеру, когда я начал искать информацию по машинам она вся идет в табличном виде, причем на столько разнообразно, что просто не представляю как это можно формализовать.

    И самая главная проблема, как на этом деньги заработать.

  • 28 июля 2009 в 19:19 • #
    Михаил Горелкин

    3) без адаптивности не обойтись - всякий раз, когда робот не может чего-то, он должен попросить пользователя решить эту проблему, чтобы "схватить" его логику. И так все лучше и лучше его имитировать. !) начать с семантического анализа веб-информации на основе Natural Language Processing... до того как они внедрят по всему Веб-у свой Semantic Web (~ 10 лет). Если интересно, то предлагаю пообщаться по скайпу.

  • 29 июля 2009 в 01:53 • #
    Ruben Girgidov

    согласен, давайте завтра.

  • 29 июля 2009 в 00:11 • #
    Сергей Терлов

    Дааа. Как говорится в тему!
    Только сегодня искал по очень простому и конкретному запросу, информацию в инете, потратил кучу времени и .... не нашел :).
    С техническими тонкостями не помогу, но как тестировщик могу поучаствовать...

  • 29 июля 2009 в 06:46 • #
    Михаил Горелкин

    Спасибо, Сергей, но пока тестировать еще нечего.

  • 2 августа 2009 в 05:18 • #
    Олег Сорока

    С годами кол-во информации в интернете растёт, а свободное место в голове - уменьшается :)
    Поэтому давно уже не сталкивался с проблемой поиска, а вот проблема выбора стоит очень остро.
    Справиться с информационным давлением помогла программа www.feedly.com - RSS-читалка нового поколения, отслеживающая социальные связи, рекоммендации и прочие параметры публикуемых заметок.