Разделы

Цифровизация Бизнес-приложения

Новый виток развития поисковых систем

Программа под названием Gnutella —детище программистов из компании Nullsoft, в свое время наделала очень много шума. По своим функциям Gnutella очень похожа на пресловутый Napster, и предназначена для поиска и обмена файлов в Интернете. Переполох, который подняла RIIA (Ассоциация звукозаписывающих компаний Америки), был связан с тем, что по своим возможностям Gnutella превосходила Napster. Во-первых, для работы программе не требуется центральный сервер. Пользователям не надо будет соединяться друг с другом напрямую для передачи файлов, они могут организовать собственные распределенные сети (в каждой сети может быть до 4 компьютеров), внутри которых и происходит обмен информацией. Также возможна передача файлов между различными сетями. Отследить такую разветвленную систему и препятствовать распространению программы нереально. Следовательно, помешать обмену пиратскими звукозаписями практически невозможно. Владельцы авторских прав просто не в состоянии отключить всех пользователей, как это происходит при наличии центрального сервера обмена. Второе отличие Gnutella от Napster — возможность поиска файлов практически любых форматов, а не только MP3.

Сайт, на котором была выложена программа для скачивания, не просуществовал и суток. Закрыт он был по требованию комапнии America Online (напомним, что AOL принадлежит сам разработчик Gnutella — Nullsoft, а кроме того, звукозаписывающие компании EMI и Warner Music). Но даже этого времени оказалось достаточно, чтобы Gnutella разошлась по всему миру. Трудно сказать, сколько людей сейчас пользуются Gnutella, но по некоторым оценкам, их количество составляет несколько десятков тысяч.

Однако оказалось, что сам механизм, на котором основана Gnutella, можно использовать и в совершенно легальных целях. Не так давно группа программистов во главе с Джином Каном представила свою новую разработку — поисковую систему Infrasearch. Так же как и Gnutella, новый поисковик представляет собой распределенную систему. Для обеспечения поиска по какому-либо сайту требуется установить на нем специальную программу-агента, который и будет формировать ответы на запросы пользователей.

Чтобы обрисовать преимущества новой системы по сравнению с существующими ныне, кратко остановимся на методах поиска в Интернете. В принципе технологий поиска всего две: поиск по запросу и поиск по каталогу. Поиск по каталогу подразумевает, что пользователю известна тематика, к которой относится нужный ему документ. Следуя рубрикатору, он может отыскать ссылки на документы по нужной теме. Если же пользователь не знает, к какой тематике может относиться сайт, на котором лежит нужная информация, он задает поисковой машине запрос.

Поиск по запросу заключается в том, что пользователь ищет документы, в которых содержится некоторый набор ключевых слов. Поисковая машина просматривает имеющуюся у нее базу данных, ища документы, в которых присутствуют слова (не обязательно только слова) из запроса. Для формирования базы данных документов служат поисковые роботы, сканирующие веб-пространство. Последовательно посещая сайты, роботы заносят хранящуюся на них информацию в базу данных. Поиск информации может осуществляться только по имеющимся на поисковом сервере (т.е. проиндексированным поисковым рооботом) документам. Недостатки этой технологии очевидны. Во-первых, из-за постоянно растущего числа веб-сайтов роботы просто-напросто не успевают оперативно заносить новые страницы в базу данных. По некоторым исследованиям, от момента подключения сайта к поисковой системе до его индексации, может пройти полгода. Во-вторых, уже проиндексированные сайты могут успеть многократно поменять свое содержание, прежде чем на них снова “обратит свое внимание” поисковый робот. А динамические страницы просто не поддаются индексации существующих поисковых машин. В итоге в результатах поиска зачастую оказывается много “мертвых” и неактуальных ссылок, что значительно замедляет процесс получения нужной информации (особенно если учесть, чтона многие запросы поисковые системы выдают сотни ссылок).

Поисковая система InfraSearch лишена описанных недостатков. Процесс поиска выглядит следующим образом: получив запрос от пользователя, система рассылает его своим агентам на проиндексированных сайтах, а те отвечают, есть ли в настоящий момент на их страницах информация, соответствующая запросу. Таким образом пользователь получает только актуальную информацию, а кроме того, ему становится доступен поиск по динамическим страницам. Надо сказать, что применение Gnutella в качестве поискового движка является вполне логичным, ведь, по сути, именно для этого ее и создавали (а не только для обмена пиратскими МР3 файлами).

Пока новый поисковик действует в тестовом режиме. Проиндексированы на данный момент всего несколько сайтов — MoreOver, Yahoo!Finance, Online PhotoLab, WeGo и GNU. Проект InfraSearch пока является некоммерческим, но думается, что в скором времени ситуация изменится, и новая поисковая система заработает в полную силу.