9.1. ТЕХНОЛОГИИ ПОИСКА ТЕМАТИЧЕСКОЙ (ПРОФЕССИОНАЛЬНОЙ) ИНФОРМАЦИИ В СЕТИ INTERNET
9.1.1. ПРИНЦИПЫ КОНТЕКСТНОГО ПОИСКА
В современном мире поток информации ежечасно увеличивается лавинообразно. Электронные версии нормативно-правовых документов, методических рекомендаций и указаний, последние номера профессиональных журналов стали доступны медицинским работникам в самых отдаленных регионах при наличии доступа к сети Интернет. Однако при кажущейся простоте получения информации ее качество и возможность использования в работе напрямую зависят от полноты и адекватности формулировки контекстного поиска.
Контекстный поиск - запрос информации в компьютерной системе с использованием набора ключевых слов. Существуют несколько видов поиска(рис. 9.1).
Для эффективного поиска современные алгоритмы заранее формируют полнотекстовый индекс словарь, в котором перечислены все слова и указано, в каких местах они встречаются. При наличии такого индекса достаточно осуществить поиск нужных слов в нем, и тогда сразу же будет получен список документов, в которых они встречаются. Технологии полнотекстового поиска, с использованием индексирования, широко применяют в современных поисковых системах сети Интернет.
Рис. 9.1. Классификация видов поиска
Поисковая система представляет программно-аппаратный комплекс с веб-интерфейсом (сайт, на котором размещен интерфейс системы). Программной частью поисковой системы служит поисковая машина (поисковый движок) - комплекс программ, который обеспечивает функциональность поисковой системы. Чаще всего структуру поискового движка считают коммерческой тайной компании - разработчика поисковой системы.
Индексирование в поисковых системах - процесс добавления сведений о сайте роботом поисковой машины в базу данных, впоследствии используемую для поиска информации на проиндексированных сайтах. Поисковый робот - программа, служащая составной частью поисковой системы и предназначенная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика. Поисковый робот анализирует содержимое страницы, сохраняет его в некотором специальном виде на сервере поисковой машины, которой принадлежит, и отправляется по ссылкам на следующие страницы. Владельцы поисковых машин нередко ограничивают глубину проникновения робота внутрь сайта и максимальный размер сканируемого текста. Именно поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной.