Информация в Интернете находится на так называемых Интернет страницах. Интернет страница несколько подобна файлу на компьютере – отличие складывается в том, что этот «файл» находится на отдаленном сервере, и в том, что он может быть составленным из многих (временами тысяч) вторых файлов разного информационного назначения. Чтобы не потеряться в огромном количестве файлов и страниц создают поисковую систему.
Поисковая машина создает глобальные каталоги информации, которая находится Интернете. Сам принцип каталогов постоянно изменяется. Так, например, поисковая система Google изменяет свои алгоритмы раз в 2-3 месяца. Основой каталогування информации из Интернета представляется ряд факторов. Рассмотрим основные из них, так как поисковые системы имеют наиболее тесную связь с нашей темой.
Сначала поисковая система сканирует все доступные для нее данные в Интернете – это могут быть просто Интернет страницы, написанные языком HTML или PHP с примесями вторых языков. Сканирование проводится пауком (См. Рис.5.2.1.) Могут быть непосредственно файлы на серверах. Система учитываю большое количество факторов при сканировании:
1. Имена всех файлов
2. Имена всех страниц (страницы сайтов)
3. Структуру файлов и страниц
4. Перелинковку страниц между собой и между внешними страницами
5. Геотаргетинг Интернет страниц и серверов, на которых они находятся
После первого прохождения, система собирает весь доступный для нее текст – информацию только в текстовом формате. На нужно обратить особенное внимание, так как Интернет страницы и файлы информации содержат огромное количество так называемой дополнительной информации (разметки страниц, дополнительных кодов и скриптов, для реализации ризноматиних действий).
Далее по каждом файле система формирует так называемое симантичне ядро – выбирает все слова которые туда входяить, создает многомерные таблицы – в которых находятся слова, и количество их вхождений. После этого идет процесс ранжировки слов, например, если страница посвящена изучению проблем глобального потепления, то логично допустить, что в файле, или на Интернет странице будут включаться такие слова как «потепление», «глобальное» и разнообразные их производные.
В силу сложности языковых средств человека – системе придется хранить в таблицах огромное количество подобранных при сканировании данних.[3] Дальше, чем больше слов и словосочетаний «глобальное потепление» встречается на странице – тем высший ранг страницы при поиске. Получаем, что системе нужно хранить еще и ранг для каждого слова и словосочетания – это еще увеличивает объем информации, которую нужно хранить.
Прибавим, что поисковая система последних 2 года делает полную копию всего Интернета – колоссальное количество информации.
После ранжировки непосредственно с помощью текстового анализа идет дополнительный анализ, так как система не может распознать изображение, видеоинформацию, информацию в специальных файлах – все что она может знать, относительно такого типа информации – это имя файла, в котором она хранится. Имя может дать только приближений смысл того, что там хранится, а часто файлы имеют бессодержательное имя – в таком случае определить, что именно несет файл – невозможно.
Для этого поисковая система использует дополнительные данные – именно текущую тематику страницы, на которой находится файл. Например на сайте Глобального Потепления мы более скорого всего найдем фотографии Земли, а не мобильных телефонов. Поэтому формируются дополнительные критерии поиска. Рассмотрим их более детально. Дополнительные критерии:
1. Направленность и тематика страницы
2. Дополнительные описания страницы и файла (если поддерживается системой)
Comment