До чего же доходит спам реклама.

Янв 30
2010

До чего же доходит спам реклама… можно такое прочитать.

Конечно правильная реклама всегда большое благо для человека. Как говорится – реклама двигатель прогресса, но когда в письме к тебе приходит история о бедном космонавте, застрявшем на орбите, ибо нету денег его забрать и родители просят денег, чтобы этого бедного бедолагу сняли с орбиты… и ты читая это, плачешь горькими слезьми, ибо такой качественной рекламы или спама ты давным давно не видел… – вот это я называю креативом, вот в этом чувствуется дух новшества.

Конечно есть еще и более креативный спам и креативная реклама всего что угодно, но думаю, рекорды всех побила реклама в метро, где на этих ручках, за которые держишься написано рекламное объявление.

Так, что нужно не отставать от этого – будущее за качественной рекламой.

Есть ли нормальные методы анализа данных?

Янв 23
2010

Как было сказано выше, точных методов анализа и структуризации данных разнообразного информационного характера, как таких – нет. Есть только гибкие методы, которые в конце-концов сводятся к вмешательству человека.

Это можно показать на примере ранжировки страниц в Интернете: пользователь ищет некоторые материалы, система предлагает ему на страницы, которые по текстовым критерием признаются наиболее релевантными (Релевантность – критерий соответствия между тем, которые ожидают и тем что предоставляется). Если пользователь пересматривает материалы и они его не устроили – он переходит к следящей странице или файлу, так пока он не найдет то, что искал.

Система в свою очередь мониторить и анализирует действия пользователя, при этом включая в ранжировку новые критерии и делая поиск более релевантным.  Сложность заключается в том, чтоб «научить» поисковую систему знать, что именно ищет человек. То есть модифицированный метод сводится к уменьшению вмешательства человека в работу системы.

SEO – как часть глобальной структуризации информации

Янв 23
2010

Информация в Интернете находится на так называемых Интернет страницах. Интернет страница несколько подобна файлу на компьютере – отличие складывается в том, что этот «файл» находится на отдаленном сервере, и в том, что он может быть составленным из многих (временами тысяч) вторых файлов разного информационного назначения. Чтобы не потеряться в огромном количестве файлов и страниц создают поисковую систему.

Поисковая машина создает глобальные каталоги информации, которая находится Интернете. Сам принцип каталогов постоянно изменяется. Так, например, поисковая система Google изменяет свои алгоритмы раз в 2-3 месяца.  Основой каталогування информации из Интернета представляется ряд факторов. Рассмотрим основные из них, так как поисковые системы имеют наиболее тесную связь с нашей темой.

Сначала поисковая система сканирует все доступные для нее данные в Интернете – это могут быть просто Интернет страницы, написанные языком HTML или PHP с примесями вторых языков. Сканирование проводится пауком (См. Рис.5.2.1.) Могут быть непосредственно файлы на серверах. Система учитываю большое количество факторов при сканировании:

1.         Имена всех файлов

2.         Имена всех страниц (страницы сайтов)

3.         Структуру файлов и страниц

4.         Перелинковку страниц между собой и между внешними страницами

5.         Геотаргетинг Интернет страниц и серверов, на которых они находятся

После первого прохождения, система собирает весь доступный для нее текст – информацию только в текстовом формате. На нужно обратить особенное внимание, так как Интернет страницы и файлы информации содержат огромное количество так называемой дополнительной информации (разметки страниц, дополнительных кодов и скриптов, для реализации ризноматиних действий).

Далее по каждом файле система формирует так называемое симантичне ядро – выбирает все слова которые туда входяить, создает многомерные таблицы – в которых находятся слова, и количество их вхождений. После этого идет процесс ранжировки слов, например, если страница посвящена изучению проблем глобального потепления, то логично допустить, что в файле, или на Интернет странице будут включаться такие слова как «потепление», «глобальное» и разнообразные их производные.

В силу сложности языковых средств человека – системе придется хранить в таблицах огромное количество подобранных при сканировании данних.[3] Дальше, чем больше слов и словосочетаний «глобальное потепление» встречается на странице – тем высший ранг страницы при поиске. Получаем, что системе нужно хранить еще и ранг для каждого слова и словосочетания – это еще увеличивает объем информации, которую нужно хранить.

Прибавим, что поисковая система последних 2 года делает полную копию всего Интернета – колоссальное количество информации.

После ранжировки непосредственно с помощью текстового анализа идет дополнительный анализ, так как система не может распознать изображение, видеоинформацию, информацию в специальных файлах – все что она может знать, относительно такого типа информации – это имя файла, в котором она хранится. Имя может дать только приближений смысл того, что там хранится, а часто файлы имеют бессодержательное имя – в таком случае определить, что именно несет файл – невозможно.

Для этого поисковая система использует дополнительные данные – именно текущую тематику страницы, на которой находится файл. Например на сайте Глобального Потепления мы более скорого всего найдем фотографии Земли, а не мобильных телефонов. Поэтому формируются дополнительные критерии поиска. Рассмотрим их более детально.  Дополнительные критерии:

1.         Направленность и тематика страницы

2.         Дополнительные описания страницы и файла (если поддерживается системой)

Наиболее роз распространенные приемы структурирования информации

Янв 23
2010

Точно так как в библиотеке – чтоб найти нужную книжку, нужно пройти всю необходимую иерархию каталогов, при этом делать поиск и анализ в каждом – для этого тратится драгоценное время – точно так поиск выполняется на компьютере.  Рассмотрим детально весь процесс. Если мы точно знаем, какая информация нам нужная – мы идем в каталог к нужному файлу, в котором находится информация, которая нас интересует. Для этого в процесс включается большое количество под процессов – файловая система должна найти дескрипторы описания данного файла, карту фрагментации файла, потом предоставить доступ аппаратным частям, чтобы считать информацию.

При переходе из каталога в каталог выполняется функция поиска дескрипторов каталога (также содержат информацию обо всех файлах).  Это идеальный вариант, если структура на нашем носителе хорошо структурирована и мы можем сразу непосредственно, через иерархию каталогов перейти к файлу, который нас интересует. Если же нам нужно найти файл, а часто – просто информацию (мы не знаем в котором она файле), мы делаем запрос на поиск информации – и дальше идет перебор по каталогам как в обычной библиотеке.

Несмотря на мощность компьютеров – очень важно найти нужную информацию. Это касается того, что важно определить параметры поиска, – можно задать только маленький набор параметров из возможных. Это может быть информация о файле – его имени, дате создания, атрибутах. Но атрибуты и информация о файле дают очень мало свидетельств для поиска нужной информации. Грубо говоря – мы не знаем, что точно находит в файле и можем это узнать, только непосредственно открыв его. Немножко лучше с поиском информации с помощью Интернета. Интернет разработал специальные методы анализа и поиска информации, ее классификации, и сохранении.  Но все равно они основаны на иерархическом принципе.

Анализ существующих методов решения задачи структурированния информации

Янв 23
2010

Вся схема анализа информации была заимствована в библиотеке. Раньше основным носителем информации была книга. Так как книга вмещает достаточно не большой объем  информации (порядка одного мегабайту текстовой информации, для сравнения мной были проведенные расчеты, к «Библия» вмещает не больше 2 мегабайт информации в формате текста) – было легко категоризувати книги по их содержанию, автору, дате создания, издательством, городом и дополнительными реквизитами.

Дальше, в соответствии с выбранным критерием, их классифицировали за каталогами, а каталоги в свою очередь тоже за каталогами каталогов, создавая таким образом иерархическую информационную пирамиду. Точно так же информацию классифицировали в комп’юрному мире – создавали информационные единицы – файлы, а затем их об’еднували в папки (каталоги), каталоги в логические тома, тома в первичные накопители (жесткие диски), накопители в собрание такие.

Основным критериям в компьютерном мире представляется скорость доступа к информации – это может быть доступ к информации на носителю информации, такому я жесткий диск, или флешь и СД, накопитель, или же доступ, к информации за помощью Интернет технологий – по локальной или глобальной сетях.

Проблема работы с большим количеством информации

Янв 23
2010

Характеристика, которая влияет на тяжесть обработки информации, – комплексная характеристика, которая состоит из следующих велечин:

1.         Степень легкости получения информации

2.         Степень легкости  обработки информации

3.         Степень легкости анализа манипуляций над информацией.

К объектам исследования также относятся методы обработки информации, так как именно их мы хотим по возможности модернизировать и оптимизировать. В настоящий момент также важным фактором при работе с информацией является скорость доступа. Логично, что чем большая скорость, тем более информации мы можем получить и чем больше информации мы получим тем более точные расчеты (выводы) сможем сделать.

Исследования информации

Янв 23
2010

Цель данной статьи заключается в выявлении, исследовании и синтезе существующих методов анализа, сравнению и структуризации любой информации. Также одной из основных заданий работы можно считать разработку нового, или модернизацию старого метода организации информации с последующим ее обрабатыванием. Так как информация кое-что абстрактное понятие, будем кое-что упрощать и обрезать ее широкое определение. В наше время информации присутствуют следующие характеристики (которые я выделил из наиболее распространенны):

1.         Актуальность

2.         Ценность

3.         Достоверность

4.         Скорость доступа

5.         Объем

6.         Тяжесть восприятия (адаптивность обработки)

Мы будем опираться на три последних фактора и исследовать их. То есть объектом исследования является объем информации и ее легкость или тяжесть анализа.  Чему именно эти два фактора – потому, что на данный момент информацию пробуют унифицировать и подогнать под единственный стандарт – а этому способствуют информационные технологии. Главные информационные глобальные технологии – Интернет, и компьютеры, как такие.

То есть информация унифицируется для обработки на компьютере и передаче или размещении с помощью Интернет-технологий. Главным критерием, который не имеет никакой размытости в определениях, является объем информации – величина фиксированная и однозначная.

Основы информационного сортирования данных

Янв 23
2010

В наше время мир переполнен информацией. Наша эпоха – эпоха информации. Чтобы можно было быстро добраться к нужной информации, общество создало такие средства как Интернет, базы данных и огромное многообразие накопителей данных.   Информация, которую нам нужно найти, должна быть структурирована – то есть разбитая на некоторые категории и под категории. Метод категоризации был и является основным методом классификации, анализа и сохранения информации. Но, точно так как в библиотеке чем больше книг, тем тяжелее найти нужную книгу, случается тяжесть ее поиска. Иерархическая структура поиска информации  долго господствовала среди науки, но с увеличением ее количества, такая система сохранения и переработки информации устарела, и нуждается в новом подходе к ее структуризации и анализу. Именно методам анализа и структуризации информации посвящается данная статья.

Мне повезет

Янв 15
2010

Видели при поиске в Google кнопочку «мне повезет» – интерескно сколько людей на эту кнопку клацали?

G