Невидимый Интернет(фрагмент книги Ющука Евгения Леонидовича «Интернет-разведка. Руководство к действию») Переход на сайт Невидимый Интернет >> Феномен Невидимого Интернета и принципы работы с ним детально описаны в лучшей, на наш взгляд, книге Криса Шермана и Гэри Прайса «Невидимый Интернет» (Chris Sherman & Gary Price «The Invisible Web».) Причины существования Невидимого ИнтернетаНевидимый Интернет существует в силу целого ряда причин, среди которых – причины как технического, так и организационного характера. Вот что говорят о Невидимом Интернете и причинах его существования Крис Шерман и Гэри Прайс: 1. Большинство страниц невидимого Интернета могут быть проиндексированы технически, но не индексируются, потому что поисковые системы решили их не индексировать. Это очень важный момент для невидимого Интернета – что поисковики просто решили исключить из индексации страницы определенного содержания. Мы не говорим о страницах со «взрослым» содержанием или спамерских сайтах, вовсе наоборот. Большинство «невидимых» сайтов имеют высококачественный контент. Просто эти ресурсы не могут быть найдены с помощью поисковых машин общего назначения, т.к. они были заблокированы. Есть много причин, почему так происходит. Если поисковик изменит свою политику по отношению к страницам подобного рода, то эти страницы станут частью видимого Интернета. 2. Довольно легко классифицировать сайты как часть видимого или невидимого Интернета, если посмотреть на то, каким образом они работают. Некоторые сайты используют технологию баз данных, что действительно сложно сделать поисковой машине. Это действительно невидимый Интернет. Другие сайты, однако, используют сочетание файлов, которые содержат текст и которые содержат мультимедиа, а поэтому часть из них может быть проиндексирована, а часть – нет. Такие сайты нельзя отнести четко к видимой или к невидимой части Интернета. 3. Некоторые сайты могут быть проиндексированы поисковыми машинами, но это не делается потому, что поисковые машины считают это непрактичным – например, по причине стоимости или потому, что данные настолько короткоживущие, что индексировать их просто бессмысленно – например, прогноз погоды, точное время прибытия конкретного самолета, совершившего посадку в аэропорту и т.п.» Мы рассмотрим каждую из основных причин существования Невидимого Интернета более подробно. Ограничения возможностей поисковых машин. 1. Физические ограничения скорости. Поисковые машины имеют физические ограничения по скорости поиска новых страниц. Ежесекундно идет негласное соревнование: в Интернете появляются новые страницы, а поисковые машины наращивают свою мощь. Кроме добавления новых страниц, в Интернете происходят еще и исчезновение старых, а также внесение изменений в содержимое существующих, что также оттягивает на себя часть ресурсов поисковых машин. В этой постоянной гонке Интернет выигрывает у поисковых машин с большим перевесом. 2. Поиск информации – мероприятие довольно дорогостоящее. Содержание серверов, рассылка пауков по Интернету, индексация, исключение сдвоенной информации – это всё довольно дорогое удовольствие. Понимая, что проиндексировать все документы в Интернете все равно не удастся, а затраты надо приводить в соответствие с доходами, владельцы поисковых машин вводят собственные ограничения в работе своих систем. Например, ограничивают глубину проникновения паука на сайте, общее количество страниц в индексе, пропускают старые страницы, на которые никто никогда не ходит. Или ограничивают частоту повторных посещений сайта пауком, в результате чего часть страниц устаревает. 3. Принцип попадания страниц в индекс при помощи пауков. Паук попадает только на те страницы, на которые есть ссылки с других страниц, либо которые внесены в очередь на индексирование вручную – путем заполнения формы «Добавить страницу» (“Add URL”). Соответственно, если на страницу никто не ссылался, и никто о ней не сообщал поисковой системе вручную, то такая страница не будет проиндексирована. 4. Необычные слова на странице, интересующей пользователя. Страница, которая нужна пользователю, может содержать слова, иные, чем пользователь обычно вводит в поисковую строку. В результате, пользователь, не обладающий достаточно высокой квалификацией в поиске информации в Интернете, не может найти нужную страницу с помощью поисковой машины. 5. Предпочтение поисковой машиной быстроты поиска, а не его глубины. Выбор между «максимально быстро» и «максимально полно» существует в любой отрасли, связанной с получением и обработкой информации. Поисковая машина обычно сориентирована владельцами на наиболее быстрое получение результатов, пусть даже в ущерб полноте. Поэтому некоторые страницы, индексирование которых трудоемко, остаются за пределами базы данных, попадающей на сервер поисковой машины. Хотя бывают исключения из этого правила. Существуют специализированные поисковые машины, которые ищут информацию именно глубоко, а не быстро. Но они при этом «ходят» на тематические сайты. Примером такой специализированной поисковой машины может служить, по информации Гэри Прайса LawCrawler(http://lawcrawler.lp.findlaw.com/ ) или Politicalinformation.com (http://www.politicalinformation.com). 6. Ориентация поисковых машин на поиск текстов в разных вариантах. Поисковые машины исторически были сориентированы на поиск текстов. Сначала – текстов, представленных в формате HTML, затем стали добавляться и другие форматы – например, Word (.doc), Adobe Acrobat (.pdf), Flash.
Типы контента в Невидимом Интернете.Разные типы контента по разным причинам могут стать частью невидимого Интернета. 1. Быстрое устаревание или изменение информации. Некоторые виды информации устаревают или меняются столь стремительно, что пауки не в состоянии ее проиндексировать своевременно. При этом часто владельцы поисковых машин вообще не пускают пауков на такие страницы, дабы не тратить ресурсы на бесполезное занятие. 2. Страница состоит преимущественно из документов в таких форматах, которые не поддерживаются поисковыми машинами. Например, страница содержит только изображение.
3. Содержимое страницы генерируется по запросу . Примером такой страницы может быть расчет цены автомобиля, в зависимости от комплектации и материала отделки салона. Для получения такой страницы пользователь пошагово заполняет формы на сайте, и конечный результат каждый раз формируется заново. Содержимое такой страницы не может быть проиндексировано по той простой причине, что без запроса страницы не существует, а заполнять формы паук не умеет. 4. Содержимое баз данных. Результат из базы данных появляется тоже только после ввода определенного запроса в форму обращения к базе данных. Паук, как и в предыдущем случае, не может ни заполнить форму запроса, ни проиндексировать содержимое самой базы данных. 5. Страница не вводилась в форму добавления сайта и при этом на нее не ведут никакие ссылки. Паук никаким образом не может узнать о существовании подобной страницы, поэтому ее не посещает. Автор: Ющук Евгений Леонидович Переход на сайт Невидимый Интернет >> |
На главную страницу компании Ющука Евгения Леонидовича ООО «Маркетинг рисков и возможностей.»
ПРИМЕРЫ РАССЛЕДОВАНИЙ ПО ОТКРЫТЫМ ИСТОЧНИКАМ, КОТОРЫЕ ВЫПОЛНИЛ ЕВГЕНИЙ ЮЩУК
————————————————
————————————————
————————————————
————————————————
————————————————
————————————————
————————————————
————————————————
————————————————
————————————————
————————————————
————————————————
————————————————
————————————————
————————————————
————————————————
————————————————
* «Правый сектор» — организация, запрещенная в России по решению Верховного суда
ХОТИТЕ УЗНАТЬ, ЭФФЕКТИВНЫ ЛИ МЕТОДЫ РАБОТЫ ЕВГЕНИЯ ЮЩУКА?
ПОСМОТРИТЕ МНЕНИЕ ГЕНПРОКУРАТУРЫ РФ:
(подробнее — здесь)
ИЛИ
ОБРАТИТЕ ВНИМАНИЕ НА ЭТОТ ФАКТ:
ИЛИ
ОЗНАКОМЬТЕСЬ С ЭТИМ КЕЙСОМ:
ИЛИ
ПОСЛУШАЙТЕ ОТЗЫВЫ НАШИХ ПРОТИВНИКОВ:
(подробнее — здесь)