Sunday, August 9, 2009

Секрет популярности поисковика Bing

Несколько дней назад вывел на экран лог файл одного из своих сайтов, смотрел на логи и наблюдал кто, откуда и куда ходит. Заметил интересную штуку, которой я решил поделиться после прослушивания подкаста Radio-T потому что там упомянули про популярность бинга. Этот поисковик от Microsoft якобы набрал почти 10%.

Как говорится в статье на компуленте, бинг обработал 9.4% поисковых запросов сделаных с территории США. Никто кроме самого микрософта не может определить обрабатывал ли бинг столько запросов, поэтому скорее всего речь идет о преходах от Bing на сайты.

Как вообще эти статистические компании определяют такие данные для меня всегда была закадка. Но технически сайт с которого приешел посетитель на другой сайт  определяется по заголовки. Т.е. это могут знать только на стороне бинга и на стороне сайта на который приходят посетители. Ну да ладно, пусть будет загадка. Кстати если кто-то знает как они это делают расскажите в комментариях.

Собственно в чем же секрет популярности? Так вот когда я просматривал логи заметил что резко появился трафик от бинга. Первые сомнительный мысли появилиь когда я попробовал загрузить страницу с которой перешел пользователь и не видел в выдаче и на соседних страницах моего сайта. На следующий день я не заметил в статистике сайта в Google Analytics этих переходов, т.е. бинга там вообще небыло. Заглянув в логи, отфильтровав строки в которых был бинг получил вот такие данные (строки с урлом куда ходит народ я удалил). Интересная штука в IP адресах. Вот информация по одному из них где видно что IP микрософтовского датацентра.

По логам можно сказать что якобы это бот индексирует контент. Нет! Потому что

  • есть отдельные запросы msn-бота

  • эти боты не дают referer заголовка

  • у бота который собирает контент для индексации специальный user-agent, здесь же он даже генерируется случайно

  • UPDATE: и самое главное, поисковый робот никогда не запрашивает статику (картинки, JS и CSS файлы), а этот запрашивает.

  • UPDATE: Все запросы идут из одной подсети - датацентра микрософт.


Так что вот мой прогноз рецепта популярности бинга. Снова M$ пытается надурить мир. Этот метод я уверен работает. Больше пишут о бинге (оо смотрите... бинг набирает обороты... круто!) и больше растет реальная аудитория. Интересно как дальше дела пойдут :)

7 comments:

vgabriel said...

Популярность поисковика определяется не количеством запросов с одних и тех же адресов - т.е. таким образом невозможно испортить ту статистику, о которой Вы говорите.

Я думаю, это скорее разные роботы разных поисковых систем просто к вам сходили.

Prudnikov Vladimir said...

Прочитав коммент понял что не добавил отдельным пунктом то, что IP адреса всех запросов из одной подсети, и все из датацентра Miscrosoft. Какие еще роботы могут ходить из датацентра микрософта? Гугл?
Второй момент - если вы когда-нибудь видели логи вебсервера, то наверное заметили бы что у поисковых роботов свои юзерагенты, и они никогда не запрашивают статику.

i_am_robin_hood said...

Картинки запрашивает - поиск данных по контенту, а не по тагам-тексту. Создает для каждой картинки описание на основе "умных алгоритмов" или типа того.

Prudnikov Vladimir said...

Еще раз, я не первый год вижу логи серверов, и не первый год вижу как поисковики индексируют контент, в том числе и индексаторы по картинкам. Ниразу не видел такого поведения. Роботы никогда не указывают рефер, всегда имеют User-Agent и не запрашивают статику включая JS и CSS.

bqlqcpqx said...
This post has been removed by a blog administrator.
Jame said...

это хитробот бинга, проверяет контент на клоакинг...

V.Prudnikov said...

2 Jame: Как вариант да, но зачем ему статика? Неужели научился выполнять JS, применять CSS и вставлять картинки?

Сейчас у меня нет того сайта, но насколько я помню его даже и в индексе бинга небыло.

Post a Comment