Еще из раздела ↓
12 июля, 10:03
Гибкий IPhone уже близко 01 апреля, 11:45
Google «закрыл» YouTube на десять лет 15 января, 11:15
«Лаборатория Касперского» раскрыла международную шпионскую сеть 14 января, 12:29
Интернет-активист Аарон Шварц покончил с собой 16 ноября, 14:38
Facebook запустила приложение по поиску работы |
Поисковик Google проиндексировал 1 триллион веб-страниц![]() В компании Google сообщили, что интернет-поисковик Google.com успешно проиндексировал триллионную по счету веб-страницу. В официальном блоге компании говорится, что поисковик ведет создание индекса уже 10 лет — с августа 1998 года. До конца 1998 года в поисковом индексе Google.com насчитывалось уже 26 млн страниц. В 2000 году был проиндексирован первый миллиард страниц. «За последние 8 лет интернет значительно вырос и увеличились объемы данных в поисковом сервисе», — говорит Джесси Алперт, программный инженер Google. В компании говорят, что поисковик уже давно научился отыскивать и удалять из индекса дубликаты страниц и страницы с разными адресами. «Старт работы по индексированию начался с того, что поисковый робот начал запоминать содержимое страниц и следовать по гиперссылкам, присутствующими на данных страницах. Система постоянно следует по ссылкам, переходя с сайта на сайт и запоминая содержимое уже изученных страниц. В реальности Google.com проиндексировал уже более триллиона страниц, однако далеко не все из них являются уникальными автономными страницами. Многие из них имеют по несколько адресов, другие являются автокопиями друг друга», пишет в официальном блоге компании Ниссан Хаджай, один из разработчиков поисковой системы. Инженеры Google говорят, что поисковик для того, чтобы избежать безконтрольного разбухания поискового индекса должен обладать изрядной долей интеллекта и отличать автоматически генерируемые страницы от настоящего пользовательского контента. «Например многие онлайновые календари, работающие в интернете, имеют ссылку »следующий день«, нажав на которую можно начать планирование на предстоящий день, однако парадокс состоит в том, что продвигаться по данной ссылке, каждый раз нажимая »следующий день« можно до бесконечности. Потому реальный размер интернета с точки зрения поисковой системы зависит только от того, насколько строги параметры индексирования робота и насколько он способен распознать степень полезности той или иной страницы», — говорят в Google. Ранее в Google использовалась так называемая узловая система работы с веб-данными. Так один компьютер мог обсчитать граф информации для PageRank из 26 млн страниц за пару часов и эта информация использовалась в качестве индекса на протяжении жестко указанного периода времени. В случае с Google.com этот временной промежуток составлял пару дней. Сегодня, как рассказывают в компании, пополнение веб-данных не останавливается ни на секунду, а благодаря распределенной системе обсчета данных и оперативному обновлению информации весь поисковый индекс ранжируется заново по несколько раз в сутки. «Такой граф из триллиона страниц можно сравнить с разветвленной системой дорог, каждая из которых по триллиону раз пересекается с другой. Подобная система соотношения »многие ко многим« позволяет максимально быстро изучать петабайты данных», — пишет в блоге компании Джесси Алперт. |
ПОСЛЕДНИЕ НОВОСТИ
10 января, 09:38 // Кыргызстан
Абдилатиф Жумабаев: Экстремизм в Кыргызстане достиг красной линии (1 комментарий) 10 января, 09:35 // Кыргызстан
Кыргызстан установил квоту для трудовых мигрантов на 2014 год (1 комментарий) 09 января, 14:31 // Кыргызстан
Кубанычбек Кулматов стал единственным официальным кандидатом на пост мэра столицы 09 января, 09:57 // Кыргызстан
Кыргызстан будет покупать газ у Узбекистана по 290 долларов за 1 тысячу кубов 08 января, 13:10 // Кыргызстан
Экс-директор Русского театра драмы Борис Воробьев приговорен к 7 годам лишения свободы (1 комментарий) |
© Информационно-аналитический портал «PR.kg», 2025 г.
Редакция не несет ответственности за достоверность информации, опубликованной в рекламных объявлениях. При полном или частичном использовании материалов сайта в сети Интернет и СМИ ссылка на сайт «www.pr.kg» обязательна. По вопросам размещения рекламы и рекламного сотрудничество обращаться: Телефоны редакции: (312) 34-34-11, 34-34-27 |