ГлавнаяНовостиГазетаRSS

Информационно-аналитический портал «PR.kg»
20 сентября 2018, 15:14

← вчерасегодня ↓

интернет газета интим знакомств
Еще из раздела ↓
12 июля, 10:03
Гибкий IPhone уже близко
01 апреля, 11:45
Google «закрыл» YouTube на десять лет
15 января, 11:15
«Лаборатория Касперского» раскрыла международную шпионскую сеть
14 января, 12:29
Интернет-активист Аарон Шварц покончил с собой
16 ноября, 14:38
Facebook запустила приложение по поиску работы

Поисковик Google проиндексировал 1 триллион веб-страниц

В компании Google сообщили, что интернет-поисковик Google.com успешно проиндексировал триллионную по счету веб-страницу. В официальном блоге компании говорится, что поисковик ведет создание индекса уже 10 лет — с августа 1998 года.

До конца 1998 года в поисковом индексе Google.com насчитывалось уже 26 млн страниц. В 2000 году был проиндексирован первый миллиард страниц. «За последние 8 лет интернет значительно вырос и увеличились объемы данных в поисковом сервисе», — говорит Джесси Алперт, программный инженер Google.

В компании говорят, что поисковик уже давно научился отыскивать и удалять из индекса дубликаты страниц и страницы с разными адресами. «Старт работы по индексированию начался с того, что поисковый робот начал запоминать содержимое страниц и следовать по гиперссылкам, присутствующими на данных страницах. Система постоянно следует по ссылкам, переходя с сайта на сайт и запоминая содержимое уже изученных страниц. В реальности Google.com проиндексировал уже более триллиона страниц, однако далеко не все из них являются уникальными автономными страницами. Многие из них имеют по несколько адресов, другие являются автокопиями друг друга», пишет в официальном блоге компании Ниссан Хаджай, один из разработчиков поисковой системы.

Инженеры Google говорят, что поисковик для того, чтобы избежать безконтрольного разбухания поискового индекса должен обладать изрядной долей интеллекта и отличать автоматически генерируемые страницы от настоящего пользовательского контента.

«Например многие онлайновые календари, работающие в интернете, имеют ссылку »следующий день«, нажав на которую можно начать планирование на предстоящий день, однако парадокс состоит в том, что продвигаться по данной ссылке, каждый раз нажимая »следующий день« можно до бесконечности. Потому реальный размер интернета с точки зрения поисковой системы зависит только от того, насколько строги параметры индексирования робота и насколько он способен распознать степень полезности той или иной страницы», — говорят в Google.

Ранее в Google использовалась так называемая узловая система работы с веб-данными. Так один компьютер мог обсчитать граф информации для PageRank из 26 млн страниц за пару часов и эта информация использовалась в качестве индекса на протяжении жестко указанного периода времени. В случае с Google.com этот временной промежуток составлял пару дней.

Сегодня, как рассказывают в компании, пополнение веб-данных не останавливается ни на секунду, а благодаря распределенной системе обсчета данных и оперативному обновлению информации весь поисковый индекс ранжируется заново по несколько раз в сутки.

«Такой граф из триллиона страниц можно сравнить с разветвленной системой дорог, каждая из которых по триллиону раз пересекается с другой. Подобная система соотношения »многие ко многим« позволяет максимально быстро изучать петабайты данных», — пишет в блоге компании Джесси Алперт.

Новый комментарий

Я хочу


Введите символы на картинке:

Пожалуйста, ознакомьтесь с правилами добавления комментариев.
Комментировать
ПОСЛЕДНИЕ НОВОСТИ
10 января, 09:30 // Кыргызстан
Определены новые тарифы на растаможку автомобилей и микроавтобусов
(2 комментария)
09 января, 09:57 // Кыргызстан
Кыргызстан будет покупать газ у Узбекистана по 290 долларов за 1 тысячу кубов
(3 комментария)
08 января, 13:10 // Кыргызстан
Экс-директор Русского театра драмы Борис Воробьев приговорен к 7 годам лишения свободы
(3 комментария)
eXTReMe Tracker
© Информационно-аналитический портал «PR.kg», 2018 г.
Редакция не несет ответственности за достоверность информации, опубликованной в рекламных объявлениях.
При полном или частичном использовании материалов сайта в сети Интернет и СМИ ссылка на сайт «www.pr.kg» обязательна.
По вопросам размещения рекламы и рекламного сотрудничество обращаться:
Телефоны редакции: (312) 34-34-11, 34-34-27
Администратор сайта: (312) 39-20-02
Факс: (312) 34-34-75
Электронная почта: or@pr.kg
Старая версия, Текстовая версия новостей