Из кучки процессоров иогромной кучи дисков. В дисковый массив серьёзной поисковой системы может входить несколько десятков тысяч дисковвых накопителей.
Сам же принцип работы такой системы достаточно прост: это обычная индексация. Для каждого слова языка составляется своя "картотека" - на каких сайтах это слово встретилось. Для составления такой картотеки поисковая система непрерывно шерстит весь интернет, все доступные и интересные ей сайты и страницы (индексируемые страницы). И дальше при получении запроса на поиск система выдаёт список страниц, которые входят в "карточки" всех слов запроса. При этом могут учитывать и другие факторы - например, "расстояние" между словами запроса в найденной фразе. Если это расстояние большое, то фраза, скорее всего, отношения к запросу не имеет. Скажем, для поиска по фразе "в лесу родилась ёлочка" расстояние между словам "лес", "родиться", "ель" очень близкое, а вот во фразе "В подмосковном лесу, среди сосен и елей, открылся новый родильный дом, и сегодня там родилась первая девочка" - большое, и вряд и это то, что на самом деле искали (Яндекс это расстояние учитывает, а вот Гугл - нет).
Это, конечно, сильно упрощённая картина, но принцип примерно такой.
Добавить комментарий