Алгоритмы поисковых систем: Матрикснет Яндекса
Яндекс с 2009 года использует при ранжировании сайтов систему машинного обучения, которая называется Матрикснет. Это позволяет поисковой системе учитывать очень много факторов при ранжировании сайтов.
Общий принцип работы Матрикснета
Специально обученные люди (асессоры) готовят для Матрикснета выборку вручную оцененных сайтов, а Матрикснет при помощи алгоритмов машинного обучения ищет в предоставленной выборке различные закономерности и применяет выявленные критерии оценки для формирования «мнения» обо всех остальных сайтах.
Например, на высоко оцененных асессорами сайтах наблюдается высокая скорость загрузки страниц и плотность ключевых слов достаточно средняя, а низкооцененные сайты работают медленно и содержат значительно более высокое количество вхождений ключевых слов. На основании этой информации Матрикснет будет ставить выше быстрые сайты со средней плотностью ключевых слов, а медленные сайты с плохими SEO-текстами окажутся далеко от первой десятки по большинству запросов.
Десятки тысяч факторов ранжирования
Яндекс очень много знает о сайтах: это и само содержание сайта (он знает и про структуру сайта, и про текстовое наполнение, про изображения и другой медийный контент, про частоту обновления информации), и характеристики его работы (скорость ответа сервера, наличие ошибок в верстке и в работе серверной части, скорость работы сайта в разных браузерах и на разных платформах), и про поведение аудитории на сайте (длительность и глубина просмотров, процент возвратов на сайт, количество отказов, а также ему доступны прочие подобные характеристики удовлетворенности аудитории), и внешние ссылки.
По информации Яндекса, Матрикснет использует формулу ранжирования с десятками тысяч различных коэффициентов, причём эта формула постоянно обновляется и улучшается, что позволяет добиться максимально точного поиска и снизить внешнее влияние на результаты поисковой выдачи. По сути, на основании поискового запроса пользователя к коллекции известных Яндексу сайтов применяется формула, составленная Матрикснетом, каждый сайт получает числовую оценку, характеризующую его соответствие поисковому запросу, после чего список сайтов упорядочивается по этой оценке и в его верхней части оказываются сайты, получившие максимальную оценку. В общем-то, поиск также работал и до Матрикснета, использовалось достаточно большое количество критериев, но Матрикснет позволил как увеличить число используемых факторов и сегментировать условия их учёта, так и автоматизировать сам процесс составления формулы ранжирования.
Ранжирование по тематике поисковых запросов
Матрикснет использует в своей работе тематическую классификацию: например, сайты про бухгалтерские услуги и сайты про рыбалку ранжируются на основании разных алгоритмов. Тоже самое касается и типа поискового запроса — если человек ищет товары и услуги, то ему показываются коммерческие сайты, если информацию — то порталы и энциклопедии, если новости — новостные сайты, список можно продолжить. Если же непонятно, что пользователь ищет: информацию или возможность что-то купить, то алгоритм выдаёт смесь информационных и коммерческих сайтов.
По сути, Яндекс определяет тематику поисковых запросов и на основании сделанных выводов применяет те или иные факторы ранжирования. Например, в конце 2013 года Яндекс заявил, что перестанет учитывать ссылочное ранжирование в коммерческих темах, а в марте 2014 уже фактически перестал учитывать внешние ссылки при ранжировании результатов поиска по коммерческим запросам. Именно Матрикснет дал Яндексу возможность отделить коммерческие запросы от некоммерческих и использовать для них различные формулы ранжирования.