O Google acidentalmente publicou um conjunto de documentos técnicos internos no GitHub, detalhando parcialmente como o mecanismo de busca classifica páginas da web. Eles revelam que a companhia se contradiz em alguns pontos quando se trata de ranking de buscas.
Leia mais
O Google confirmou a autenticidade dos documentos. No entanto, chamou a atenção para os interessados no conteúdo não tirarem informações equivocadas sobre informações que podem estar fora de contexto ou que não se encaixam para a realidade atual.
“Nós aconselhamos a não fazer suposições imprecisas sobre o Search com base em informações fora de contexto, desatualizadas ou incompletas. Compartilhamos extensas informações sobre como o Search funciona e os tipos de fatores que nossos sistemas consideram, ao mesmo tempo que trabalhamos para proteger a integridade de nossos resultados contra manipulação”, disse o Google ao The Verge.
Apesar da natureza sensível dos documentos, eles foram tecnicamente liberados pelo Google sob a licença Apache 2.0. Isso significa que qualquer pessoa que encontrou os documentos recebeu uma “licença de copyright perpétua, mundial, não-exclusiva, sem custo, livre de royalties, irrevogável”.
A documentação vazada inclui uma grande quantidade de informações sobre a API do “ContentWarehouse” do Google, que parece se referir ao índice de busca. Mike King, um especialista em SEO, escreveu que há “2.596 módulos representados na documentação da API com 14.014 atributos (características)”.
Esses documentos são escritos por programadores para programadores, exigindo um conhecimento profundo que provavelmente só se tem trabalhando na equipe de busca do Google. Contudo, a comunidade de SEO ainda está analisando os documentos para construir suposições sobre como o Google Search funciona.
Tanto Rand Fishkin quanto Mike King, especialistas em SEO, acusam o Google de “mentir” para os profissionais de SEO no passado. Assim, uma das revelações dos documentos é que a taxa de cliques de um resultado de busca afeta seu ranking, algo que o Google negou várias vezes.
O sistema de rastreamento de cliques é chamado de “Navboost”, que impulsiona sites para os quais os usuários navegam. Dessa forma, grande parte desses dados de cliques vem do Chrome, mesmo quando o usuário sai da busca.
Além disso, os documentos sugerem que o Google possui listas brancas que artificialmente impulsionam certos sites para determinados tópicos. Dois exemplos mencionados foram “isElectionAuthority” e “isCovidLocalAuthority”.
A documentação vazada confirma práticas esperadas de um mecanismo de busca. Os sites possuem um valor de “SiteAuthority” que classifica sites bem conhecidos acima dos menos conhecidos. Autores também têm suas próprias classificações, mas é impreciso saber exatamente como todos esses fatores interagem.
Fonte: Arstechnica