Quizá sea este el artículo más importante de todo el site, no es por desmerecer al resto, pero este artículo sobre Google y su viraje hacia ser un buscador semántico es sin duda el que más va a cambiar el posicionamiento web en los próximos cinco años.
A esto hay que unirle el profundo desconocimiento que hay del sector y, aunque los primeros pasos reales se dieron allá por el lejano año 2.013, es un tema complicado, muy complicado a nivel técnico, pero muy entendible a nivel usuario.
Precisamente me he querido centrar más en esta segunda parte en la realización de este contenido, porque lo que me importa realmente es que comprendas qué significa este nuevo movimiento hacia hacer un buscador más humano.
Para ello he preparado un artículo en el que te hablaré primero sobre qué es la web y el buscador semántico, para luego pasar a los algoritmos que existen en la actualidad que intentan llevar eso a cabo.
Por último, como no podía ser de otra manera, tendremos un bloque de conclusiones y próximos pasos porque, como irás viendo, es un segmento del buscador en el que aún hay mucho que investigar.
Sin más, comenzamos:
¿Qué es la web semántica?
En pocas palabras: A día de hoy, la web semántica es poco menos que una utopía, así de claro.
De hecho, quien te diga que hacen webs semánticas, simplemente te está engañando porque, a día de hoy, es imposible tener una web 100% de este estilo, más que nada porque no existe una tecnología capaz de llegar a ello.
Si tuviera que darte una definición corta y que pueda entender cualquier persona independientemente de su relación con Internet sería:
La web semántica se basa en mostrar una información personalizada a cada usuario que entra en ella.
Es decir, para tener una web semántica tienes que conocer a tu usuario al milímetro, realizar un montón de filtrados vía meta etiquetas y meta datos en general y luego montar una URL específica para él que sea comprensible.
Como acabas de pensar, ciencia ficción (a día de hoy).
¿Y qué es un buscador semántico?
Esto es algo más factible y, de hecho, Google lleva dando pasos hacia ello desde 2.013 sin descanso.
Ahora bien, tengo que decirte que todavía no lo ha conseguido.
Una vez más, hablando para todos los públicos una definición sería:
Un buscador semántico es aquel con el que puedes entablar una conversación y mostrarte resultados de búsqueda afines.
Un ejemplo práctico sería:
Imagina que quieres cambiarle las ruedas a tu coche y vives en Albacete. Si vas a un buscador clásico deberás introducir “cambiar ruedas Albacete”, y te dará unos resultados válidos.
Sin embargo, con un buscador semántico podrías escribir “dónde puedo cambiar las ruedas” y, fruto de la geolocalización y su comprensión del idioma te mostraría los mismos resultados.
Pero hay más, ya que para ser un buscador semántico debe conversar, imagina que los resultados son buenos pero buscas un taller barato.
En un buscador clásico deberías hacer una búsqueda del estilo a “taller coches Albacete barato”, sin embargo, en uno semántico podrías poner simplemente “que sea barato” y tendría que relacionar esa búsqueda con la anterior.
Tengo que decirte que esta parte está avanzada, no al 100%, pero ya hay ejemplos en la vida real de personas usando el buscador (sobre todo en Estados Unidos) pudiendo mantener este tipo de “micro-conversaciones” con Google, y funciona relativamente bien.
A continuación te voy a contar cuáles son los tres factores que está desarrollando Google para hacer que su buscador sea cada vez más semántico y, con ello, para obligarnos a todos a hacer webs que poco a poco se ajusten a sus estándares.
Google Hummingbird, la primera aproximación semántica
Corría agosto del ya lejano 2.013 cuando Google lanza su algoritmo Hummingbird (Colibrí en inglés).
Este nuevo algoritmo dio mucho que hablar y trajo muchas novedades, entre ellas que era el primer algoritmo de un animal de colores, después de Panda y Penguin, que son en blanco y negro.
Qué es Google Hummingbird
Google Hummingbird es, en pocas palabras, la primera piedra que puso Google para acercarse a un buscador semántico.
Como te conté en la intro, trae muchas novedades que, chorradas aparte, son estas:
- Es un algoritmo con más impacto de los que han salido, pero muy pocos notaron su impacto.
- Google dice que lo ha lanzado un mes después de hacerlo, y aun así nadie había sospechado nada.
- Es un algoritmo que no tiene penalizaciones, sólo bonificaciones.
- Por supuesto, es un algoritmo totalmente idiomático, es decir, necesita comprender un idioma a la perfección para poder lanzarlo en ese país en cuestión.
¿Cómo funciona Hummingbird?
Digamos que funciona en dos partes:
La primera es la parte de las webs de todo el mundo, y es la más sencilla: Aquí su funcionamiento se basa en la creación de meta etiquetas que se llamarán a la postre formatos enriquecidos o rich snippets con el que le damos datos al buscador que él puede comprender y categorizar.
Entre estos rich snippets están las famosas estrellitas de valoración, las imágenes en el buscador, precios y muchos más.
No te voy a engañar, en El Inicio De Los Tiempos™ hubo una competencia feroz entre Google, Facebook y algún contendiente más por imponer tu estándar de formatos enriquecidos, pero luego surgió Schema.org para poner paz a modo de repositorio universal.
A día de hoy, el que quiera hacer algo que mínimamente se acerque a ser semántico debe regirse por el etiquetado de Schema.org para que le entiendan el resto.
Esta parte, como te comentaba, es la sencilla, ya que se basa en etiquetar más y mejor contenido que creamos, pero luego viene la parte del buscador.
Google gracias a Hummingbird es capaz de llevarse esos formatos enriquecidos, indexarlos, comprenderlos, segmentarlos y dar, no ya palabras clave para las que se es relevante, sino más bien conceptos o grupos de palabras para los que se es relevante.
Y esto es un cambio gordo de verdad.
Esto fue sólo el primer paso, luego vino RankBrain…
¿Qué demonios es eso de RankBrain?
Rankbrain ve la luz un 26 de octubre de 2.015 y es otra revolución callada, ya que a pesar de que tiene mucho impacto en las búsquedas, no tiene tantísimo impacto a nivel penalización.
Si Hummingbird era el primer paso hacia la web semántica (y sigue evolucionando), RankBrain es el fruto de poner como peso pesado dentro de Google Search al departamento de IA.
Sí, RankBrain es el primer paso de Google como buscador hacia la inteligencia artificial, con todo lo que ello implica.
Por si no eres muy ducho en este tema, la principal característica de la IA como concepto es que el sistema entrena y aprende y, gracias a eso, su búsqueda a través de interrelación de palabras clave gracias a conceptos es muy buena, incluyendo no sólo idiomas, también jergas.
Sergio, estoy flipando, ¿cómo funciona RankBrain?
La forma clásica en la que un buscador te presenta los resultados es:
- Haces una búsqueda en Google.
- El buscador busca en su index la base de datos con la que cuadra tu búsqueda.
- Te presenta los resultados.
Todo esto es mucho más dinámico de lo que parece ya que aproximadamente el 20% de las búsquedas que se hacen en el buscador no se han hecho nunca antes, y ese proceso de indexado y posicionamiento es muy veloz.
Pero no tiene alma.
RankBrain lo que hace es:
- Haces una búsqueda en Google.
- El buscador va a ver el index y el ranking para la búsqueda que has hecho.
- También mira otras relacionadas.
- Mira interrelaciones y sigue buscando y mezclando.
- Te presenta un SERP distinto.
Un ejemplo práctico: A día de hoy si pones “Trump” en Google gracias a Rankbrain el buscador sabes que te refieres a “Donald Trump, Presidente de los Estados Unidos” y, con ello, puede ofrecerte más y mejor información al poder relacionarlo con otros conceptos según otras búsquedas tuyas y de otros usuarios.
Cremita fina.
¿En qué me afecta esto del Rank Brain?
En pocas palabras: En casi, casi todo.
Hace tiempo una URL posicionaba para unas cuantas palabras clave, siendo lo normal que no se pasara de tres pero, al tener esta nueva tecnología que se basa más en conceptos que en keywords y, por otro lado, al tener al usuario buscando más a nivel concepto y menos a nivel keyword, las reglas del juego han cambiado.
De hecho, he podido ver de primera mano URLs de blogs posicionar para varios miles de palabras clave distintas, obteniendo un tráfico de cientos de miles de visitas al mes.
Sí, has leído bien: Tráfico de miles de palabras clave distintas hacia una simple URL, todo esto gracias a las múltiples interrelaciones que hace el buscador con los distintos SERPs en las distintas palabras clave.
Si te paras a pensar, esto va muy de la mano con el consejo que siempre te doy: Intenta hacer contenidos largos, en profundidad y traten un tema al 100%.
Te digo siempre esto porque así tendrás opciones de posicionar por muchísimas más palabras clave y llevarte tráfico por ello, que al final es lo que cuenta, ¿verdad?
Un concepto muy interesante a nivel semántico: El LSI
Tengo una vena de profe muy marcada y por eso me gusta que cuando leas mis artículos comprendas realmente el tema en cuestión.
Para ello no me queda otra que introducirte en el fantabuloso mundo del LSI, del que te hablaré en las próximas líneas.
¿Qué es el LSI que me está sonando a chino?
LSI son las siglas en inglés de Latent Semantic Index o, lo que es lo mismo, Índice de Latencia Semántico (enlace a Wikipedia).
Seguramente esto no te diga absolutamente nada, así que voy a introducirme un poquito más en el tema.
Estas siglas son, por así decirlo, un desarrollo o variable estadística que pretende definir el peso de las distintas palabras de un texto.
Este trabajo no es baladí, que diría mi abuelo ya que, para otorgar distintos pesos a las distintas palabras según la importancia del texto, además de ser muy bueno, debes comprender un idioma al 100%.
Vamos, en pocas palabras: Yo para el castellano seguramente no sabría hacerlo bien del todo, así de claro.
Pues Google lo hace y, gracias a ello, puede definir no sólo pesos, también otras variables estadísticas con las que saca, por ejemplo:
- Cómo es de importante una palabra clave en un texto.
- Si estás sobre optimizando un texto o sección por encima de la “naturalidad”.
- Otros artículos relacionados de temas relacionados (y su coherencia en porcentaje con el primero).
Para esto hay que poner especial atención no a la escritura en sí mismo, también a sinónimos, antónimos, polisemias, jergas y palabras próximas.
Y todo esto en décimas de segundo.
¿Y esto del LSI es tan importante?
Pues sí, mucho más de lo que crees ya que, a día de hoy, es una de las piedras angulares en las que descansa Rank Brain.
De hecho, hay algún software por ahí que te permite medir el LSI y el concepto del que te voy a hablar más adelante para hacer tus textos más enriquecidos y, lo que es más importante: Para que tengas más opciones de posicionar.
Personalmente los he probado y tengo que decirte que funcionan, es decir, si clavas el LSI del que tiene tu competencia que ya está posicionando por encima de ti tienes bastantes más probabilidades de éxito para posicionar tú.
Bola extra: TF*IDF
Por último me gustaría contarte algo acerca del TF*IDF, que son las siglas en inglés para Term Frecuency * Inverse Document Frecuency, y, en castellano, Frecuencia de un término por la frecuencia inversa en el documento.
Así en pocas palabras lo que hace es multiplicar la frecuencia de un término por el cociente de dividir ese número entre el volumen total de palabras del documento.
Google lo utiliza para saber el peso de una palabra determinada en absoluto en un texto total, y sirve para apoyar el LSI, siempre comparándolo con otros documentos relacionados.
¿Cómo te quedas?
Como te habrás imaginado, si conjugas el LSI con este TF*IDF tendrás una aproximación matemática a lo que podríamos llamar «El texto perfecto» y, con ello, tendrás muchas más opciones de posicionar como es debido.
El buscador, la forma de buscar y todo el SEO en general cambia con su vertiente semántica
Como conclusión no está mal, ¿verdad? Pero, según lo veo, está más que claro.
Google está cambiando la manera en que buscamos, y tiende a que cada vez más hablemos con él (a veces literalmente, de hecho, una de las tendencias de búsqueda para 2.017 que más se repite es el crecimiento de las búsquedas de voz).
Esto lo que hace es que se difumine el concepto de “palabra clave”, y ahora haya que intentar posicionar más por conceptos o por segmentos de palabras clave, es decir, el head, middle y long tail se difuminan muchísimo.
Está claro que este sistema es progresivo ya que la inercia de mercado es muy grande y muchos seguimos buscando por palabra clave, pero eso es lo de menos, ya que Google está interrelacionando los contenidos y las cadenas de búsqueda (nota que no he puesto palabras clave).
Lo que está ocurriendo, por otro lado, es que hay URLs que están posicionando para cientos e incluso miles de palabras clave, es decir, que una sola pieza de contenido puede obtener tráfico de 3.000 palabras clave (o cadenas búsqueda) distintas sin que sea raro.
Todo esto es gracias precisamente a esta interrelación de relevancias, palabras clave, segmentos de mercado y muchas cosas más.
¿Y el futuro? ¿Qué pasará próximamente?
Es evidente que esta tendencia va a seguir por este camino y que cada vez el buscador será más y más semántico (de hecho, el nombramiento del jefe de la parte de Inteligencia Artificial como cabeza visible de Google Search dice mucho más que un titular, aquí tienes un enlace hacia Engadget), pero todavía estamos en los primeros estadios.
Quiero decir que, de aquí a cinco años no se parecerá demasiado la forma en que buscamos y con la que nos relacionamos con el buscador hoy en día, pero va a ser un cambio pausado, con sus idas y venidas a los que te debes ir adaptando.
Por último, me gustaría preguntarte, ¿cómo crees tú que afectará la parte semántica de Google en este camino? Cuéntamelo ya en los comentarios.
2 comentarios
Oye super interesante. Cuando hablas de la red semantica me queda la duda, si es que el TFD sustituye o complementa a los LSI. El tema de los LSI son medio chumbos has visto los lsi que consigues de LSIGraph ? Muy interesante.
Muy buenas Lyn,
Antes de nada, gracias por el comentario 😉
El LSI y el TF*IDF son conceptos distintos, están relacionados pero uno no sustituye al otro, más bien se complementan. Ambos miden peso relativo de palabras, pero son escalas distintas.
En cuanto a LSI Graph es una gran herramienta siempre que escojas de entre todas las opciones que te ofrece la plataforma, es muy interesante a la hora de darte ideas y enriquecer textos, pero siempre con cabeza.
¡Un saludo!