Cómo funciona un motor de búsqueda y te hace la vida más fácil

trabajo del motor de búsquedabytes cortos: El motor de búsqueda es un software que ayuda a mostrar los resultados relevantes de la página web en función de la entrada de la consulta de búsqueda mediante el uso del rastreo web y la indexación web, fórmulas en negrita y algoritmos inteligentes para recopilar los datos relevantes.

A Durante el tiempo que tardó este sitio web en cargarse en su computadora, se realizaron unas pocas miles de consultas de búsqueda. Pero, ¿alguna vez te ha encendido las neuronas sobre cómo funciona un motor de búsqueda?

¿Cómo te da Google los mejores resultados en poco tiempo? De hecho, no importa hasta que Google, Bing estén allí. El escenario hubiera sido muy diferente si no hubiera sido por Google, Bing o Yahoo. Sumerjámonos en el mundo de los motores de búsqueda y veamos cómo funciona un motor de búsqueda.

Una mirada a la historia

El cuento de hadas de los motores de búsqueda comenzó en la década de 1990 cuando Tim Berners-Lee agregó cada nuevo servidor web que se conectaba a la lista mantenida por el servidor web del CERN. Hasta septiembre del 93 no había motores de búsqueda en Internet, solo unas pocas herramientas capaces de mantener una base de datos de nombres de archivo. Archie, Veronica, Jughead fueron los primeros participantes en esta categoría.

Oscar Nierstrasz de la Universidad de Ginebra está acreditado para el primer motor de búsqueda llamado W3Catalog. Trabajó seriamente en los scripts de Perl y finalmente lanzó el primer motor de búsqueda del mundo el 3 de septiembre de 1993. Además, 1993 vio el surgimiento de muchos otros motores de búsqueda. JumpStation de Jonathon Fletcher, AliWeb, Worm WWW, etc. yahoo! se lanzó como un directorio web en 1995, pero comenzó con el motor de búsqueda de Inktomi en 2000 y luego se trasladó a Bing de Microsoft en 2009.

Ahora, hablando del nombre que es el principal sinónimo del término motor de búsqueda, Google Search fue un proyecto de investigación de dos graduados de Stanford, Larry Page y Sergy Brin, que dejó su huella por primera vez en marzo de 1995. El trabajo de Google se inspiró originalmente por la metodología de backlinking de página, que realizó cálculos basados ​​en el número de backlinks de una página web para medir la importancia de esa página en la World Wide Web. «El mejor consejo que he recibido», dijo Page, mientras recordaba cómo su supervisor, Terry Winograd, respaldó su idea. Y desde entonces, Google nunca ha mirado atrás.

Todo comienza con un rastreo

Un motor de búsqueda bebé en su infancia comienza a rastrear la World Wide Web, utilizando sus pequeñas manos y rodillas para rastrear todos los demás enlaces que encuentra en una página web y almacenarlos en su base de datos.

Ahora centrémonos en algunos pensamientos técnicos detrás de escena. Un motor de búsqueda contiene un software de rastreo web, que es básicamente un rastreador de Internet responsable de abrir todos los hipervínculos presentes en una página web y crear una base de datos de texto y metadatos de todos los enlaces. Comienza con un conjunto inicial de enlaces que puede visitar llamado Seeds. Una vez que continúa visitando estos enlaces, agrega nuevos enlaces conocidos como Crawl Frontier a la lista existente de URL para visitar.

A medida que el rastreador rastrea los enlaces, descarga la información de esas páginas web para luego verlas como instantáneas, porque descargar la página web completa requeriría una gran cantidad de datos y costaría al menos un bolsillo en países como India. Y puedo apostar que si Google se fundara en la India, todo su dinero se destinaría a pagar las facturas de Internet. Espero que eso no sea una preocupación ahora.

El rastreador web examina las páginas web en función de algunas pautas:

Política de selección: El rastreador decide qué páginas descargar y cuáles no. La política de selección se centra en descargar el contenido más relevante de un sitio web y no algunos datos sin importancia.

Política de visitas de regreso: El rastreador programa a qué hora debe reabrir las páginas web y procesar los cambios en su base de datos, gracias a la naturaleza dinámica de Internet que hace que sea muy difícil para los rastreadores mantener actualizadas las últimas versiones de las páginas web.

Política de Paralelización: Los rastreadores usan múltiples procesos al mismo tiempo para rastrear enlaces conocidos como rastreo distribuido, pero a veces diferentes procesos pueden descargar la misma página web, por lo que el rastreador mantiene la coordinación entre todos los procesos para eliminar el riesgo de duplicación.

Política de cortesía: Cuando un robot navega por un sitio web, simultáneamente descarga páginas web del mismo, lo que aumenta la carga en el servidor web que aloja el sitio web. Por lo tanto, se introduce un término «tiempo de espera de rastreo», que obliga al rastreador a esperar unos segundos después de descargar ciertos datos de un servidor web y está sujeto a la política de cortesía.

Lea también: Cómo crear un rastreador web simple en Python

Arquitectura de alto nivel de un rastreador estándar:

oruga

La figura anterior muestra cómo funciona un rastreador web. Abre la lista inicial de enlaces, luego los enlaces dentro de esos enlaces, y así sucesivamente.

Wikipedia escribe que los informáticos Vladislav Shkapenyuk y Torsten Suel descubrieron que:

Si bien es bastante fácil construir un rastreador lento que descargue unas pocas páginas por segundo durante un período corto de tiempo, construir un sistema de alto rendimiento capaz de descargar cientos de millones de páginas durante varias semanas presenta una serie de desafíos de diseño del sistema. eficiencia de la red, así como resiliencia y manejabilidad.

Indexación de rastreo

Después de rastrear todo Internet, el motor de búsqueda de bebés crea un índice de todos los sitios web que encuentra en su camino. Tener un índice es mucho mejor que perder el tiempo tratando de encontrar la consulta en un montón de documentos grandes, ahorra tiempo y recursos.

Muchos factores intervienen en la creación de un sistema de indexación eficaz para un motor de búsqueda. Las técnicas de almacenamiento que utilizan los indexadores, el tamaño del índice, la posibilidad de encontrar rápidamente documentos con las palabras clave buscadas, etc. son los factores responsables de la eficiencia y confiabilidad de un índice.

Uno de los mayores obstáculos para crear índices web exitosos es la colisión entre dos procesos. Supongamos que un proceso quiere buscar un documento y al mismo tiempo otro proceso quiere agregar un documento al índice, lo que genera conflictos entre los dos procesos. El problema se ve agravado por la implementación de la informática distribuida por parte de los motores de búsqueda para gestionar más datos.

tipos de índice

Fresco: Con este tipo de índice, todas las palabras clave que aparecen en un documento se almacenan en una lista. El índice directo es fácil de crear en las primeras etapas de la indexación porque permite que los indexadores asincrónicos trabajen juntos.

índice del motor de búsqueda

Devolver a: Los índices hacia adelante se ordenan y se convierten en índices hacia atrás en los que cada documento que contiene una palabra clave en particular se fusiona con otros documentos que contienen esa palabra clave. Los índices ascendentes facilitan la búsqueda de documentos relevantes para una consulta de búsqueda en particular, lo que no ocurre con los índices descendentes.

índice del motor de búsqueda

Lea también: ¿Qué es DNS (Sistema de nombres de dominio) y cómo funciona?

Análisis de documentos

También conocida como tokenización, se refiere a desglosar los componentes de un documento, como palabras clave (conocidas como tokens), imágenes y otros medios para que luego puedan incluirse en los índices. . El método básicamente se enfoca en comprender el idioma nativo y predecir las palabras clave que un usuario podría buscar, lo que sirve como base para crear un sistema de indexación web efectivo.

Uno de los mayores desafíos es encontrar los límites de las palabras clave para extraer, ya que podemos ver que los idiomas como el chino y el japonés generalmente no contienen espacios. sus escritos lingüísticos. Comprender la ambigüedad de un idioma también es un problema porque algunos idiomas difieren levemente o incluso significativamente con los cambios geográficos. La ineficiencia de algunos sitios web, al no mencionarse claramente el lenguaje utilizado, también es motivo de preocupación y aumenta la carga de trabajo de los indexadores.

Los motores de búsqueda pueden reconocer varios formatos de archivo y extraer datos de ellos con éxito, y se debe tener mucho cuidado en estos casos.

Las etiquetas META también son muy útiles para crear índices muy rápidamente, reducen la sobrecarga del indexador web y alivian la necesidad de rastrear completamente todo el documento. Al final de este artículo, encontrará etiquetas meta.

Buscar en el índice

Ahora el bebé del motor de búsqueda ya no es un bebé, ha aprendido a gatear y agarrar cosas de manera rápida y eficiente, y a organizar sus cosas sistemáticamente. Supongamos que su amigo le pide que encuentre algo en su arreglo, ¿qué hará? Sin embargo, se utilizan cuatro tipos de consultas de búsqueda y no se derivan formalmente, pero han evolucionado con el tiempo y han demostrado ser válidas en términos de significado. Solicitudes reales realizadas por los usuarios.

Navegación: Este término se utiliza para solicitudes en las que el usuario desea acceder a una página web o sitio web específico que existe en Internet. Por ejemplo al buscar fossBytes en Google, luego inicie una consulta de navegación.

Informativo: Este tipo de consulta tiene miles de resultados y cubre temas generales que aumentan el conocimiento del usuario. Por ejemplo, si busca Steve Jobs, verá todos los enlaces relevantes para Steve Jobs.

Transaccional: Las solicitudes que se centran en la intención del usuario de realizar una acción específica pueden incluir un conjunto predefinido de instrucciones. Por ejemplo, ¿Cómo encuentra su computadora portátil perdida o robada?

Conectividad: Este tipo de consultas no son de uso común, se enfocan en conectar el índice creado por un sitio web. Por ejemplo, si busca: ¿Cuántas páginas hay en Wikipedia?

Tanto Google como Bing han desarrollado algoritmos acreditados capaces de encontrar los resultados más relevantes para su consulta de búsqueda. Google afirma calcular los resultados de su búsqueda en función de más de 200 factores, como la calidad del contenido, nuevo o antiguo, la seguridad del sitio y más. Designaron a las mentes más brillantes del mundo en sus laboratorios de investigación para realizar cálculos difíciles y luchar con fórmulas alucinantes solo para hacer que su investigación sea más fácil y rápida.

Otras características notables*

Búsqueda de imágenes: Te sorprenderá saber la inspiración de Google detrás de su famosa herramienta de búsqueda de imágenes. J.Lo, sí, escuchaste bien, J.Lo y su vestido verde de Versace (vers-sah-chay) en los Premios Grammy de 2000 fue la verdadera razón por la que Google retiró su búsqueda de imágenes, porque la gente estaba ocupada con eso, búscalo en Google. .

En ese momento, era la consulta de búsqueda más popular que jamás habíamos visto. Pero no teníamos una manera segura de darles a los usuarios exactamente lo que querían: J.Lo con este vestido. Nació la búsqueda de imágenes de Google.

Dice Eric Schmidt en su carta titulada The Tinkerer’s Apprentice, publicada el 19 de enero de 2015.

Búsqueda por voz: Google, después de un largo y arduo trabajo, fue el primero en introducir la búsqueda por voz en su buscador, y posteriormente otros buscadores también lo implementaron.

Lucha antispam: Los motores de búsqueda utilizan algoritmos serios para poder Protégete de los ataques de spam. Básicamente, un spam es un mensaje o archivo distribuido a través de Internet, quizás con fines publicitarios o para transmitir virus. También en este caso, los chicos de Google informan manualmente al sitio, que creen que es responsable de difundir mensajes de spam en Internet.

Optimización de ubicación: Los motores de búsqueda ahora pueden mostrar resultados basados ​​en la ubicación del usuario. Si buscas el tiempo en Bangalore, las estadísticas meteorológicas se refieren a Bangalore.

entenderte mejor: Los motores de búsqueda modernos pueden comprender el significado de la consulta del usuario en lugar de encontrar las palabras clave ingresadas por el usuario.

Autocompletar: La capacidad de predecir su consulta de búsqueda a medida que escribe en función de sus búsquedas anteriores y las búsquedas de otros usuarios.

Gráfico de conocimiento: Esta función, impulsada por la Búsqueda de Google, demuestra su capacidad para ofrecer resultados de búsqueda basados ​​en personas, lugares y eventos reales.

Control parental: Los motores de búsqueda permiten a los pequeños padres controlar lo que hace su hijo en Internet.

* Es difícil cubrir la enorme lista de funciones que ofrecen estos potentes motores de búsqueda.

resolución

Los motores de búsqueda nos han ayudado a hacernos la vida más fácil, y el arduo trabajo que realizan para que toda la información en la web sea utilizable es invaluable. Pero esta exploración ha llevado a la exposición de nuestro espacio personal en una plataforma pública, y tengo que decir que ya es hora de que nos entusiasmemos con el camino que hemos estado recorriendo durante tanto tiempo, a menos que sea demasiado tarde para nosotros, repasemos. nuestras acciones y que nuestra vida sea una bienal de vergüenza. No podemos negar el hecho de que los motores de búsqueda se han convertido en una parte integral de nuestras personalidades divididas digitales. Solo tenemos que usar la tecnología que se nos ha dado y no dejar que nos esclavice en las cadenas de nuestras propias fechorías.

Muy bien, no más conversaciones emocionales, solo admira la ternura y los talentos de esta nena de motor de búsqueda que ahora es una adolescente y te entiende mucho mejor. Google estuvo allí para buscar todo por nosotros, es Internet para muchos de nosotros y tenemos que apreciar las buenas experiencias que hemos tenido con la búsqueda de Google. ¡Oh! Olvidé mencionar a Bing, tú también eres increíble. Manténgase alerta, manténgase seguro y búsquelo en Google.

Mire este video y obtenga más información sobre los motores de búsqueda:

¿Ya has hecho clic? me siento afortunado botón en la búsqueda de Google. Ábralo y háganos saber qué garabato le gustó más en la sección de comentarios a continuación.

Deja una respuesta