Subscríbete a
Posts
Comentarios

Yahoo y las superunits

Mucho se ha hablado acerca de la patente y el famoso Sandbox de Google, y ahora, el que se está convirtiendo en su rival directo, Yahoo, nos deja entreveer en la patente Systems and methods for search processing using superunits, las investigaciones que están llevando a cabo para mejorar la potencia de sus búsquedas.

De la lectura de la patente (de la que se nos advierte en Search Engine Roundtable if you thought the Google patent was hard to read, the language in the Yahoo patent is way worse, and reads like a good VCR manual from China) se puede deducir en que está pensando Yahoo para mejorar su sistema de recuperación de información.

Introduce nuevos conceptos y términos como las superunits, y hace especial hincapié en estudiar la relación entre los términos de la consulta para conocer las semejanzas y conexiones que puedan existir entre ellos y no lanzar las búsquedas por conceptos aislados.

Se trataría de establecer relaciones lógicas entre las palabras que componen la sentencia de búsqueda y ofrecer una resultados de acuerdo a una idea conceptual, ampliando el campo semántico de las palabras, tal y como hace la mente humana, no sólo como resultado de la unión de una secuencia de palabras.

What human beings think in terms of are natural concepts. For example, “hawaii” and “new york city” are vastly different queries in terms of length as measured by number of words but for a human being they share one important characteristic: they are each made up of one concept. In contrast, a person regards the query “new york city law enforcement” as fundamentally different because it is made up of two distinct concepts: “new york city” and “law enforcement. Human beings also think in terms of logical relationships between concepts. For example, “law enforcement” and “police” are related concepts since the police are an important agency of law enforcement; a user who types in one of these concepts may be interested in sites related to the other concept even if those sites do not contain the particular word or phrase the user happened to type. As a result of such thinking patterns, human beings by nature build queries by entering one or more natural concepts, not simply a variably long sequence of single words, and the query generally does not include all of the related concepts that the user might be aware of.

Se da importancia también a la co-ocurrencia, la aparición simultánea de palabras o frases en un texto cuyo análisis automático permite determinar la frecuencia y la distancia entre dos o más palabras o frases que ayudaría a Yahoo a elaborar un tesauro con los términos interrelacionados.

[0069] For example, consider a case where users search for information about their favorite musical performers. Typically, these users would construct a query that includes the name of the performer (e.g., “Avril Lavigne” or “Celine Dion” or “Matchbox Twenty”) and also some other words reflecting the type of information sought, such as “lyrics”, “mp3″, “guitar tabs”, “discography”, and so on; these other words are neighbor units that would tend to appear with names of different performers. Based on the occurrence of similar neighbor units, superunit seed module 412 groups the performer names into a cluster.

Aplicando lo contenido en la patente podría resolverse el problema de la ambigüedad y sinonimia de los términos, evitar errores de significado, establecer búsquedas relacionadas… sin duda podría suponer un acercamiento a la famosa web semántica…


Posts relacionados

  • No hay posts relacionados