online marketing, entrepreneur

Ariel Arrieta [D-MTKG]

June 8, 2009

La nueva frontera buscadores semanticos

Posted by: aarrieta In: Marketing Online

qdex

La diferencia entre hacer una pregunta y obtener una respuesta y escribir un par de palabras claves y obtener una lista de links con documentos es bastante grande.

¿Por que son tan poco inteligentes los motores de búsqueda? Lo que la mayoría de las personas quieren son repuestas – no largas listas de documentos, siendo solo algunos relevantes. Debe haber una mejor manera.

Los motores de búsqueda funcionan enviando hordas de arañas robóticas (webspiders) que desplazan a través de la red e indexan las palabras claves en cada pagina que encuentran a su paso.  Si escribís una simple búsqueda y estos analizaran las palabras para saber si son sustantivos, adjetivo y participios y devuelven una lista de referencias que contengan las palabras claves que las arañitas trajeron de la red. La única diferencia significativa entre Google, Yahoo! y Microsoft Live es en los rankings estadísticos que utilizan.
El 28 de mayo Microsoft anuncio sus últimas ideas sobre búsqueda en la red en una conferencia en San Diego. Técnicamente, no hay muchas cosas que estén mal con este buscador de 5 años de edad. Desafortunadamente Live no hace nada espectacularmente mejor que Google. Y mientras que “googlear” se ha convertido en sinónimo de buscar en la web, Live se ha desvanecido a un distante tercer puesto en los porcentajes de búsqueda con solo el 8% del mercado estadounidense comparado con Google un 64% y el 20% de Yahoo!.

Con la intención de diferenciarse, el nuevo motor de búsqueda de Microsof (fue denominado Kumo en código, pero debuto oficialmente como Bing) organiza sus resultados en términos de grupos relevantes en vez de en series de enlaces. De esta manera espera poder anticipar cuales son los verdaderos intereses de las personas. Por lo tanto, una búsqueda que diga “pasajes baratos a Buenos Aires” también arrojara resultados de hoteles, restaurantes, tiendas y entradas para el teatro en la misma categoría de precios. Las personas pueden refinar sus búsquedas utilizando una tabla de contenidos con múltiples opciones.

Bing utiliza tecnología semántica de una empresa de búsquedas en San Francisco llamada Powerset, la cual Microsoft compro el año pasado . Los motores de búsqueda semánticos como Powerset o Hakia (autoproclamados inventores de la busqueda por categorias) buscan el significado de la frase que se esta buscando, y tratan de distinguir entre palabras que se escriben de igual manera tomando en cuenta el contexto. Esto solo disminuyo el número de respuestas sin sentido.

No se ha revelado si Bing también incluye el modulo de proceso de idioma natural que era parte del motor original de Powerset. Hasta la fecha, el procesamiento por idioma natural se tiende a usar en los campos de especialistas, tales como medicina o leyes, donde la terminología es limitada. El trabajo de llevarse a cabo un proceso de idioma natural lo hará demasiado lento si se aplicara a un motor de búsqueda para todo propósito que tiene que indexar toda la red continuamente en vez de una pequeña parte “vertical” de la misma.

Para agilizar el proceso, Hakia ha inventado una nueva forma de analizar páginas web y guardar su contenido. Primero una detección de una búsqueda y la extracción del algoritmo (QDEX por sus siglas en ingles Query Detection and Extraction) se desplaza por el segmento vertical en cuestión (como finanzas) y extrae las posibles búsquedas que pueden preguntarse por el contenido de cada página. Luego utiliza las preguntas como “portales” a los párrafos, oraciones, frases y hechos del documento durante el proceso de retiro de información.

A diferencia de los “Index invertidos” (un método de mapeo de palabras y números en una pagina web a lugares en una base de datos) utilizado por los buscadores convencionales, el algoritmo QDEX puede manejar grandes cantidades de datos semánticamente sobre la marcha. Si el algoritmo de Google trataría de hacer lo mismo, la carga computacional aumentaría exponencialmente y lo sometería. En contraste, el buscador Powerset utiliza un Index invertido tradicional como Google, pero lo superpone con el proceso de idioma natural más una gran cantidad de poder computacional.

Aunque esta bajo desarrollo, el buscador semántica de Hakia usara segmentos QDEX verticales como finanzas, leyes, viajes, artes e historia axial como ciencia y medicina. Cuando este listo, será una herramienta poderosa para entregar respuestas relevantes contextuales a preguntas especificas.

Aunque todavia falta bastante para que lleguemos a tener una maquina que pueda hacer preguntas y obtenga una respuesta simple y no una lista de documentos y links.

Lo que hace que tenga tanta confianza es el progreso que los científicos de la informatica han hecho al obtener maquinas que entiende el significado completo de una oración humana. El acercamiento va mas allá de los reinos de los buscadores semánticos basados en el análisis de la lengüisitica. Es lo que los investigadores están comenzando a llamar “análisis profundo de contenido”.



Share and Enjoy:
  • Digg
  • Sphinn
  • del.icio.us
  • Facebook
  • Mixx
  • Google Bookmarks
  • Ping.fm

Comment Form

blog comments powered by Disqus

Suscribite via twitter

tweetscribe

Libros recomendados:

Post que llamaron mi atención:

Mas fotos en:

www.flickr.com
This is a Flickr badge showing public items from ariel_arrieta tagged with twitxr. Make your own badge here.

Creative Commons License

Add to Technorati Favorites

Sobre mi

> Desde 1994 trabajo en la Industria Online
> Emprendedor Serial y Angel Investor
> Actualmente VP Technology en .Fox Networks
> Co-Fundador de Digital Ventures, Directa Networks e InZearch, (adquiridas por Fox/News Corp)... mas info en mi Bio

Sumate a la conversacion:

Polemicas:

Tag Cloud