Lematizando las tags del del.icio.us
06 de junio, 2005 por Catuxa
Uno de los mayores problemas de las folksonomías es la gran cantidad de tags similares que usamos para describir el mismo objeto, un problema que surge de falta de un vocabulario controlado que corrija las variantes de plurales/singulares minúsculaes/mayúsculas y las diversas derivaciones de cada término:
La ausencia de un control terminológico,que otorga libertad y agilidad al tagging social, repercute en la recuperación de información originando confusiones semánticas y silencio documental.
del.icio.us tag stemmer utiliza el algoritmo de Porter y nos permite conocer las variaciones que hemos utilizado de nuestras tags en todos los recursos que hemos marcado, a través de nuestra cuenta de usuario de del.ici.ous, o conocer todas las variaciones de tags que los lectores han utilizado para marcar un mismo objeto. De lo que se trata es de aplicar técnicas de stemming* y evitar las confusiones semánticas para una misma tag.
Por el momento sólo funciona con términos en inglés, un idioma más sencillo que el español desde el punto de vista morfológico, implementar un del.icio.us tag stemmer en nuestro idioma supongo que será bastante más complicado.
__________________
* El stemming o lematización es el proceso mediante el cual se relacionan morfológicamente las pálabras que comparten la misma raíz, de forma que podamos agrupar las variantes morfológicas de cada término. Hay numerosos estudios sobre el stemming y la recuperación de información, dos artículos sencillos e introductorios a las técnicas de stemming para el español:
- La Recuperación de Información en español y la normalización de términos
- Procesamiento de Variantes Morfológicas en Búsquedas de Textos en Castellano
Ummm, gracias por lo de “lematizar”, así puedo dejar de pensar en “stemizar” y “stemizadores”
¿Has llegado al stemmer de del.icio.us por el post en plasticbag sobre las dos vertientes de las folksonomías? Tom Coates lo clava, como siempre.
Ah, por cierto, un stemmer para castellano (entre otros), en Ruby: http://stemmer4r.rubyforge.org/rdoc/classes/Stemmer.html
Yo siempre que he lematizado ha sido a pedal, porque el vocabulario que tenía que afrontar era pequeño. Sin embargo en las clases de este año hemos visto algunos algoritmos que utilizan Wordnet como referencia y consiguen resultados bastante buenos.
Por otro lado sí que parece una buena alternativa para reducir buena parte de la variabilidad. Quizá la ambigüedad léxica sea peor que la semántica para estos casos.
Gracias Mort, voy a leer el post de Coates. Llegué al stemmer buscando información sobre la lematización y los buscadores, y me “encontré con ésto y con ningún ejemplo de buscador que haga stemming en español.
Y thanks por el stemmer para castellano.
Fernando, yo también he hecho prácticas “a mano” de lematización, pero era un volumen rídiculo, claro… lo bueno sería dada una red semántica que se nos aparecieran todas las variantes de esa raíz común.
El Wordnet nunca he visto como trabaja, ¿pero es sólo para la lengua inglesa verdad? supongo que hay idiomas bastante más peliguados para estas técnicas, y el nuestro tiene demasiadas complicaciones, dicen!
Muy interesante el post catuxa. Desconocía el tema de la “lematización”, ni me había parado a pensar en ello.
Ah y gracias por el vínculo del otro día: http://www.baquia.com/noticias.php?id=9746 muy muy interesante, ya estoy con ello.
graciñas
Cierto, está sólo en inglés. Y es una pena porque ya he hecho en Python un programita muy chorra que te descarga tus etiquetas y va mostrando cada etiqueta con su raíz con el fin de unificar al máximo nuestras etiquetas.
Pero como el wordnet está en inglés, en mi caso no sirve porque uso etiquetas en español. De todas formas creo que la idea es buena.
Si alguien conoce un diccionario léxico español, por favor que lo diga!!
Vale, no he dicho nada. La misma librería que ha dicho mort va a tener pronto unos bindings para python (http://www.snowball.tartarus.org/archives/snowball-discuss/0088.html). Perdón por llenar los comentarios de merda
Gracias por tus comentarios, Fernando!, graciñas y nada de que son escatológicos hombre!