Dialnet EnganarALosBuscadores 3190876 .pdf
Nombre del archivo original: Dialnet-EnganarALosBuscadores-3190876.pdf
Este documento en formato PDF 1.4 fue generado por Adobe InDesign CS2 (4.0) / Adobe PDF Library 7.0, y fue enviado en caja-pdf.es el 13/08/2014 a las 13:47, desde la dirección IP 85.60.x.x.
La página de descarga de documentos ha sido vista 2555 veces.
Tamaño del archivo: 314 KB (10 páginas).
Privacidad: archivo público
Vista previa del documento
Engañar a los buscadores – Mari-Carmen Marcos
B.6. Engañar a los buscadores
Por Mari-Carmen Marcos
Marcos, Mari-Carmen. “Engañar a los buscadores”.
En: Anuario ThinkEPI, 2008, pp. 50-54.
Resumen: Conocer los criterios que tienen en cuenta los buscadores para determinar el ranking de resultados en las búsquedas es clave para los responsables
de páginas web, de ahí la importancia del SEO (search engine optimization) en
los últimos años. El conocimiento de estas técnicas y su aplicación son ventajosos
tanto para los sitios web, que mejoran su posición en el listado, como para los
buscadores, pues las técnicas que mejoran el SEO no pretenden sino proporcionar a los buscadores la máxima información sobre el contenido del sitio web.
De esta forma, los sitios web evitarán el uso de imágenes y programación sin
textos legibles por el robot que rastrea e indiza las páginas, e intentarán enlazar y ser enlazados por páginas web de contenidos similares. El buen uso de las
técnicas de SEO se conoce como white hat y queda limitado al diseño de sitios
web pensando en los usuarios, sin olvidar la forma de trabajo de los buscadores.
En cambio es posible diseñar sitios web pensando prioritariamente en el ranking que harán después
los buscadores, e intentar forzarlo engañando a éstos ofreciendo información que las personas no
verán (texto escondido o de pequeño tamaño, etc.). Estas técnicas no éticas denominadas black hat
no sólo van en contra de dar un buen servicio a los usuarios sino que cuando son detectadas por los
buscadores se penalizan con una bajada fuerte en el ranking.
Palabras clave: Buscadores, Spam en buscadores, SEO, Optimización de sitios web en buscadores,
White-hat SEO, Black-hat SEO.
Title: Tricking search engines
Abstract: Knowing the factors that search engines consider in their ranking results is key for webmasters. This knowledge is an advantage for a website’s owner, as the site improves its position in
ranking results, and for the search engines because they have access to more information about the
site’s content to determinate the ranking. Websites that use search engine optimization techniques
avoid the use of images without alternative text and try to link and be linked by related content
sites. Good use of these search engine optimization (SEO) techniques is called “white hat SEO”; its
main feature is that websites are designed with users in mind and without forgetting how search
engines work. Nevertheless, web design oriented toward search engines rather than users is possible; it means websites are designed for ranking results, abusing SEO techniques to deceive search
engines, such as with hidden text or small fonts, two of the most common strategies. When search
engines discover these unethical techniques, called “black hat SEO”, websites are punished with
poor rankings.
Keywords: Search engines, Spam, SEO, Search engine optimization, White-hat SEO, Black-hat SEO.
50
COSTUMBRE, PEREZA O COMODIDAD,
el caso es que, incluso cuando conocemos la URL del sitio web al que queremos ir, colocamos la palabra clave en
el buscador en lugar de teclear el incómodo y largo www.loquesea.com. Esas
búsquedas (que más que búsquedas son
atajos para teclear menos) más todas las
búsquedas “de verdad” hacen que alrededor del 80% de las visitas que reciben
los sitios web procedan de un clic rea-
Anuario ThinkEPI 2008
lizado en los resultados de búsqueda,
en particular de uno de los tres grandes
buscadores: Google, Yahoo! o Live.
Dicho esto, hay que añadir que la mayoría
de los usuarios de la Web no son expertos en
el uso de buscadores, por tanto no conocen
las técnicas de búsqueda de las que nosotros
podemos alardear; es más, a veces ni siquiera
tienen claro cuál es el objeto de búsqueda, o
éste es algo más complejo de lo que el bus-
Engañar a los buscadores – Mari-Carmen Marcos
cador es capaz de interpretar. Sea como sea,
frente a una consulta el buscador ofrece una
serie de resultados, casi siempre una cantidad mucho mayor de la que una persona es
capaz de leer en años (a menudo en toda su
vida), y el usuario revisará tan sólo los primeros antes de sucumbir a la tentación de pinchar en uno, dos, quizá tres de ellos. Si ese
usuario nos interesaba y nuestro sitio no ha
sido uno de los afortunados, hemos perdido
la jugada.
Póngame medio kilo de primeras
posiciones
La idea general que he podido oír de personas que no están en nuestro campo es que
para estar en los primeros puestos hay que
pagar a los buscadores. De poco o nada me
ha servido explicarles qué es el SEO, ellos insisten en que las empresas grandes aparecen
las primeras porque tienen dinero para comprar los puestos, y que eso es así como toda
la vida lo fue. Mientras tanto, piden diseños
en los que un enorme flash ocupa toda la
pantalla, por supuesto sin texto legible en el
código fuente, y mantienen un title del tipo
“Bienvenido al sitio web de Fulanito” si es
que con suerte el editor que usaron para hacer la página les pedía un título al guardar
el fichero.
En el otro extremo están quienes se lo han
aprendido todo sobre el ranking de resultados y utilizan esta información para forzar
una posición óptima, usando técnicas que
los buscadores persiguen y sancionan. De
esto va a tratar el presente texto.
Las técnicas black-hat son las que
pretenden engañar a los algoritmos
de ranking para ocupar mejores
puestos en los resultados
dos. Entre unas y otras supongo que podríamos hablar de algunos grey-hat, de intensidad variable.
Estas oscuras técnicas comienzan en las
más puras prácticas del diseño web. Me vienen algunos ejemplos a la cabeza (hablando
de sombreros nunca mejor dicho), pero todos se pueden detectar de una forma bastante fácil:
– El famoso texto invisible: fuente de color blanco sobre un fondo blanco (os prometo que a día de hoy todavía existen casos).
¿Acaso creen que el robot se dedica a mirar
la página como una persona? Nada de eso,
rastrea el código fuente, y detectar que ambos colores coinciden es muy sencillo. Parecida a esta maldad está la de usar una fuente
muy pequeña en ese texto, pero igualmente
es fácil de detectar.
– La repetición de palabras clave en el title de la página. Es el caso contrario de los
que todavía andan con el untitled document, más de 26 millones de páginas según
Google! (allintitle: “untitled document”).
– La recepción de enlaces de forma masiva, por ejemplo por medio de programas
que ponen comentarios en blogs e incluyen
el enlace. Las páginas que reciben muchos
enlaces son en principio páginas mejores; en
cambio a los buscadores no les parece –y con
toda la razón del mundo– que todos los enlaces tengan el mismo valor y han tomado
La ética del sombrero
En el mundillo del posicionamiento web
o SEO (search engine optimization) se denominan técnicas white-hat a aquellas que se
preocupan de que las páginas web puedan
ser indizadas correctamente por los robots
de los buscadores y que la información que
contengan deje clara su temática. En el otro
extremo se encuentran las llamadas técnicas
black-hat, que son todas aquellas que pretenden engañar a los algoritmos de ranking
para ocupar mejores puestos en los resulta-
51
Anuario ThinkEPI 2008
Engañar a los buscadores – Mari-Carmen Marcos
medidas: los que procedan de páginas de temática similar serán bien vistos, los que vengan de sitios no relacionados no se tendrán
en cuenta. De esta manera se palia el efecto de estos enlaces que llegan de cientos en
cientos, y además es fácil de detectar porque
siempre llegan en bloque.
– Diseñar un sitio web atractivo para los
usuarios y otro pensando en SEO, esto se llama cloaking. La página para los robots tendrá los elementos necesarios para un buen
posicionamiento, mientras que la que ven
los usuarios no necesariamente.
Lo cierto es que los buscadores están al
tanto de las prácticas de abuso de estos sombreros negros y las van atajando lo mejor
que pueden. Últimamente hemos oído hablar del ranking de confianza (trust ranking),
que consiste en un grupo de factores que los
buscadores tienen en cuenta para considerar
si un sitio web es de fiar: los años que hace
que se registró el dominio (para burlar esto
los spammers tendrían que comprar dominios antiguos, si es que se los quieren vender…), el número de enlaces que lo enlazan
y desde cuándo, y el ranking de confianza
que a su vez tienen esas páginas que le han
enlazado.
No podemos saber a ciencia cierta lo penalizadas que están esas prácticas, pues son
demasiados factores los que intervienen en
el ranking de los buscadores y no todos con
el mismo peso.
Estar al día en SEO, blanco o negro
52
Una buena forma de estar al día en las
novedades de los grandes buscadores es tan
sencilla como leer los blogs que sus equipos
escriben:
– Official Google Blog:
http://googleblog.blogspot.com/
– Yahoo! Search Blog:
http://www.ysearchblog.com/
– Live Search’s Weblog:
http://blogs.msdn.com/msnsearch/default.
aspx
Además de leer los posts que publican, es
interesante ver los enlaces a otros blogs, tanto internos como externos. Una opción interesante es revisar posts antiguos; en los tres
están disponibles a partir de 2004.
Anuario ThinkEPI 2008
Lo cierto es que los buscadores están
al tanto de las prácticas de abuso
de estos sombreros negros y las van
atajando lo mejor que pueden
Otros sitios web de referencia para no
perderse en este tema tan cambiante son:
– Aaron Wall’s SEO Book:
http://www.seobook.com
– Foro Buscadores:
http://www.forobuscadores.com/foros/
– Ojo Buscador:
http://www.ojobuscador.com
– Online Marketing Blog:
http://www.toprankblog.com
– Search Engine Land:
http://searchengineland.com/
– Search engine ranking facts newsletter
(Axandra):
http://www.free-seo-news.com/index.
php
– Search Engine Watch:
http://searchenginewatch.com/
– Search Engine Weblog:
http://www.searchengine-weblog.com/
Y para profundizar en cuestiones
más técnicas…
ACM Sigir. En: Adversarial information retrieval on the
web (Airweb 2006), 2006, v. 40, n. 2.
Castillo, Carlos; Donato, Debora; Gionis, Aristides; Murdock, Vanessa; Silvestri, Fabrizio: “Web
spam detection using the web topology”. Spire 2007,
http://www.citeulike.org/user/ChaTo/article/955052
Castillo, Carlos. Todo por el rating.
http://www.tejedoresdelweb.com/307/article-77584.
html
Castillo, Carlos. “WebSpam”. En: Conferencia en la
Universidad de Salamanca, 2007, Mayo.
http://www.tejedoresdelweb.com/slides/2007_talk_
spam_salamanca.pdf
Codina, Lluís. “Posicionamiento web: conceptos y ciclo de vida”. En: Anuario Hipertext.net, 2004, Mayo.
http://www.hipertext.net
Codina, Lluís; Marcos, Mari-Carmen. “Posicionamiento web: conceptos y herramientas”. En: El profesional de la información, 2005, v. 14, n. 2, pp. 84-99.
Posicionamiento y visitas – José Luis Ortega
Gonzalo, Carlos. “La selección de palabras clave para
el posicionamiento en buscadores: conceptos y herramientas de estudio” En: Anuario Hipertext net, 2004,
mayo.
http://www.hipertext.net
Gori, Marco; Witten, Ian. “The bubble of web visibility”. En: Comm. ACM, 2005, marzo, v. 48, n. 3, pp.
115-117.
http://portal.acm.org/ft_gateway.cfm?id=1047715&
type=pdf
Gyöngyi, Zoltán; García-Molina, Héctor. “Spam: it’s
not just for inboxes anymore”. En: IEEE Computer magazine, 2005, octubre, v. 38, n. 10, pp. 28-34.
http://doi.ieeecomputersociety.org/10.1109/MC.2005.
352
Ntoulas, Alexandros; Najork, Mark; Manasse, Mark;
Fetterly, Dennis. “Detecting spam web pages through
content analysis”. En: World Wide Web Conference, 2006,
pp. 83-92.
http://www2006.org/programme/item.php?id=3052
Posicionamiento y visitas
Por José Luis Ortega
Es cierto que en torno
al 60-80% de las visitas
que se realizan a un web
provienen de los buscadores, y por lo tanto tener una buena presencia
en un buscador es muy
importante para atraer
tráfico y adquirir visibilidad. Esto es debido a
que los buscadores son
enormes webs que generan una enorme cantidad de enlaces salientes y entrantes (hubs),
lo que ocasiona que estos webs dirijan el 80%
del tráfico en toda la Web.
Sin embargo hay un factor bastante obvio
que pocas veces se discute cuando se habla
de posicionamiento, y es el hecho de que internet es una red de páginas conectadas por
enlaces. Esto nos obliga a considerar que las
visitas que llegan a nuestro web pueden venir de múltiples lugares y no sólo desde los
buscadores. De esta forma, no se puede olvidar la importancia de estas fuentes de visitas
y, creo, sería aconsejable incorporar al mundo del posicionamiento medidas para “posicionar” nuestro web en el entorno más cercano además de mimar esos enlaces que ya
se poseen. Por ejemplo, grandes y periódicas
reestructuraciones de sedes web ocasionan
la perdida de los enlaces entrantes (linkrots),
perdiendo todo el tráfico que provenía por
esos enlaces. Así y desde mi opinión, obsesionarnos con subir un puesto en según qué
consulta de un buscador, mientras que ignoramos los enlaces de otros webs, puede ser un
actitud contraproducente para el nuestro.
Por otro lado los resultados de las medidas
SEO se han basado en su posición en determinadas consultas en según qué buscador y
al análisis cuantitativo de las visitas. Creo que
estos resultados no justifican las medidas SEO.
Porque un web bien posicionado no implica
que sea relevante al usuario y menos si se ha
conseguido con técnicas black-hat, como comentaba Mari Carmen. Así que una buena
posición puede generar una gran cantidad
de hits o visitas que computa nuestro contador web, pero no sabemos cuánto tiempo ha
estado viendo nuestro web, cuantas páginas
internas ha visitado, o cuántas veces nos ha
visitado. En resumen, las visitas no nos permiten conocer la relevancia de nuestro web.
Por último, y al hilo de la cuantificación
de visitas, un hecho relevante es medir la calidad de nuestros visitantes. Quizás sean más
relevantes unos pocos visitantes que desean
comprar nuestros productos que miles que
sólo van a mirar. Es posible que según de donde provengan, de enlaces o desde los buscadores, nuestros visitantes sean más fieles y
estén más interesados en nuestros contenidos. Simplemente, un enlace desde otro web
nos aporta cuanto menos una descripción escueta de nuestro recurso y la autoridad de
la fuente, mientras que un buscador tan sólo
reproduce el título y un somero párrafo de
nuestro web. Creo que los enlaces son una
vía muy importante y a tener en cuenta para
conseguir visitas de calidad que se pueden
convertir en potenciales clientes o usuarios.
José Luis Ortega
[email protected]
53
Anuario ThinkEPI 2008
Posicionamiento y visitas – José Luis Ortega
Granjas de enlaces
Referencias
Añadir una técnica más que he visto a personas/instituciones hacer para lograr posicionamiento web.
Lo llaman “granjas” y consiste en tener
una serie de webs creados (la parte estática
siempre en xhtml) que se enlazan entre sí. Lo
normal es tener un web de información de la
institución, y varios blogs sobre los diferentes
temas que tratan en ésta, siempre con buenos contenidos, enlazándose entre sí, pero
en diferentes servidores.
Siguiendo el hilo de la contribución de
Mari-Carmen Marcos y el comentario de
Oskar Calvo, os referencio un artículo muy
interesante de Carlos Gonzalo sobre las
granjas de enlaces que publicó la revista BiD
hace un año. Contextualiza esta práctica
fraudulenta en el ámbito del posicionamiento y el uso y motivación de los enlaces web.
Gonzalo, Carlos. “Tipología y análisis de
enlaces web: aplicación al estudio de los enlaces fraudulentos y de las granjas de enlaces”.
En: BiD: textos universitaris de biblioteconomia i documentació, 2006, juny, n. 16. Consultado en: 07-07-2007.
http://www2.ub.edu/bid/consulta_articulos.
php?fichero=16gonza2.htm
Óskar Calvo Vidal
[email protected]
Ernest Abadal
[email protected]
54
Anuario ThinkEPI 2008
Catalogación, sí; pero, ¿cómo? – Fernanda Peset y Tomàs Baiget
B.7. Catalogación, sí; pero, ¿cómo?
Por Fernanda Peset y Tomàs Baiget
Peset, Fernanda; Baiget, Tomàs. «Catalogación, sí; pero, ¿cómo?».
En: Anuario ThinkEPI, 2008, pp. 55-56.
Resumen: Se está produciendo un cambio de paradigma
en los códigos de catalogación. Ante el éxito masivo de
sistemas de recuperación de información sencillos como
Google algunos bibliotecarios abogan por simplificar la
descripción de documentos. Coyle y Hillmann critican el
trabajo que se está realizando en la actualización de las
Aacr por el excesivo peso con que todavía cuenta la tradición bibliotecaria.
Palabras clave: Descripción de documentos, Catalogación, Códigos catalográficos, Control bibliográfico
Title: Yes to cataloguing – but how?
Abstract: A paradigm shift is taking place in cataloguing codes. After the massive success of simple
information retrieval systems like Google, some cataloguers are calling for a simplification of document descriptions. Coyle and Hillmann criticize the AACR update because of the excessive weight
given to library traditions in the work that is underway.
Keywords: Document description, Cataloguing, Cataloging, Catalogue codes, Bibliographical control
LA VERSIÓN MÁS RECIENTE de las Anglo-American Cataloguing Rules (Aacr)
es la segunda edición, 2002, con las actualizaciones anuales hasta 2005 aprobadas por el Joint Steering Committee
for Revision of Aacr (JSC)1. Este comité
está constituído por representantes de:
The American Library Association, The
Australian Committee on Cataloguing;
The British Library, The Canadian Committee on Cataloguing; Chartered Institute of Library and Information Professionals (Cilip); The Library of Congress.
La presidenta es Deirdre Kiorgaard, de
Australia.
El JSC no va a actualizar ya más las Aacr, y
su trabajo se concentra ahora en las nuevas
normas RDA: Resource description and access2. En España, la Biblioteca Nacional realiza
un seguimiento activo como cabecera del Sistema Español de Bibliotecas3.
La sencilla forma de búsqueda de Google o
Amazon, que todo el mundo usa de una forma intuitiva, y recuperando directamente los
documentos originales, cuestiona seriamente
las funciones de los opacs de las bibliotecas,
que muchos consideran obsoletos, costosos y
poco útiles.
Karen Coyle y Diane Hillmann4 critican
el camino que están tomando las normas Resource description and access, que es el nombre progresista de las nuevas Aacr3. Se usa
el nombre RDA para dar a entender que la
nueva norma rompe con el pasado, pero a
juicio de las autoras no es así, y lamentan su
continuismo de las Aacr2 (1978) “que dejará
definitivamente ancladas y marginadas a las
bibliotecas en el nuevo mundo de la búsqueda y recuperación de información”, dicen.
Los profesionales de la información necesitan medios estandarizados, pero a la vez
mucho más simples, para describir los trabajos de todo tipo, desde monografías hasta
objetos informativos.
En su borrador actual, las RDA contienen
14 capítulos y 4 apéndices. Sólo los capítulos
6 y 7 tienen 120 páginas. Parece claro que
son innecesariamente complejas y caras de
implementar.
Los usuarios ven los opacs como un instrumento propio sólo de los servicios de catalogación a la antigua usanza, los cuales están
aliados con los vendedores de sistemas bi-
Anuario ThinkEPI 2008
55
Catalogación, sí; pero, ¿cómo? – Fernanda Peset y Tomàs Baiget
56
bliotecarios. Ambos se realimentan y se necesitan entre sí para poder subsistir.
El Committee on Cataloging: Description
& Access (CC:DA) de la American Libraries
Association (ALA) manifestó su descontento:
“En la ALA cada vez existe más desconfianza sobre el desarrollo de las RDA y sobre la
capacidad de sus autores de producir un estándar viable”. En su opinión el JSC debería
dar un golpe de timón y cambiar su forma de
trabajar en este sentido:
– Enfoque top-down, empezando por lo
más general, definiendo los objetivos, qué tipos de recursos abarcar, metadatos, etc. No
haría falta llegar a normalizar en detalle materiales específicos como música o mapas, los
cuales serían objeto de normas aparte.
– Prolongar el calendario de producción
para que todo el mundo pueda revisar los
borradores.
– No usar únicamente las Aacr2 como
fuente de ideas, métodos y modelos de datos para las RDA (deberían tener en cuenta
Dublin Core, The <indecs> Metadata Framework, y otros estándares).
La Library of Congress también evidenció
su falta de confianza en las RDA cuando en
diciembre de 2006 anunció la formación del
Working Group on the Future of Bibliographic
Control, en el que participan las principales
asociaciones bibliotecarias, así como las poderosas empresas Microsoft y Google, para que
“busque formas de cómo el control bibliográfico y otras prácticas descriptivas son capaces
de gestionar y dar acceso a los materiales de
Anuario ThinkEPI 2008
las bibliotecas en el nuevo entorno de la información y las tecnologías”. Este grupo presentó su informe en enero de 2008.
http://www.loc.gov/bibliographic-future/
news/lcwg-ontherecord-jan08-final.pdf
Conclusión
Antes que revisar las reglas de catalogación, las bibliotecas tienen que plantearse si
quieren tener un sistema de información que
sirva verdaderamente a sus usuarios para encontrar cualquier tipo de información, esté
donde esté, o si sólo quieren un inventario
–eso sí, perfecto– de su colección.
Los que abogan por implementar sólo
cambios “graduales” en la actual situación
de avance vertiginoso, es posible que cuando
se den cuenta ya les hayan quitado todo el
terreno.
Referencias
1. Joint Steering Committee for Revision of AACR (JSC)
http://www.collectionscanada.ca/jsc/
2. Resource description and access (RDA)
http://www.collectionscanada.ca/jsc/rda.html
3. I Congreso sobre Principios Internacionales de Catalogación: Influencia y Panorama Europeo (14 de abril
2005, Madrid, 9as Jornadas Españolas de Documentación Fesabid). Elena Escolano, coord.
http://www.bne.es/esp/servicios/congresoprincipios
catalogacion.htm
4. Coyle, Karen; Hillmann, Diane. “Resource Description and Access (RDA). Cataloging rules for the 20th century”. En: D-Lib magazine, 2007, Jan-Febr, v. 13, n. 1-2.
http://www.dlib.org/dlib/january07/coyle/01coyle.html
Las normas de tesauros se ponen al día – Francisco-Javier García-Marco
B.8. Las normas de tesauros se ponen al día: vocabularios
estructurados para la recuperación de información en el
entorno digital
Por Francisco-Javier García-Marco
García-Marco, Francisco-Javier. “Las normas de tesauros se ponen al día: vocabularios
estructurados para la recuperación de información en el entorno digital”.
En: Anuario ThinkEPI, 2008, pp. 57-62.
Resumen: Se presentan los proyectos internacionales de reforma y ampliación
de las normas sobre tesauros. El objetivo de estas iniciativas es refundir las normas y recomendaciones existentes, adaptar estos instrumentos al nuevo entorno
digital, explicitar su relación con otras herramientas de control de vocabulario
y facilitar la interoperabilidad entre los diferentes lenguajes documentales. Las
normas constituyen una oportunidad para hacer visible ante la comunidad internacional la gran experiencia acumulada por los profesionales de la información y la documentación en la representación y organización del conocimiento.
Palabras clave: Vocabularios controlados, Tesauros, Clasificaciones, Taxonomías, Internet, Interoperabilidad, Normas internacionales.
Title: Updating thesaurus standards: Structured vocabularies for information recovery in the digital environment
Abstract: International projects for reforming and broadening the scope of the current technical
guidelines and standards on thesauri are presented. The aims of these projects are to recast the existing standards and guidelines, to adapt them to the new digital environment, and to specify their
relationship with other vocabulary control tools, making integration easier. These new standards are
an excellent opportunity to enhance the visibility of the great corpus of knowledge and experience
that information and documentation professionals have accumulated regarding knowledge representation and organization.
Keywords: Controlled vocabularies, Thesauri, Classifications, Taxonomies, Internet, Interoperability,
Integrated systems, International standards.
La revolución de internet alcanza a
los tesauros
NO SE PUEDE PENSAR LA INFORMACIÓN Y LA DOCUMENTACIÓN sin referencia a la nueva infraestructura informativo-documental que conforma internet y
que permite a la vez –aunque con variado
éxito según los distintos aspectos implicados– la edición, publicación, archivo,
recuperación y difusión de los documentos en cualquier medio.
En torno a esa nueva plataforma de comunicación y acumulación de la información y el
conocimiento están convergiendo y estructurándose –a un ritmo más rápido que lento– el
resto de los medios: radio, prensa, televisión,
publicidad, comercio de la música, el sonido y
el vídeo, enseñanza, interacción con administraciones públicas y empresas, comunicación
telefónica, etc. Internet ha revolucionado el
mundo de la comunicación y, por tanto, la
vida cotidiana y laboral. Como resultado, la
comunicación social se ha acelerado, se ha
multiplicado, se ha hecho más eficiente, y
también se ha convertido en una avalancha.
Lógicamente, tantos cambios tenían que
revolucionar también la labor del profesional
de la información y la documentación que, al
fin y al cabo, es un profesional de la comunicación, un mediador que ayuda a poner en
contacto la información acumulada con las
necesidades de los usuarios.
Muchas áreas de la información y la documentación han cambiado para ponerse a tono
Anuario ThinkEPI 2008
57
Las normas de tesauros se ponen al día – Francisco-Javier García-Marco
con la nueva realidad. Así, el concepto de documento se ha teñido de multimedia y digital, internet se ha convertido en el ámbito por
excelencia de la referencia y la recuperación
documental, las bases de datos documentales
y los catálogos se han transformado en inevitables secciones de los portales de sus organizaciones, la catalogación ha transmutado en
asignación de metadatos, los lenguajes documentales se han convertido en ontologías
para la recuperación de la información,…
La ola del cambio tenía que alcanzar también a los tesauros, un campo muy específico
pero fundamental de las documentaciones
especializadas, y la respuesta a este reto, después de fraguarse durante casi una década,
ha empezado a concretarse en estos dos últimos años.
De la documentación técnica a
internet
58
Los primeros tesauros se desarrollaron
dentro del ámbito científico-técnico en los
años cincuenta y sesenta para superar las dificultades que planteaba a la recuperación el
sólo empleo de palabras clave –nótese la analogía actual con internet– y, posteriormente,
de descriptores.
El primero en ser publicado en 1959 fue
el de DuPont, y los primeros en ser utilizados
por una amplia base fueron el Chemical Engineering Thesaurus –publicado en 1961 por el
American Institute of Chemical Engineers– y
el Thesaurus of Astia Descriptors –publicado
por el US Defense Documentation Center en
1962. La herramienta alcanzó su madurez en
1967 con el Thesaurus of Engineering and
Scientific Terms del Engineers Joint Council y
el US Department of Defense.
A la práctica siguieron las normas, lo cual es
también una lección interesante. La primera
norma propiamente dicha sobre tesauros fue
la Ansi Z39.19-1974 titulada Thesaurus Structure, Construction and Use, que fue publicada
por el American National Standards Institute
(Ansi, 1974) en 1974 y revisada en 1980. La
nueva herramienta se expandió rápidamente
en el contexto internacional. Se multiplicaron
las publicaciones y manuales y aparecieron
las recomendaciones de la Unesco y las diferentes normas internacionales y nacionales.
Anuario ThinkEPI 2008
En los años setenta la iniciativa normalizadora internacional la llevó el programa Unisist
de la Unesco (1973, 1980) siguiendo la estela
norteamericana. En la década de los ochenta tomó el relevo –con cierta lógica– la International Organization for Standardization
(1985, 1986).
Respecto a la situación en España, la nueva herramienta fue presentada en un libro
de Lasso de la Vega de 1966, pionero de
la amplia labor de difusión realizada posteriormente por Currás, de la excelente práctica realizada –notablemente por el Cindoc– y
de la investigación realizada por un notable
grupo de autores (García, 2002, 2006). A pesar de la pronta difusión en nuestro país, que
contribuyó con numerosos tesauros propios,
la aprobación de las correspondientes adaptaciones por la Agencia Española de Normalización y Certificación (Aenor) de las recomendaciones aprobadas por la Sociedad Internacional para la Normalización (ISO) se produjo
en el quicio de los noventa. El borrador de
las Directrices para el establecimiento y desarrollo de tesauros monolingües –UNE 50106-90, equivalente a la ISO 2788:1986, una
corrección de la ISO 2788 de 1975, a su vez
inspirada en las recomendaciones de la Unesco de 1970– fue publicado en la Revista Española de Documentación Científica en los años
1989 y 1990 (Aenor, 1989, 1990a). Finalmente, la norma fue efectivamente aprobada dicho año (Aenor, 1990b). Los borradores de las
Directrices para la creación y desarrollo de tesauros multilingües –UNE 50-125, un trasunto
de la ISO 5964, publicada en 1985– fueron publicados en la Revista Española de Documentación Científica en 1996 y 1997 (Aenor, 1996,
1997a), y las norma, aprobada y publicada en
julio de 1997 (Aenor, 1997b). Ambas pueden
consultarse fácilmente en el recopilatorio de
normas UNE sobre documentación publicado
por la Aenor (1999).
Las iniciativas de reforma
La necesidad de acomodar los tesauros a la
realidad marcada por internet se dejó sentir
muy pronto entre los expertos, y ha cristalizado recientemente. De hecho, en este momento existen ya dos normas reformadas de tesauros que abordan la problemática de su uso
Las normas de tesauros se ponen al día – Francisco-Javier García-Marco
en internet: se trata de la norma Ansi Z39.19
y la norma BS 8723.
De forma semejante a lo ocurrido al comienzo de esta historia, norteamericanos
y británicos han tomado la delantera en su
reforma. No obstante, es importante señalar
también la formación de un grupo de trabajo
de la International Federation of Library Associations (Ifla) con el objeto de poner al día las
recomendaciones para tesauros multilingües
(Ifla, 2006), en estrecha coordinación con las
iniciativas anglosajonas.
Los norteamericanos ya constataron la
necesidad de poner al día los tesauros ante
los cambios que se estaban produciendo en
el marco de la información electrónica y de
la World Wide Web en 1998, cuando la Ansi
Z39.19-1980 (segunda revisión de la primera
norma estadounidense) fue revisada y confirmada. Atendiendo a este consenso, la National Information Standards Organization
(Niso) organizó al año siguiente un taller de
trabajo nacional, el Workshop on Electronic
Thesauri, que tuvo lugar el 4 y 5 de noviembre de 1999 con el objetivo concreto y explícito de investigar la conveniencia y posibilidad
de desarrollar un estándar para los tesauros
electrónicos. En la reunión participaron, entre otros, la American Psychological Association (APA), la American Society of Indexers
(ASI), y la Association for Library Collections
and Technical Services (Alcts) de la American
Library Association (ALA).
A partir de las recomendaciones aprobadas en ella, se desarrolló la cuarta edición
de la norma Z39.19, a la que se dio el título
Guidelines for the construction, format, and
management of monolingual controlled vocabularies, y que fue publicada el año pasado
(Ansi, 2006). Se trata de un extenso documento de 172 páginas en el que, partiendo de un
análisis preliminar de la necesidad del control
de vocabulario, se presentan los objetivos,
conceptos, principios y estructura de los tesauros; se definen las normas de tratamiento
terminológico –selección, alcance y forma de
los términos simples y complejos—; las relaciones; las técnicas de presentación; los aspectos relacionados con la interoperabilidad; y
los aspectos relacionados con su construcción,
prueba, mantenimiento y gestión.
La norma americana aporta novedades
muy importantes: en primer lugar, adopta un
En este momento existen ya dos
normas reformadas de tesauros que
abordan la problemática de su uso
en internet: se trata de la norma
Ansi Z39.19 y la norma BS 8723
enfoque dirigido a todo tipo de recursos de
información, tanto tradicionales como electrónicos; en segundo lugar, por ampliar su alcance –anteriormente centrado exclusivamente en los tesauros– a los “vocabularios controlados”, incluyendo concretamente “las listas
de términos controlados, anillos e sinónimos,
taxonomías y tesauros”; en tercer lugar, por
abordar el problema de la interoperabilidad
de vocabularios en el marco de la Red. Sin
embargo, también tiene ciertas limitaciones:
aborda tan sólo los vocabularios monolingües
–con el criterio de que los multilingües deben
ser abordados por el organismo internacional
competente– y deja de lado herramientas de
vocabulario controlado muy importantes.
En cuanto a la nueva norma británica BS
8723 –su historia puede ser consultada en Gilchrist (2007)–, se trata también un documento muy amplio que consta de cinco partes. La
primera parte establece las definiciones y conceptos comunes para todos los tipos de vocabularios controlados para la recuperación de
la información en sistemas de información.
La parte segunda se ocupa de los tesauros
propiamente dichos –es decir, de la antigua
norma BS 5723 (=ISO 2788)—, aunque va más
allá: pues, proporciona pautas sobre su uso
y gestión digital. La tercera parte trata otros
vocabularios estructurados, concretamente
los esquemas de clasificación, los tesauros, las
listas de encabezamientos, las taxonomías y
las ontologías. La cuarta parte aborda la interoperabilidad entre vocabularios en general
y, muy específicamente, el mapeo entre ellos.
Dentro de esta parte se trata el problema del
multilingüismo como un caso especial y aborda allí los aspectos tratados por la norma sobre tesauros multilingües BS 6723 (ISO 5964)
y, por tanto, la integra. Finalmente, la quinta
parte trata de los protocolos y formatos para
el intercambio de datos sobre vocabularios
controlados. Las cuatro primeras partes han
sido publicadas en 2006 y 2007. La parte cinco
Anuario ThinkEPI 2008
59
Descargar el documento (PDF)
Dialnet-EnganarALosBuscadores-3190876.pdf (PDF, 314 KB)
Documentos relacionados
Palabras claves relacionadas
anuario
buscadores
tesauros
sobre
enlaces
visitas
ranking
normas
search
internet
thinkepi
norma
tecnicas
informacion
paginas