18 octubre 2004

REFLEXIONES A PROPOSITO DE GOOGLE DESKTOP SEARCH

Por años he sido un enamorado de la información, de su búsqueda y recuperación, y por supuesto de la lógica y herramientas asociadas a ella.

Comencé a registrarla artesanalmente en la década del 70 con fichas de papel y cartulina donde manualmente escribía o pegaba recortes de impresos, mencionando la fuente, no siempre de forma completa o precisa. Estos materiales los utilicé para realizar el proceso de “Análisis de contenido” con el que procesamos la información de prensa de la época, para evaluar la situación política del país y que llamábamos “Análisis de información pública o información abierta”, vinculada a nuestros primeros estudios de inteligencia y contrainteligencia.

En gran medida, esta experiencia nos preparó e hizo más concientes del inminente golpe de estado que finalmente se produjo el 11 de septiembre de 1973, lo cual nos permitió tomar medidas preventivas que nos posibilitaron, junto a una gran dosis de suerte, salvar con vida de esta vivencia traumática.

Ya en el exilio, trabajando en el Centro de Documentación del Comité Chileno de Solidaridad de La Habana (1975-80), continué fichando toda la información sobre partidos, iglesia, organizaciones sociales, represión y fuerzas armadas. Pero agregamos al fichaje tradicional, el uso del sistema UNITERM, que permitía “cruzar la información” temáticamente al comparar índices numéricos asignados a los documentos por palabras claves. Sin saberlo claramente todavía, aplicábamos el álgebra booleana de suma, resta y multiplicación lógica, que permite realizar cualquier fórmula de búsqueda de información de forma manual o computacionalmente.

El uso y manejo más científico de la información, me permitió desarrollar más allá de la capacidad de análisis sistemático y lógico, la capacidad del pronóstico científico, que me llevó a vaticinar la invasión de Panamá, el asesinato de Torrijos y el triunfo Sandinista en Nicaragua, al menos con un año de antelación, en artículos que escribí de análisis sociopolítico de América Latina.

Más recientemente también la visita del Papa a Cuba, y el triunfo electoral de Chávez en Venezuela en el plebiscito, por mencionar hechos relevantes.

Culminé entretanto mi formación profesional, primero como Periodista y luego como Informático-Bibliotecario en la Universidad de La Habana, en un período de estudios de 9 años (1977-1985).

En ese proceso me desempeñé en todos los niveles de formación, primero como auxiliar de información, luego como técnico y finalmente como Informático, conociendo todos los procesos desde los más simples a los más complejos.

Entre 1982 y 1985 inicié mi vinculación teórico-práctica con el campo de la computación, en los dos estudios de postgrado que realicé en la Escuela de Información Científico-Técnica y Bibliotecología de la Universidad de la Habana, (ICT-B), bajo la sabia conducción de mi maestro, Ing. Carlos Newton Díaz.

Aprendimos a programar en el lenguaje BASIC, corriendo los programas de forma diferida en las Mini computadoras cubanas CID-300, y posteriormente en las primeras computadoras personales NEC que utilizaban discos flexibles de 8 pulgadas y traían el BASIC como lenguaje residente y de repente hasta caracteres japoneses que nos dejaban con un gran signo de interrogación.

En plena prehistoria de las computadoras personales, aprendimos y utilizamos el Sistema Operativo CPM-86, padre del posterior DOS y MS-DOS. En este ambiente trabajamos con los primeros procesadores de texto, hojas de cálculo y administradores de bases de datos, WordStar, SuperCall y DBase entre los más estándar de esa época.

Hicimos así las primeras experiencias en el diseño de bases de datos bibliográficas en DBase II, III y FOX Pro, detectando enseguida las enormes limitaciones de los campos de longitud fija tanto para el registro como para la búsqueda de información.

En 1985, UNESCO liberó el programa CDS/ISIS para Mini y Microcomputadores, que significó un salto cualitativo en la administración y diseño de Bases de Datos textuales no numéricas. ¡Por fin campos de longitud variable!, y por supuesto asociado a ello, la posibilidad del texto completo, y de ahí al hipertexto que concibió Theodore Holm Nelson en 1965 y definió como “lectura no secuencial”.

CDS/ISIS con su opción de indización automática para la recuperación de información, sintetizó las aspiraciones que tenía conciente o instintivamente de localizar de forma instantánea la información dentro del universo textual y virtual.

Las posibilidades de normalización terminológica, uso de tesauros e intercambio de información en procesos de importación y exportación con reformateo de datos, abrió un cauce inagotable de posibilidades de manejo de la información.

El lenguaje de programación ISIS-Pascal (para muchos un dialecto), vino a incrementar aún más las posibilidades que CDS/ISIS no tuviera límites en el tratamiento informativo documental.

La Base de Datos THES y el programa en ISIS-Pascal THES.PCD que se distribuían con CDS/ISIS para MS-DOS, me permitieron crear el primer Tesauro automatizado en línea para recuperar información en bases de datos ISIS. Basado en el Tesauro Planinformación desarrollado por colegas de la Junta Central de Planificación (JUCEPLAN), que a su vez se basaron en el Tesauro de la Organización de Comercio y Desarrollo de Naciones Unidas (OCDE).

Si atiendo a lo expresado por Jesse James Garrett que dice: A lo largo de la historia humana, la gente más preocupada con la comunicación efectiva ha sido la gente que trabaja con el idioma. Antes del hipertexto, antes del texto llano mismo, el lenguaje es la herramienta original para ‘arquitecturar’ la información, debo darle la razón. (El Rol del Arquitecto de la Información. 19.05.2003.

Al querer importar texto completo para CDS/ISIS, encomendé a un joven colega (en aquel momento destacado estudiante), elaborar un programa en ISIS Pascal que permitiera importar a una base de datos ISIS, texto línea a línea y párrafo a párrafo. La primera opción me permitiría importar texto en columnas y de longitud fija, y la segunda el texto estructurado por unidades lingüísticas teniendo como base el párrafo que representa ideas completas.

Mi primera experiencia fue importar el propio manual de CDS/ISIS en español, con el que cree una base de datos a texto completo recuperable por cualquier término. En total 3.022 párrafos, con 4.481 términos y 39.628 ocurrencias en el diccionario de búsqueda.

Rompiendo con el uso tradicional de ISIS para información exclusivamente bibliográfica, estas técnicas me han permitido procesar todo tipo de documentos, aplicando la informetría, generar bases de datos terminológicas, procesar encuestas, y una infinidad de aplicaciones no convencionales.

En 1992 presenté la ponencia “Procedimiento y Base de Datos para control de información almacenada en discos de computadora” en las II Jornadas nacionales y I Latinoamericanas y del Caribe sobre MicroIsis (15 al 23 de Junio, 1992. : Buenos Aires, Argentina), donde el hipertexto era la información proporcionada por el comando DIR del MS-DOS e importada a CDS/ISIS para su recuperación.

Esta aplicación fue en bruto la más cercana, a mi inquietud de querer controlar la “información local” de archivos almacenados en el computador personal y aplicable a cualquier dispositivo de almacenamiento (disquete, disco duro, CD, DVD).

En el año 1994, conocí el programa Search City, desarrollado por el Dr. Ricardo Baeza Yates (Profesor titular (catedrático en España) y director del Centro de Investigación de la Web del Departamento de Ciencias de la Computación de la Escuela de Ingeniería, Facultad de Ciencias Físicas y Matemáticas de la Universidad de Chile. , miembro de la Academia Chilena de Ciencias), que permitía marcar documentos de texto en formato Word y TXT en el disco duro, para generar un índice y su posterior recuperación a nivel hipertextual, permitiendo crear grupos temáticos de búsqueda, utilizar filtros y acceder al documento completo, a las palabras y párrafos contextuales.

Catalogado como “una poderosa herramienta de búsqueda y recuperación de texto para usuarios de Windows”, apuntaba a resolver la problemática de que “Hoy en día, los usuarios de PC enfrentan el desafío de manejar y almacenar grandes cantidades de información en la forma de archivos de texto. Los métodos tradicionales de manejo de información no ofrecen soluciones para administrar información no estructurada, ubicada en archivos y documentos.” (Search City : Primeros pasos : Introducción. Pág. 2, 1993).

Entusiasmado y gracias a la generosa donación de su autor, de una copia liberada con sus respectivos manuales, me convertí en su promotor en las instituciones de información que asesoraba, pero al parecer era una herramienta demasiado futurista y sólo una institución decidió adquirirla.

La herramienta estuvo vigente hasta que salió Windows 95 y los formatos se hicieron incompatibles. Entonces, logré encontrar en Internet una versión del antiguo XTree para administrar discos, directorios y archivos en MS-DOS, el ZTreeGold para Windows, que utilizo hasta hoy por sus numerosas y eficientes prestaciones, entre las que se encontraba buscar por palabras clave en documentos de texto incluyendo Word y PDF.

Pero sólo este 14 de Octubre, Google ha proporcionado una herramienta que satisface plenamente las expectativas de manejo de información: Google Desktop Search, en su versión Beta.

Esta poderosa herramienta me ha permitido localizar las fuentes citadas de este documento de la forma más rápida y eficiente, considerando que tengo 79.120 ítems indexados para su recuperación (48.856 archivos de texto, 21.460 correos, y 8.804 páginas web), en mis discos duros. Esto aumentará significativamente cuando descomprima mis archivos ZIP y agregue los documentos que contienen, y por supuesto en la medida que siga incrementando mis archivos, pues la actualización del índice es permanente.

¿Qué es Google Desktop Search?

Es un motor de búsqueda de información, que yo calificaría de “Concorde de búsqueda” por su potencia, velocidad y diseño. Permite buscar archivos Word, Excel, PowerPoint, PDF, TXT, HTM, correos Outlook Express y AOL Messenger, imágenes JPG y GIF, y archivos de audio MP3, en los discos duros de su computador, luego de crear un índice cuya generación, dependiendo de la cantidad de archivos, puede durar varias horas al comenzar y luego se actualizan en la medida de su incremento. Este proceso de indización se realiza sin interrumpir el trabajo habitual en el PC en los momentos que está inactivo.

En otras palabras es instalar el Google en su PC, y permite combinar las búsquedas “locales” con las de Internet si lo desea. Cuestión que es muy conveniente para “recordar” lo que uno tiene almacenado por años.

Los resultados se pueden acceder por tipos de archivos, que Google generaliza como: Todos (All), Correos (emails), Archivos (Files), Chats, y Páginas Web (web history). Los resultados los puede ordenar por relevancia (Sort by relevance) o por fecha (Sorted by date). Esto dicho muy resumidamente, pues hay mucho más por explorar.

Requerimientos:

Pentium de 400 MHz, 500 MB de disco duro, 128 MB en RAM y Windows XP o 2000 SP3.

En caso de conflicto con otros programas instalados previamente, recibirá un mensaje indicando que hacer.

Se puede descargar de : http://www.desktop.google.com/

Finalmente, es conveniente advertir que existen incompatibilidades parciales o totales con algunos programas.INCOMPATIBILIDADES PARCIALES:- NetLimiter (nl_lsp.dll)- Microsoft Firewall Client (wspwsp.dll)- webhdll.dll (WebHancer Customer Companion)- Panda AntiVirus- new.net or newdotnet (QuickSearch Toolbar and Quick!)- FilterPak- Msx2.dll (computercops)SOLUCION: Desinstalar el programa en conflicto, instalar Google Desktop Search y reinstalar el programa en conflicto.

OTRAS INCOMPATIBILIDADES PARCIALES:- Microsoft Firewall Client\wspwsp.dll (to upgrade to version 4, contact your ISA/Firewall Client provider)- SpamSubtract (upgrade to version 2.0 to solve the conflict)- dcsws2.dll (DiamondCS Port Explorer) NOTE: this error cannot currently be fixed, but it should cause no problems other than chats not being indexed correctly

SOLUCION: Desinstalar Google Desktop Search, actualizar el programa en conflicto a la última versión, reinstalar Google Desktop Search.INCOMPATIBILIDAD TOTAL:- NOD32 AntiVirus- mclsp.dll (McAfee Privacy Service)- Vetredir.dll (VET Antivirus)- aslsp.dll (from Aventail)- stplayer.dll- Mwtsp.dll (V MicroWorld Escan/Mailscan)- farlsp.dll or fbm.dll (Hacker Smacker Firewall)- cwhook.dll (ContentWatch Internet Filter)- Netdog.dll (V Armor2net personal firewall)- Armor2net- Mwtsp.dll (escan Monitor)- Ndpwsspr.dll- Connwsp.dll (Port Magic)- Idmmbc.dll (V Internet Download Manager)- Inetcntrl.dll (V Bsafe Online Internet Content Filter)- Ictload.dll (V Accelenet Internet Accelerator)- Pxlsp.dll (ProxyConn)- SmartPassSOLUCION: Desintalar el programa en conflicto e instalar Google Desktop Search. O esperar se resuelva la incompatibilidad.En cualquier caso, el mismo Google Desktop Search emite un mensaje de aviso sobre el programa en conflicto en el momento de ejecutar el instalador.