Apuntes, son solo apuntes: enero 2007

miércoles, enero 31, 2007

Conferencia “La Ley de los Buscadores"

Vía OjoBuscador me entero que en diciembre del 2006, en la Universidad de Haifa se organizó una conferencia “La Ley de los Buscadores”. Se trató el problema de la regulación , proiedad intelectual, libre expresión, derecho y funcionamiento de los servicios públicos de búsqueda.

Hay presentaciones online en esta página:

martes, enero 30, 2007

Universidad española en crisis

Vía el blog de Christian Silva me entero de la existencia de un artículo de opinión sobre la realidad de la universidad española. Las reflexiones fueron vertidas por Julián Casanova profesor de Historia Contemporánea en la Universidad de Zaragoza. En su lectura veo cosas que nos están pasando a nosotros también, en particular la pérdida del concepto básico de universidad, el cual en algunos lugares ha sido relegado, y quizas "enseñadero", en un futuro cercano, sea un término más acertado.

Les copio algunos párrafos que me llamaron la atención:

"Los estudiantes y el sistema educativo tampoco nos exigen mucho. Para una buena parte de los estudiantes, la universidad es una continuación del Bachillerato: hacen decenas de exámenes, con varias convocatorias para aprobar una asignatura, raramente intervienen en seminarios o debates orientados por profesores y pueden acabar la carrera sin haber escrito un trabajo académico. Sus representantes, elegidos por una exigua minoría, participan en los órganos de gobierno y están muy involucrados en las elecciones a decanos o rectores, pero apenas muestran interés en opinar sobre el currículo, o exigir a los profesores una mejor enseñanza, lo que a menudo significaría más trabajo y menos dependencia de los apuntes tomados en clase.

Un estudiante que obtiene una licenciatura debería ser capaz de pensar con claridad y escribir con precisión. Debería tener una apreciación crítica de cómo obtener los métodos del conocimiento científico, sea para comprender el universo, la sociedad o las personas que nos rodean... Para eso sirve la universidad, para formar ciudadanos y no sólo para repartir títulos. Educar y formar intelectuales.

La universidad es de todos, pero algunos deberían tener mucha más responsabilidad y poder que otros. Debe estar gobernada por los que tienen experiencia y han demostrado excelencia en la docencia y en la investigación."

No dejen de leer el artículo.

lunes, enero 29, 2007

2006 - Avances más significativos en tecnología de la información

Technology Review es una publicación electrónica del MIT, la cual en un artículo presentó los avances más significativos en tecnología de la información para el año 2006, siendo ellos:

Image and video search.
Mobile-phone projectors.
Geotagging.
Tools for content creation and sharing.
Electronics without silicon.
Flash memory.

off topic: peli "el señor de la guerra"

Es raro que vea cine, pero ayer me enganché con una peli "El señor de la guerra" con Nicholas Cage (hace de Yuri Orlov un traficante sicópata, es decir que lo hace sin conciencia de ello). En sintesis es una crítica en tono de irónico a los traficantes de armas. No busquen algo profundo,
es solo una película que costo cerca de 50 millones de dólares, que por ser norteamericana y tratar el tema lo hace, en principio, bien. Genial el diálogo en que Cage
detenido por un agente de nortemaricano de Interpol le dice " que el mayor traficante del mundo es el presidente de los Estados Unidos.".

Bibliorandum

Es un proyecto del área de documentación que intenta la integración de e-prints relativos al mundo de la información. Bibliorandum permite a los usuarios buscar en e-prints de biblioteconomia y documentación de distintos repositorios digitales de acceso libre.

Explicit Semantic Analysis

Recomiendo la lectura de un trabajo de investigación de Evgeniy Gabrilovich y Shaul Markovitch, titulado "Computing Semantic Relatedness using Wikipedia-based Explicit Semantic Analysis". Se presentra un método sencillo para tratar de medir la vinculación o relación semántica entre dos textos cualesquiera. Los autores presentan un método llamado Explicit Semantic Analysis (ESA) y lo prueban, con una buena perfomance, sobre artículos de la Wikipedia.

viernes, enero 26, 2007

Regalo digital

Si tenés un pibe al cual aprecias y deseas transmitirle el amor por las matemáticas,
demás está decir que los libros I y II de Adrián Paenza son el regalo justo para iniciarlo
en tan apasionante área. Pero también existe otro autor llamado Júlio César de Mello e Souza, el cual bajo el alias de Malba Tahan, en 1949, escribio la obra titulada "El hombre que calculaba".

El libro en cuestión intenta (desde mi punto de vista) atrapar a jovenes lectores a patir de historias, problemas y enigmas que se suceden en una serie de relatos. Donde cada uno está basado en un problema matemático.

El protagonista es un matemático persa llamado Beremiz Samir, el cual preregrina a lo largo del libro y usa su ingenio para resolver problemas que encuentra en su camino. COmo es un cuento al final itenta conquistar a la clásica princesa.

Suete y buenas recomendaciones!!!

miércoles, enero 24, 2007

Nos falta crecer

En base a un post publicado en Telendro fue cuando me surgió esta reflexión.

"En el mundo hay 87.253.448 hispano hablantes que utilizan internet, esto representa el 8,0% del total de usuarios de internet en el mundo. Se estima que hay 512.036.778 personas en el mundo que hablan español, solamente un 17% de ellas utiliza internet. El número de internautas hispano hablantes ha crecido en los últimos 6 años (2000-2007) un 253,5%."

36 JAIIO

Este año, en la ciudad de Mar del Plata, se realizará el evento "36 JAIIO". Estas Jornadas Argentinas de Informática son organizadas porSADIO y tratan sobre investigaciones de profesionales argentinos y extranjeros.

Wste eventro se organiza como un conjunto de simposios separados, cada uno dedicado a un tema específico, aquí los listo:

» ASAI 2007 - Simposio Argentino de Inteligencia Artificial
» ASSE 2007 - Simposio Argentino de Ingeniería de Software
» AST 2007 - Simposio Argentino de Tecnología
» SSI 2007 - Simposio sobre la Sociedad de la Información
» SID 2007 - Simposio de Informática y Derecho
» SIO 2007 - Simposio de Investigación Operativa
» SIS 2007 - Simposio de Informática y Salud
» SIE 2007 - Simposio de Informática en el Estado
» EST 2007 - Concurso de Trabajos Estudiantiles
» JSL 2007 - Jornadas de Software Libre
» JII 2007 - Jornadas de Informática Industrial
» JUI 2007 - Jornadas de Vinculación Universidad - Industria

La 36° JAIIO se realizará en la ciudad de Mar del Plata, del 27 al 31 de Agosto de 2007.

lunes, enero 22, 2007

Argentina y el consumo tecnológico

Hoy el diario La Nación, en su suplemento de informática, presenta una nota sobre
aspectos de la evolución de distintas tecnologías digitales en la población de nuestro país.
Como resumen indica que "en el país hay 6 millones de computadoras, 30 millones de líneas móviles, 1,5 millones de accesos de banda ancha y más de 10 millones de argentinos navegan por la red de redes"

sábado, enero 20, 2007

Medidas complementarias para evaluar Sistemas de Recuperación de Información I

Precisión-R

Una medida complementaria es la Precisión-R, la cual corresponde al valor de la Precisión en la posición R-ésima, donde R es la cantidad de documentos relevantes para una consulta.

Suponga que un sistema retorna la siguiente salida para una consulta q cualquiera (los documentos marcados son los relevantes recuperados), donde la cantidad de documentos relevantes para q es 8.

Ahora, se calcula la Precisión en la posición R (j = 8) para obtener esta medida, resultando:
Un valor de Precisión-R de 1.0 corresponde a una recuperación con Precisión y Exhaustividad perfecta la cual – como hemos mencionado – no es una situación normalmente alcanzable.

presición-R = 4 / 8 = 0,5

Esta medida es útil para analizar un sistema según las respuestas entregadas consulta por consulta. Para ello, se ejecutan un conjunto de tareas de recuperación para |Q| queries y se calcula la Precisión-R para cada una. Luego, se promedian para obtener una medida general del sistema. Otra posibilidad es utilizar esta medida para comparar dos sistemas a través de histogramas producidos con el conjunto Q de consultas. Sean PRA(i) la Precisión-R de un sistema A y PRB(i) la Precisión-R de un sistema B, para una consulta i, se define la diferencia [Baeza-Yates, 1999]:

PRA/B(i) = PRA(i) – PRB(i)

Luego, si:
PRA(i) > 0, el sistema A supera al B
PRA(i) <>PRA(i) = 0, ambos sistemas se comportan de manera equivalente

En la siguiente tabla se muestra un ejemplo sobre 10 consultas realizadas a dos sistemas (A y B). El gráfico 7 corresponde al histograma de precisión ejemplo para los dos sistemas. Aquí se aprecia claramente la cantidad de queries en que uno superó al otro.

Si se analizan por consulta se puede observar que el sistema A superó en 6 queries al sistema B, mientras este último lo realizó en 4 oportunidades con el sistema A. Además, si se promedian las diferencias PRA(i) - PRB(i) se tendrá un valor positivo en función de lo explicado anteriormente. Esta evaluación indica que el sistema A tiene una mejor performance en la recuperación que el sistema B.

Score-F o Media Armónica

Esta medida combina la Precisión y la Exhaustividad en un único valor, también entre 0 y 1. Lo interesante de esta métrica es que un máximo valor de F corresponde al mejor compromiso entre P y E y su valor solamente será alto cuando ambas componentes tengan valores altos. Si F = 0 no se han recuperado documentos relevantes, mientras que si F = 1 se han recuperado todos los documentos relevantes (y solo estos). Entonces, la media armónica se define como:

Donde, e(j) corresponde a la Exhaustividad en el punto j y P(j) es la Precisión del j-ésimo documento.

Podemos calcular F(j) tal como:

El mejor compromiso entre E y P lo tenemos al recuperar el séptimo documento, por lo tanto es una indicación acerca de cuántas respuestas se pueden solicitar a un SRI.

Baeza-Yates, R. y Ribeiro-Neto, B. “Modern Information Retrieval”. ACM Press. Addison Wesley. 1999.

jueves, enero 18, 2007

Tecnología de reconocimiento de formas

Hay una web "www.like.com" donde se utiliza la tecnología de reconocimiento de formas a los efectos de hallar posibles ofertas de productos visualmente parecidos al que un usuario dió como ejemplo.

WikiSeek

WikiSeek es un motor de búsqueda cuyo único objetivo es brindar el mejor servicio en consultas sobre el dominio de la Wikipedia.

miércoles, enero 10, 2007

La vida social de los routers.

El título de este post corresponde a un artículo de Valdis Krebs "La vida social de los routers. Aplicando el conocimiento de las redes humanas al diseño de las redes de ordenadores" que ha sido publicado en el volumen 11, número 8 (diciembre 2006) de la revista REDES (Revista hispana para el análisis de redes sociales).

El artículo plantea que en principio es posible aplicar conocimientos de redes sociales (donde los actores son personas u organizaciones y las relaciones son de tipo conoce_a, le_gusta_tal, trabajó_con, etc) en redes de datos a los eefctos de mejorarlas en sus prestaciones y robustez.

Les copio las conclusiones "En el mundo real es posible que no tengamos la flexibilidad para experimentar con nuestro modelo de red que hemos tenido en estos ejemplos. Habrá más limitaciones. Los flujos de información en tu organización pueden requerir que pares específicos de routers tengan enlaces directos –incluso aunque dichas conexiones no fuesen recomendables de acuerdo con los algoritmos que hemos estado examinando. No obstante, cuando sabemos qué conexiones “tienen que estar”, podemos experimentar con la ubicación de las demás conexiones utilizando la métrica de las redes sociales para indicar cuándo nos estamos acercando a una topología robusta y eficiente. Dadas determinadas “condiciones iniciales”, los métodos de redes sociales pueden modelar nuestras redes de ordenadores y sugerir cambios en los enlaces[6] para conformar una topología efectiva, que tiene un bajo promedio de saltos, no demasiados caminos y suficiente redundancia."

martes, enero 09, 2007

Off topic: Parao!

Rubén Blades y Editus en su CD Mundo intepretan Parao! un tema con una letra de puta madre, me gustó y la quiero compartir, disculpen si no es del tema, pero se me permite un off topic.

Hay quien ve la luz al final de su tunel
Y construye un nuevo tunel, pa´ no ver,
Y se queda entre lo oscuro, y se consume,
Lamentando lo que nunca llegó a ser.
Yo no fui el mejor ejemplo y te lo admito,
Fácil es juzgar la noche al otro día;
Pero fui sincero, y éso sí lo grito,
Que yo nunca he hipotecado al alma mía!
Si yo he vivido parao, ay que me entierren parao;
Si pagué el precio que paga el que no vive arrodillao!
La vida me ha restregao, pero jamás me ha planchao.
En la buena y en la mala, voy con los dientes pelaos!
Sonriendo y de pie: siempre parao!

Las desgracias hacen fuerte al sentimiento
Si asimila cada golpe que ha aguantao.
La memoria se convierte en un sustento,
Celebrando cada rio que se ha cruzao.
Me pregunto, cómo puede creerse vivo,
El que existe pa´ culpar a los demás?
Que se calle y que se salga del camino,
Y que deje al resto del mundo caminar!
A mí me entierran parao.
Ay, que me entierren parao!
Ahí te dejo mi sonrisa y todo lo que me han quitao.
Lo que perdí no he llorao, si yo he vivido sobrao,
Dando gracias por las cosas
Que en la ruta me he encontrao.
Sumo y resto en carne propia,
De mi conciencia abrazao.
Parao! aunque me haya equivocao,

Aunque me hayan señalao,
Parao! en agua de luna mojao,
Disfrutando la memoria de los rios que he cruzao,
Aunque casi me haya ahogao, sigo parao!

Parao!

Disculpen mi ignorancia

Hoy tuve una grata sorpresa al conocer (luego de casi 3 años de demora, se ve que mi raviol está bien blindado) que el filántropo Richard Stallman ha sido designado Doctor Honoris Causa de la Universidad Nacional de Salta (Argentina). Celebro este acontecimiento y agradezco a la comunidad universitaria de Salta por tener tan elevados objetivos sociales.

Como siempre digo "que el ejemplo llegue y se convierta una situación normal en otros lugares"

lunes, enero 08, 2007

Adolescentes y el uso de redes de contactos

Pew Internet, ayer domingo 7, publicó un nuevo estudio "Social Networking Websites and Teens: An Overview", en el cual analiza el comportamiento de jóvenes norteamericanos entre 12 y 17 años en lo relativo al cceso a redes sociales en línea. La muestra fué de 935 jóvenes, entrevistados entre octubre y noviembre del año 2006.

De sus conclusiones se pueden citar las siguientes

* El 55% de los jovenes americanos (12 a 17 años) que frecuentan Internet acceden a sitios de la categoría redes sociales (tipo MySpace o Facebook). Donde el 48% de estos jóvenes visita tales sitios a menudo, el 26% todos los días y el 22% varias veces por día.

* Las niñas de mayor edad (en el rango antedicho) acceden en mayor proporción a los sitios mencionados.

* El 55% de la población en estudio creó un perfil suyo en algún sitio de contactos sociales. El 66% de los que crearon su perfil indican que éste no es visible a todos los usuarios de Internet.

El 91% de los jóvenes que usan sitios sociales indican que lo hacen a los efectos de mantenerse en contacto con amigos que se ven frecuentemente, mientras que el 82% indica lo hace para mantenerse en contacto con amigos que se ven en raras ocasiones.

* El 72% de los adolescentes accede a estas redes a los efectos de acordar planes con amigos y un 49% busca nuevos amigos.

* El 17% de los adolescentes utiliza los sitios en estudio con la finalidad de lograr un romance (to flirt).

Aquí van las tablas resumen extraidas del texto original

domingo, enero 07, 2007

Estudio sobre hábitos de los jóvenes en Internet

La Orgnaización OMD y Yahoo, en setiembre del 2007, realizaron un estudio sobre hábitos de los jóvenes en Internet, que lleva por título “Truly, Madly, Deeply Engaged: Global Youth, Media and Technology”. Entrevistaron más de 5000 jóvenes entre 13 y 14 años provenientes de 11 países (USA, Alemania, Francia, China, Inglaterra, Hong Kong, Corea, Rusia, India, Australia y México).

sábado, enero 06, 2007

Web recomendada sobre documentación

Luis Codina es profesor de la Universidad Pompeu Fabra en Barcelona especializado en temas relacionados con la informática documental, el periodismo y los motores de búsqueda. Actualmente dirige la maestría sobre documentación Digital. En su página web tiene una sección de artículos y presentaciones las cuales son interesantes para aquellos que gustan o se están iniciando en esta temática.

viernes, enero 05, 2007

Estadísticas de uso de motores de consulta - diciembre 2006

En el sitio de la empresa Enquisite hay un informe titulado "Search Engine Market Shares - December 2006" el cual nos indica, como ya estamos acostumbrados, que el gran ganador ha sido Google. Lo que no me termina cerrando es la gran diferencia que tiene con el segundo.

miércoles, enero 03, 2007

Evaluación de los Sistemas de recuperación de información - 3ra Parte

Partes del libro que he escrito con Gabriel Tolosa, titulado “Introducción a la Recuperación de Información”

Evaluación de los Sistemas de recuperación de información - 3ra Parte

(Ir a la 2da parte)

Sin embargo, resulta necesario un análisis más detallado calculando las medidas P y E para cada posición dj. Este brinda una mejor perspectiva del comportamiento del sistema. Veamos para la salida del ejemplo anterior:

En esta tabla se puede apreciar como varia la Precisión a medida que se recuperan más documentos relevantes, es decir, cuando se avanza en ranking de la lista de respuesta y aumenta la exhaustividad. En el gráfico 3 se muestra la evolución de ambas medidas conforme se avanza en la lista rankeada de documentos recuperados. El eje x representa el número de documentos evaluados y las curvas muestran el comportamiento de las medidas.

Para esta evaluación también resulta de utilidad una gráfica donde se relacionen ambas medidas. Generalmente, para el eje X se toman 11 niveles standard de Exhaustividad (0.0, 0.1, 0.2,, 0.9, 1.0). Los niveles de exhaustividad se utilizan para mostrar el comportamiento de un sistema de recuperación contrastándolos con la precisión. En el gráfico 4 se muestra esta relación para la salida del sistema del ejemplo anterior.

Como se puede apreciar, los valores de Precisión y Exhaustividad son relativos al tamaño de la respuesta que se está evaluando y permiten – solo a través del análisis detallado – evaluar minuciosamente la performance del sistema.

Ahora bien, supóngase que para el mismo corpus y la misma consulta otro sistema entrega la siguiente respuesta consistente de 20 documentos, B’’:

B’’ = {d79, d10, d90, d81, d2, d70, d82, d13, d20, d45, d60, d30, d77, d91, d21, d88, d100, d1, d29, d11}

Los valores para P y E son:

P = 10 / 20 = 0.50
E = 10 / 10 = 1.00

Por lo que presupone que ambos sistemas tienen una performance equivalente. Sin embargo, si lo analizamos para cada posición de dj tendremos:

En el gráfico 5 se muestra la curva de Exhaustividad/Precisión para la salida del nuevo sistema (denominado Sistema 2) comparado con el anterior (Sistema 1). Aquí se puede apreciar que este nuevo sistema siempre alcanza una mayor precisión al recuperar los documentos entre los primeros de la lista de respuesta. Esto se debe a que la exhaustividad máxima se alcanza antes de tener que revisar toda la respuesta. Ahora bien, ¿Es mejor el segundo sistema que el primero? En términos de Exhaustividad y Precisión se puede afirmar que sí a partir de este análisis.

Ahora, supóngase que para una nueva consulta el conjunto de los documentos relevantes es el siguiente:

R = {d2, d45, d70, d77 }

Si se evalúan los niveles de exhaustividad nos encontramos con 0.25, 0.50, 0.75 y 1.00. Si se desean comparar dos o más consultas resulta necesario normalizar los niveles de exhaustividad a los standard utilizando interpolación. La precisión interpolada al nivel standard de exhaustividad j se define como la máxima precisión obtenida en algún nivel de exhaustividad entre j y (j + 1):

P(r) = max P(r) j Î {1, 2 , 3,…, 9, 10}
rj <= r <= r j+1

Si por una consulta realizada al sistema se tiene la siguiente respuesta:

A’ = {d77, d10, d70, d13, d20, d45, d2}

El análisis detallado resulta:

Si bien aquí se presentaron los resultados para una sola consulta, en la evaluación de un sistema real se deben ejecutar decenas de consultas y promediar los resultados antes de comparar diferentes sistemas. Para un conjunto Q, de tamaño |Q|, la precisión promedio al nivel r es:

Normalmente, para poder comparar dos o más sistemas se deben ejecutar varias corridas de cada uno, utilizando el conjunto de consultas Q y – finalmente – obtener la precisión promedio.

Aunque la Exhaustividad y la Precisión son ampliamente utilizadas como base para la evaluación de los SRI, Baeza-Yates [2] señala algunas cuestiones referidas a éstas:

1) Para poder determinar la Exhaustividad máxima para una consulta se requiere conocer completamente la colección, al detalle de discernir los documentos relevantes de los que no lo son. Por otro lado, P se puede calcular de manera exacta mientras que E no siempre.

2) Estas medidas capturan aspectos diferentes del conjunto de respuesta y – en algunos casos – resulta más útil una medida única. En esta cuestión Korfhage [Korfhage, 1999] señala que E y P se encuentran relacionadas de tal manera que si se las analiza por separado muestran una vista incompleta de la efectividad del sistema evaluado.

3) Estas medidas requieren del procesamiento por lotes de un conjunto de consultas, por lo que no resultan útiles en sistemas interactivos.

Complementariamente a lo expresado en el punto 2, Martínez-Méndez [36] plantea que muchos usuarios consideran más importante la Precisión ya que – mientras encuentren información relevante – no se preocuparán tanto por los documentos que no se recuperan. Según Cleverdon, la Precisión resulta interesante al usuario, no así la Exhaustividad ya que se valoran más las salidas sin ruido. No obstante, hay situaciones donde un usuario puede estar interesado en valores altos de Exhaustividad. Suponga que un estudiante se encuentra realizando una tesis sobre un tema cualquiera. En la etapa de relevamiento de trabajos relacionados, al interactuar con un SRI, seguramente estará interesado en que el resultado de su búsqueda sean todos los documentos existentes – aunque se conforme con una alta proporción – sobre su tema de trabajo.

Un ejemplo opuesto al presentado en el párrafo anterior, en el cual se desee obtener alta Precisión, es el caso de un usuario que utiliza un buscador de Internet para hallar el significado de un término, donde espera que su necesidad de información se satisfaga en el menor tiempo posible .

A continuación, se presentan otras medidas que complementan las enunciadas. Algunas son definiciones nuevas y otras combinaciones de E y P que brindan un valor único de la performance de un sistema.

Referencias

[2] Baeza-Yates, R. y Ribeiro-Neto, B. “Modern Information Retrieval”. ACM Press. Addison Wesley. 1999.

[36] Martinez Mendez, F.J. y Rodriguez Muñoz, J.V. “Reflexiones sobre la Evaluación de los Sistemas de Recuperación de Información: Necesidad, Utilidad y Viabilidad”. Anales de Documentación, Nro. 7, págs. 153-170. 2004.

martes, enero 02, 2007

Predicciones web 2007 (gracias a Dios por técnicos)

En el blog Read/Write Web publicaron las predicciones sobre aspectos tecnológicos por donde creen que la web evolucionará este año. Es interesante el dato que aquí y en varios lugares se diga que lo que viene es la revancha de la web semántica.