sábado, marzo 31, 2007

Crecimiento del parque de servidores en Argentina

.
CFI en Red ha publicado una nota donde comenta los estudios de la consultora IDC acerca del parque informático en la República Argentina.

Relfexiones varias sobre patentes y otras cuestiones

Ricardo Galli es un conocido promotor del software libre en España. En su blog publica una nota de reflexión acerca de temas relacionados con el conocimiento (canon, patentes, publicaciones, etc), en particular con su expansión, extensión y apropiación de sus beneficios por parte de la sociedad.

Humor: Diferencia entre una persona común y un científico

Vía Blog XKCD

viernes, marzo 30, 2007

Nueva versión 2007 del "Índice de Disponibilidad de Red"


Se ha publicado la edición 2006-2007 del ranking de países competitivos en el aspecto de tecnología de la información y comunicaciones. Este indicador es generado por el Foro Económico Mundial y mide el "Índice de Disponibilidad de Red" de 122 países, es decir el grado de preparación de un país para participar y beneficiase de los desarrollos en tecnologías de la información y comunicaciones. En latinoamérica encontramos el siguiente orden Chile (31), Brasil (53), Uruguay (60), Argentina (63), Colombia (64), Perú (78), Ecuador (97), Bolivia (104) y Paraguay (114). En esta edición se pueden valorar los esfuerzos realizados por Chile, país que antecede a España.

jueves, marzo 29, 2007

Informe Symantec sobre amenazas en Internet

.

Symantec acaba de publicar un informe titulado "Symantec Internet Security Threat Report Volume XI: March 2007" en el que presenta datos (relevados en el segundo semestre del año 2006) sobre los tipos de amenazas a la seguridad en Internet y la distribución geográfica de los atacantes.

Lo que sorprende del documento es que USA concentra la mayor parte de las amenazas (un 31%)

Vía Kriptópolis



Herramienta de consulta sobre posicionamiento

En esta página se encuentra una herramienta de consulta sobre posicionamiento de un dominio o sitio a partir de un término asociado. Lo particular de la herramienta es que busca sobre Google Argentina en los primeros 1000 resultados.

100 motores de búsqueda alternativos a Google

.
Es el título de un artículo del blog "Read/Write Web" en el que se presenta un directorios de servicios de búsqueda agrupados por su especialidad.

miércoles, marzo 28, 2007

Artículo de reflexión sobre docencia e investigación

Recomiendo la lectura del artículo titulado "La investigación como soporte de actividades de enseñanza universitaria" de Rodolfo Ungerfeld. Como indica su resumen , el artículo trata acerca de "porqué la investigación no debe ser concebida como una actividad exclusiva del investigador altamente especializado, sino que además puede ser utilizada como una potente herramienta de formación de recursos humanos, siendo incluso considerada por algunos como la forma más perfecta de la enseñanza universitaria".

Desde siempre pensé que la docencia y la investigación deben ir juntas, esto lo sostengo por que creo que existe una especie de retroalimentación que mejora a tales actividades simultaneamente. En definitiva, existe una sinergía permite de mejor manera a la sociedad.

Es interesante, para el debate, ciertas ideas derivadas de los párrafos del autor, donde por ejemplo indica que "... la investigación estimula el perfeccionamiento de la metodología de razonamiento, y por tanto del aprendizaje dirigido hacia el conocimiento de la verdad, lo que provoca una modificación en el comportamiento no sólo en el área científica, sino también socioeconómica y cultural en general. El desarrollo de la investigación enseña a aprender, estimulando el análisis crítico de la realidad, siendo además un importante motivador. Enseña a no aceptar los conocimientos adquiridos de la docencia o de la lectura sin analizarlos y discutirlos, reforzando nuestra propia infraestructura de conocimientos y nuestra capacidad de análisis y de síntesis...".

Por otro lado, en base a lo anterior, se me ocurren una serie de actividades relacionadas con la investigación, que los alumnos podrían realizar a lo largo de una carrera universitaria, como ser: monografías (evaluadas por el profesor de forma similar a como trabajan los árbitros de las revistas científicas), revisión bibliográfica y determinación del estado del arte de un tópico particular, estudios de opinión, trabajos estadísticos de campo, tesinas o trabajos finales de integración de conocimientos y experimentos con reportes en formato comunicación científica, entre otros.

Citizendium ha abierto sus puertas

Citizendium es una enciclopedia en línea, similar a Wikipedia, donde los editores han sido seleccionados por ser expertos en un área del conocimiento y además por poseer un título universitario. Según el autor de la idea, Larry Sanger ( uno de los fundadores de Wikipedia), se desea que este sitio sea reconocido como una fuente de calidad y precisión en lo referente a sus artículos. No esperen acceder a una importante cantidad de artículos, recien están empezando, solo cuentan con cerca de mil.

Lo que la década del 90 nos dejó

Estoy leyendo un artículo publicado hoy en el diario la Nación. Es un reportaje al presidente de Toyota Argentina, Aníbal Borderes, en el cual explica que uno de sus principales problemas es la falta de recursos humanos calificados (lease personas con estudios secundarios).

Para tratar de remediar esta situación, Toyota firmó un convenio con la UTN (sede Campana) a los efectos de capacitar personal.

martes, marzo 27, 2007

Directorio de APIs relacionadas con el movimiento Web 2.0

.
Directorio de APIs relacionadas con el movimiento Web 2.0. Es interesante el sitio debido a que en cada entrada, que referencia a una API, hay un enlace hacía quienes la están utilizando, esto funciona a modo de demostración, para no perder tiempo imaginando que hace cada una.

La universidad como fuente inagotable de ingenio

Es el primer título que se me ocurrió luego de ver el proyecto de un par de alumnos de la universidad de Sheffield Hallam (UK). El objetivo es usar webcam como medio principal de construcción de una pantalla gigante tactil que controle un sistema operativo. El proyecto se llama 'Interactive Camera-Proyector System' y pueden acceder a una ficha técnica. Además en Google hay un video demostrativo del sistema.

Lo importante es que cualquier persona podría tener este "nuevo periférico" con solo acceder al software de los alumnos, tener una webcam y un proyector.

Pd. Este tipo de descubrimientos y creaciones se logran cuando la universidad es más que un "enseñadero masivo", y hay ambientes propicios para que la comunidad universitaria pueda relacionarse (más allá de las aulas), trabajar en equipos interdisciplinarios y así potenciar sus capacidades individuales en bien de quienes los sustentan y quienes son sus beneficiarios directos, lease "la sociedad que la rodea".

lunes, marzo 26, 2007

Documental "Un claro día de justicia"

Vía la lista de la UNLP me llegó la siguiente invitación, capaz que a alguien cercano a La Plata le pueda interesar.

En el marco del Seminario "Derechos Humanos: del terrorismo de estado en Argentina al proceso de paulatina consolidación del estado de derecho" se invita a participar de la proyección del documental "Un claro día de justicia". La obra, dirigida por Ana Cacopardo e Ingrid Jaschek y producida por la Comisión Provincial por la Memoria, recrea los puntos centrales del juicio oral que culminó con la condena a reclusión perpetua del represor Miguel Osvaldo Etchecolatz. En el mismo, se reseña también el testimonio brindado por Jorge Julio López, testigo fundamental de dicho proceso, que se encuentra desaparecido desde el 18 de septiembre de 2006.

El mismo se llevará a cabo el día miércoles 28 de marzo a las 18:00 hs., en el Aula Dardo Rocha de la Presidencia de esta Casa de Altos Estudios.

Flisol 2007 de la Ciudad de La Plata

El evento Flisol 2007 (Festival Latinoamericano de Instalación de Software Libre) de la Ciudad de La Plata se realizarán el 27/4/2007 en el Albert Thomas (de 10 a 18 hs).

Un esquema tentativo de ponencias se presenta a continuación:

* Introducción al SL
* Ventajas y desventajas del SL.
* Organización Solar
* Educación bajo SL.
* Proyectos Libres
* TEDEL
* Seguridad en entorno gnu/linux
* Musix
* Técnicos Linux
* Multimedia bajo SL
* Taller orientado a docentes.

Lugar : Av Calle 1 e/ 57 y 58 nº 1220. Enviar inscripciones a jonatanlc@gmail.com

Vía Solar

Bravo!!! la UNLP tiene su Lihuen corriendo sobre una OLPC

Como siempre la Facultad de Informática de la Universidad Nacional de La Plata dando el ejemplo en educación y trabajo hacía la comunidad. Esta vez con su distribución educativa de Linux Lihuen, la cual la han adaptado y luego probado sobre una máquina OLPC.



Sigan trabajando y de nuevo Felicitaciones!!!

Vía Solar/Olivera

domingo, marzo 25, 2007

Exposición sobre microformatos en Congreso OjObuscador

Hector Garcia expone sobre microformatos, una herramienta de transición hacía la web semántica.

1ra parte


2da parte


3ra parte


4ta parte


5ta parte


Pd. Es un tema interesante y bastante poco trabajado, ideal para empezar a investigar .

Material del Congreso OjObuscador



El Congreso OjObuscador es un evento que donde profesionales de primera línea e investigadores académicos exponen y debaten sobre temas relacionados con motores de búsqueda. El último Congreso se acaba de realizar los primeros días de marzo en Madrid. Hay una página donde se listan las exposiciones realizadas y material relativo a las mismas.

PD. El martes 23 de octubre del 2007 está previsto que se lleve a cabo la versión de este Congreso en la Argentina, en un lugar todavía a determinar.

sábado, marzo 24, 2007

Humor: Siempre se nos olvida algo

UBA. Derechos Humanos podría ser asignatura obligatoria

Esta institución académica, tan maltratada -desde adentro y afuera- en los últimos tiempos, otra vez demuestra que está a la vanguardía en parte de sus acciones. Me alegra que exista consenso para discutir este tema, el cual está más allá de las peleas por el "poder", las cuales muchas veces terminan cambiando los objetivos primarios de las instituciones, por otros más personales o impulsados por "tribus" encubiertas.

En Argentina existen 1.600.000 conexiones a Internet por banda ancha

Según informa el Barómetro Cisco de Banda Ancha el crecimiento del año 2006 fue del 66,2% en los enlaces de este tipo. para fines del año 2007 se estiman que serán 2 millones de hogares quienes gozarán de este servicio.

viernes, marzo 23, 2007

humor académico: Propuesta de reglamento estudiantil

Una propuesta, con humor, de un nuevo reglamento estudiantil. Tomado de la Cueva de Vampi.

1. El alumno siempre tiene la razón.
2. En el caso que el profesor la tenga, aplicar la regla No. 1
3. El alumno no comete errores, solo comprueba la sabiduría del profesor.
4. El alumno no se vuela/capea la clase, solo sale a tomar el sol.
5. El alumno no grita, solo tiene la voz muy fuerte.
6. El alumno no dice groserías, solo expresa sus sentimientos y aprende un lenguaje vulgar.
7. El alumno no destruye el mobiliario, comprueba su resistencia.
8. El alumno no pinta los bancos, los decora.
9. El alumno no le pone apodos a los profesores, estudia sinónimos y apariencias.
10. El alumno no llega tarde, el profesor llega temprano.
11. El alumno no conversa, comenta sus puntos de vista.
12. El alumno no se copia, se cerciora que el compañero no cometa errores.
13. El alumno no contesta por que no lo sepa, sino por que el profesor ya lo sabe.
14. El alumno no hace machetes, solo sintetiza el tema.
15. El alumno no come en clase, solo se nutre bien.
16. El alumno no se sienta mal, solo busca una posición mas cómoda
17. El alumno no recibe retos, solo va a saludar a la máxima autoridad.
18. El alumno no es que no quiera estudiar la materia, solo se propone un cambio de horario.
19. El alumno no hace relajo, solo hace mas amena la clase.
20. El alumno no reprueba por que no estudie, sino por que el profesor no dio el tema.
21. El alumno no juega en clase, solo se esparce un poco.
22. El alumno no es que no quiera tomar apuntes, es que el profesor dicta muy rápido.
23. El alumno no es que no sepa los temas, es que el profesor no sabe explicar.
24. El alumno no se duerme en clase, solo se recupera de la noche anterior.
25. El alumno no es expulsado, solo se toma unas vacaciones adelantadas.
26. El alumno no ver revistas pornográficas, solo estudia anatomía
27. El alumno no fuma, estudia el efecto del tabaquismo en su clase de biología.
28. Los alumnos no matan clase, solo comprueban su capacidad de organización.
29. El alumno no soborna al profesor, solo financia su calificación.
30. Esta constitución queda reservada para uso exclusivo de los alumnos y que puedan hacer uso de ella cuando les convenga.
31. Todos los alumnos quedan protegidos bajo esta constitución.

jueves, marzo 22, 2007

Uso de software servidor de correo electrónico

Uso de software servidor de correo electrónico. Datos provistos por Security Space marzo 2007


Servidor de Correo electrónico Porcentaje
Sendmail 31.50%
Microsoft 21.20%
Exim 18.74%
Postfix 13.57%
IMail 4.03%
MDaemon 2.38%
MailEnable 2.18%
Merak 0.95%
Lotus Domino 0.91%
CommuniGate Pro 0.58%
Trend Micro 0.54%
WinWebMail 0.47%
Kerio 0.46%
GroupWise 0.46%
ArGoSoft 0.35%
XMail 0.27%
SurgeSMTP 0.19%
Otros 15.06%

Estadísticas Netcraft abril 2007

Netcraft es una empresa que se dedica a recolectar datos sobre servidores en Internet. En el mes de marzo de este año lleva registrados 110.460.149 sitios y ha actualizado su gráfico donde se muestra la evolución del mercado de servidores HTTP.

La evolución de Microsoft se ha detenido, hay que esperar a ver que pasa con este "duelo" entre dos grandes del software.

miércoles, marzo 21, 2007

Snipitron

.
Snipitron es un sitio perteneciente a la categoría de software social, donde profesionales, investigadores, profesores y alumnos almacenan y comparten sus enlaces.

spinitron.jpg


Humor: 24 definiciones de "Es Primo"

Gabriel me ha pasado este enlace al blog La Cueva de la Vampi donde se presentan 24 definiciones de "es primo". Les copio las tres primeras:

1. MATEMATICO:3 es primo, 5 es primo, 7 es primo, y por inducción, todos los números impares son primos.

2. FISICO: 3 es primo, 5 es primo, 7 es primo, y por inducción, todos los números impares son primos. Nota: al llegar al 9 se obtiene un error experimental.

3. INGENIERO: 3 es primo, 5 es primo, 7 es primo, 9 es primo, y por inducción, todos los números impares son primos

Se agradece el aporte.

Evento WSEAS Data Mining 2007

3er WSEAS Simposio Internacional sobre Data Mining.
Beijing, China, September 15-17, 2007
URL del sitio: http://wseas.org/conferences/2007/china/smo/dm

Tópicos:

Information Retrieval, Data Mining for Decision Support Systems, Text mining and text categorization, Decision trees
Clustering, Classification, Regression, Time Series Analysis, Prediction, Summarization, Association Rules, Sequence Discovery, Dimensional Modeling, Data Warehousing, OLAP (Online Analytic Processing), Statistical Algorithms for Data Mining,
Stochastic Algorithms for Data Mining, Neural Networks for Data Mining, Fuzzy Logic for Data Mining, Genetic Algorithms for Data Mining, Machine Learning, Pattern Matching, Rule-based Algorithms, Hierarchical Algorithms, Partitional Algorithms
Clustering Large Data Bases, Clustering with Categorical Attributes, Parallel and Distributed Algorithms, Incremental Rules
Web Mining, Web Content Mining, Web Usage Mining, Search Engines, Security and Privacy, Virtual Agents, Competitive intelligence, Spatial Mining, Spatial Rules, Spatial Classification Algorithms, Spatial Clustering Algorithms, Temporal Mining, Modeling Temporal Events, Time Series, Pattern Detection, Software Products for Data Mining, Applications, Social Implications of Data Mining, Educational Aspects.

Los trabajos aceptados se publicarán en:

(1) Hard-Copy Proceedings (Book) with ISBN and ISSN recognized and indexed by the all the Citation Indexes: www.worldses.org/indexes

(2) CD-ROM Proceedings with pages' numbers with ISBN and ISSN
recognized and indexed by the all the Citation Indexes: www.worldses.org/indexes

(3) E-Library: http://www.wseas.org/online

y posiblemente en

(4) JOURNAL PUBLICATION: Authors of high - quality papers of archival value are invited to send extended versions of their papers to the international WSEAS Journals after the conference.

martes, marzo 20, 2007

Nuevo grupo de investigación sobre búsquedas en video

.
Yahoo! Research de Barcelona está liderando el proyecto SEMEDIA (con Ricardo Baeza Yates a la caberza), el cual tiene por objetivo desarrollar herramientas de búsquedas de vídeo aplicables a los medios audiovisuales y online. Además, en este proyecto participan compañías e instituciones educativas tales como BBC, Smoke & Mirrors, DVS y Televisión de Cataluña, Universitat Pompeu Fabra, Universitat Politecnica de Catalunya y la Universidad de Glasgow. El proyecto contempla el desarrollo de un juego aplicaciones de búsqueda de vídeo y la investigación en como generar metadatos automáticamente.

¿Cuál es el error que hay en el envase?

.
¿Cuál es el error que hay en el envase?


Pd. Si estás familiarizado con las bases de datos lo sacás al toque.

Vía Techtear

¿Nuevos medios? Transmisión de datos vía veleros

En el blog de Jonathan Schwartz (CEO de la empresa SUN) hay una interesante reflexión sobre las capacidades de Internet actualmente. Mediante un ejemplo explica transmitir un petabyte (1.000 .000 gibabytes ó 1000 discos de un gb ) de datos desde San Francisco a Hong Kong en un velero es más rápido que por Internet.

Pd. Esto me recuerda a Tanembaum y su frase "Nunca desprecies el ancho de banda de un camioneta cargada con cintas"

Falleció el creador del Fortran "John Backus"

El pasado sábado falleció "John Backus" (82 años). Doctor en Matemáticas que trabajando para IBM creó el lenguaje de alto nivel Fortran. El diario New York Times presenta una reseña de su vida, del texto recojo algunas palabras de Backus, con las cuales me identifico.

Innovation, Mr. Backus said, was a constant process of trial and error. “You need the willingness to fail all the time,” he said. “You have to generate many ideas and then you have to work very hard only to discover that they don’t work. And you keep doing that over and over until you find one that does work.”

lunes, marzo 19, 2007

Estudio demuestra que compradores y buscadores de información leen de forma distinta

.
Se ha realizado un estudio sobre la lectura de los resultados que proveen los motores de búsqueda titulado "Buyers and information searchers view search results differently" . Se planificó un experimento donde una serie de usuarios debían realizar búsquedas de cinco productos y servicios: un préstamo, un automóvil usado, un seguro de auto, un pasaje de avión y un mp3 player marca Philips. Los panelistas interactuaron con cinco motores de búsqueda: Google, MSN Search Live, Ilse, Lycos y Kobala. la consigna era que la mitad de ellos debía buscar información sobre los productos y la otra mitad debía tener intención de comprarlos.

El estudio arrojó los siguientes resultados:

* Los usuarios, en promedio, dedican 1,1 segundos en ver los resultados de la búsqueda.

* El 98% acceden a los resultados orgánicos.

* El 96% acceden a los enlaces patrocinados superiores.

* El 31% consultan los enlaces patrocinados laterales.

* Los compradores leen más noticias (10) y dedican más tiempo a leerlas todas (11,4 segundos) concentrando su atención en las marcas comerciales.

* Los buscadores de información leen menos de 8 noticias y dedican menos tiempo a leerlas todas (9,4 segundos). En este caso, se interesan más en el contenido que en las marcas comerciales.

Via Catorze blog (http://www.catorze.com/)

domingo, marzo 18, 2007

Off topic: Blog de música negra recomendado

A aquellos que le interese la música hecha o cantada por negros les recomiendo el blog Black Sound History.

sábado, marzo 17, 2007

Latinos conectados a la red

La empresa norteamericana de análisis de opinión pública "Pew Hispanic Center" ha presentado un estudio de investigación (basado en una encuesta telefónica a más de 6.000 personas) donde se concluye que hay actualmente un retraso o rezago en el uso de la red Internet por parte de los hispanos residentes en USA. Este dato surge de la comparación con el resto de los usuarios norteamericanos. Un 56% de los hispanos utilizan la red en comparación con el 71% de los blancos no hispanos y el 60% de los negros no hispanos. El informe plantea que existe una diferencia significativa entre los usuarios latinos nacidos en USA y los inmigrantes.

Otro dato interesante es que el 32% de los hispanos que solo hablan español están conectados a la red internet, en comparación con el 78% de los latinos que solo dominan el inglés. En el estudio se presenta la importancia del nivel de educación adquirido, donde el 89% de los que tienen un título universitario se conectan a la red, el 70% de los que finalizaron la escuela secundaria.

Además, se detectó que el 59% de los latinos poseen teléfono móvil y un 49% recibe y envía mensajes de texto.

Un cacho de cultura: Dichos argentinos

.
"Desubicado cómo aceituna en pan dulce".

"Menos onda que bandera de chapa".

"Pesado como barrilete de marmol".

"Pesado como tren a pedales"

"Me extraña araña, que siendo mosca, no me conozca".

"Que sabrá el chancho de aviones, si nunca miró para arriba".

"Más feo que tropezar descalzo".

"Desorientado, como chancho en departamento".

"Dios está en todas partes pero atiende en Buenos Aires".

"No por mucho madrugar se ven vacas en camison".

"Preocupado como Adán en otoño".

"Nervioso como pescado en Semana Santa"

"Asqueroso como tarro de moco".

"Desubicado como chupete en la oreja".

"Largo cómo puteada de tartamudo".

"Flaco como piojo de peluca".

"Arrugado como cuello de tortuga".

Vía Aquelarre de Anahí

viernes, marzo 16, 2007

7o.Symposium Understanding Complex Systems

.
El 7o.Symposium Understanding Complex Systems se realizará entre el 14 y 17 de mayo del 2007 en la Universidadd de University of Illinois (USA). La URL del evento es http://www.howhy.com/ucs2007/.

Los tópicos a tratar son: many interacting objects, networks, system of systems, computational complexity, algorithmic complexity, minimal algorithms, NP-complete, cell as a system, genomics, proteomics, metabolomics, systems biology, informatics, chaos fractals, neural nets, genetic algorithms, nonlinear dynamics, cellular automata, avalanches, granular materials.

miércoles, marzo 14, 2007

Humor: Erase una vez un programador COBOL

.
Erase una vez un programador de COBOL llamado Jack, que vivía a finales de los 90. Tras muchos años en los que todos los programadores de UNIX, programadores de Cliente/Servidor y desarrolladores de Web le trataron como un dinosaurio tecnológico, Jack estaba consiguiendo al fin algo de respeto. Se había convertido en un consultor privado especializado en conversiones del año 2000. Había trabajado en tareas a corto plazo para compañías prestigiosas, viajando por todo el mundo realizando distintos proyectos. Trabajaba 70, 80 y hasta 90 horas semanales.

Pero varios años de este trabajo apresurado y agotador estaban cobrando su deuda a Jack. Tenía problemas para dormir y empezó a tener sueños angustiosos respecto al año 2000. Había llegado a un punto en el que incluso pensar en el año 2000 le ponía casi violento. Sufrió una crisis, porque sólo podía pensar en la manera de evitar el año 2000. Jack decidió ponerse en contacto con una compañía especializada en criogenia. Hizo un trato para congelarse hasta el 15 de Marzo del 2000. Era un proceso muy caro y totalmente automatizado. Estaba muy excitado. Lo siguiente que sabría es que se habría despertado en el 2000, después de las fiestas de Año Nuevo y de los problemas informáticos; después del día del gran salto. No habría nada mas de lo que preocuparse excepto de seguir con su vida.

Fue introducido en su cámara criogénica, los técnicos ajustaron la fecha en la que despertaría, le administraron inyecciones para ralentizar su pulso al mínimo, y ya está. Lo siguiente que vió Jack fue una enorme y moderna habitación llena de gente excitadísima. Todos gritaban "¡No me lo puedo creer!", "¡Es un milagro!", "¡Está vivo!". Había cámaras (que no se parecían a ninguna que hubiese visto antes) y equipamiento que parecía sacado de una película de ciencia ficción.

Alguien que obviamente era un portavoz del grupo se adelantó. Jack no podía contener su entusiasmo. "¿Ya está?" preguntó. "¿Ya ha llegado el 2000? ¿Se han terminado todas las fiestas de cambio de milenio y todas las crisis?". El portavoz le explicó que había habido un problema con la programación del temporizador de la cámara criogénica de Jack y no había sido preparada para el año 2000. En realidad, habían pasado 8000 años, pero el portavoz le dijo a Jack que no debía enfadarse. Alguien MUY importante quería hablar con él en ese mismo momento. De repente, una pantalla del tamaño de una pared mostró la imagen de un hombre que se parecía mucho a Bill Gates. Era el Primer Ministro de la Tierra. Le dijo a Jack que no se enfadara, que ésta era una época magnífica para vivir. Había paz mundial y no había hambre; el programa espacial había continuado y ya existían colonias en la Luna y en Marte; la tecnología había avanzado hasta tal punto que todo el mundo tenía interfaces de realidad virtual que les permitían ponerse en contacto con cualquier otra persona en el planeta, o ver cualquier espectáculo, o escuchar música grabada en cualquier lugar. "Eso suena maravilloso," dijo Jack, "pero ¿por qué está todo el mundo tan interesado en mí?" "Bueno", dijo el Primer Ministro, "el año 10000 está a la vuelta de la esquina, y en tu currículum dice que sabes COBOL ...".

Relato anónimo aparecido en el Grupo de Noticias es.rec.humor

Un cacho de cultura: Aprenda a fabricar Biodiesel en su casa

"Aprenda a fabricar Biodiesel en su casa" es un artículo ilustrativo que indica cuales son los pasos (es muy simple el proceso) para obtener diesel, en el garage de una casa, a partir de aceite vegetal y un par de ingredientes más.

Es para saber de que estamos hablando en estos días.

martes, marzo 13, 2007

Proyecto Internet vía ondas de TV

El diario Washington Post publica una noticia titulada "Tech Firms Push to Use TV Airwaves for Internet" donde explica que un grupo compañías tecnológicas (en las cuales están Microsoft, Google, Dell, Hewlett-Packard, Intel y Philips) está evaluando ofrecer Internet a alta velocidad a usuarios finales vía ondas de TV tradicionales.

Actualmente el órgano de control FCC (Federal Communications Commission) está asegunrándose que no se van a invadir otros canales de información, lo cual implica que el proyecto es tecnologicamente viable. En caso de aceptarse la tecnología, las primeras instalaciones podrían estar llevándose a cabo en el 2009.


lunes, marzo 12, 2007

Google Newsmap, aplicación Python que georeferencia noticias

Google Newsmap es una aplicación Python que periodicamente descarga noticias de Google News, las analiza y extrae su localización geográfica. Finalmente arma, sobre un mapamundi, etiquetas que referencian a las noticias procesadas.

Tim O’Reilly pasó a integrar el directorio de la empresa MySQL AB

¿Qué andará tramando el editor que mejor ha detectado y marcado las tendencias tecnológicas en Internet?


Newseum un sitio con más de 500 periódicos actualizados

.
Newseum es un sitio que se define como "el museo interactivo de las noticias". ¿Que podemos hallar en él? copias de más de 500 periódicos de cerca de 50 paises , utilizando la opción "map view" se pueden identificar tanto los periódicos locales y de ciudades vecinas, también un juego sobre noticias llamado Newsmania , fotografías premiadas con el galardón Pulitzer , una colección obras de fotógrafas del prestigioso National Geographic y varias curiosidades y cosas útiles más.

Nota: De yapa les cuento que la primer plana de los periódicos puede imprimirse en tamaño 8½ x 11.

La vida humana ya puede digitalizarse

"La vida humana ya puede digitalizarse" es el título de un artículo que trata sobre un nuevo sistema experimental que permite registrar cada cosa que vean y oigan las personas, sus contactos sociales e incluso aspectos físsicos del cuerpo. Un médico, que está probando el sistema desde el año 2001, ha almacenado la historia de su vida. Posee un archivo digital de más de 300.000 registros que ocupan una memoria de 150 gigabytes.

domingo, marzo 11, 2007

Un cacho de cultura: Como Eratóstenes, en el 250 AC, midió el diámetro de la tierra

.
Inagurando una nueva sección de información general llamada "Un cacho de cultura", les dejo el siguiente enlace "Cómo Eratóstenes, en el 250 AC, midió el diámetro de la tierra"

Investigación académica demuestra que el proyecto Wikipedia es exitoso

Bernardo Huberman investigador argentino del Laboratorio en Information Dynamics de HP y Dennis Wilkinson han publicado un trabajo de investigación que trata de caracterizar la cooperación en Wikipedia, el cual se titula "Assesing the value of cooperation in Wikipedia".

El resumen dice lo siguiente "Since its inception six years ago, the online encyclopedia Wikipedia has accumulated 6.40 million articles and 250 million edits, contributed in a predominantly undirected and haphazard fashion by 5.77 million unvetted volunteers. Despite the apparent lack of order, the 50 million edits by 4.8 million contributors to the 1.5 million articles in the English-language Wikipedia follow strong certain overall regularities. We show that the accretion of edits to an article is described by a simple stochastic mechanism, resulting in a heavy tail of highly visible articles with a large number of edits. We also demonstrate a crucial correlation between article quality and number of edits, which validates Wikipedia as a successful collaborative effort."

Nótese la última oración, la cual habla acerca de que este esfuerzo colectivo por ordenar y registrar conocimiento debería considerarse exitoso debido a que demostraron una correlación crucial entre calidad del artículo y número de ediciones. Es por ello que es evidente que calidad de la enciclopedia mejora en función del número de editores. Estos primeros datos de calidad, deberían llegar a aquellos que niegan o dudan de estos espacios de conocimiento, a los efectos reflexionar sobre sus posturas.

Vía Denker Uber

sábado, marzo 10, 2007

Frase que me gustó

.
"El mayor castigo para quienes no se interesan por la política

es que serán gobernados por personas que sí se interesan"

Arnold J. Toynbee

Datos sobre acceso wireless a Internet en USA

Según un estudio de la organización norteamericana Pew Internet sobre acceso wireless a Internet en USA indica que:

  • El 34% de los internautas utiliza tecnología wireless para conectarse desde sus hogares, sitios de trabajo y espacios públicos.
  • Estos usuarios parecen estar más involucrados en la red y se conectan a ella inalámbricamente afín de lee su correo electrónico y canales de noticias.
  • La distribución de la conexión es la siguiente:
  1. 37% desde cualquier lugar.
  2. 32% desde cualquier lugar distinto a su casa y a su trabajo.
  3. 25% desde su hogar.
  4. 16% desde su trabajo.
  • Un 39% se conectó con laptop, un 25% con celular y un 13% con PDA.


viernes, marzo 09, 2007

Alumnos de la UBA en competencia de programación de la ACM

Ayer jueves, un grupo de alumnos (Pablo Heiber, Francisco Roslan y Alejandro Deymonnaz) de la carrera de Ciencias de la Computación de la Universidad de Buenos Aires viajaron a Hong Kong a participar de la etapa final de la competencia mundial de programación de la Association for Computing Machinery (el ACM International Collegiate Programming Contest).

La semana que viene, el jueves, en cinco horas tendrán que resolver diez problemas utilizando la algorítmica a los efectos de competir con otros 79 equipos de todo el mundo.
La asistencia a esta competencia es una tradición para la UBA, ha participado de en 10 oportunidades y ha obtenido clasificaciones dentro del top ten.

En esta dirección hallaran ejemplos de problemas de años anteriores.

Esa es la universidad pública que nos enorgullece, adelante muchachos y que tengan pocos bugs !!!



9a Encuesta de usuarios españoles de Internet

La organización AIMC (Asociación para la Investigación de Medios de Comunicación) ha presentado en un informe los resultados de la 9a Encuesta de usuarios españoles de Internet, la cual capturó datos de usos, costumbres y tecnologías involucradas.La investigación se alimentó con datos de más de 57.000 usuarios de Internet.

A continuación presento algunos resultados que caracterizan al usuario español:
  • El 40% de los usuarios recibe acceso a Internet vía Telefónica de España.
  • El 96% de los encuestados indicaron que el día de ayer fue cuando se conectaron por última vez.
  • La publicidad es una situación grave, dado que un 61,8% indica que es el principal problema de Internet es la publicidad.
  • La velocidad de acceso contratada es de 1 Mbps en el caso del 41% de los usuarios.
  • Un 10% de los usuarios accede desde equipos con movilidad (al menos una vez por semana).
  • Un 23,9% de los internautas usa el navegador Firefox (subió un 8% en relación al año pasado) y 73,7% de Internet Explorer (el año anterior estaba en el 82%)
  • Un 42% ha contestado que en algún momento ha estado frente a una situación de pishing.
  • El 72% de los usuarios posee conexión ADSL un 19% cable y un 6% modem común.
  • Un 65,3% utiliza banca electrónica. Un 73% ha utilizado la red como herramienta de información antes de realizar una compra.
  • Cerca del 70% de los usuarios tiene una antigüedad de 5 o más años en la red.
Lastima que en Argentina no tengamos estudios tan importantes en cantidad de usuarios encuestados, sería útil contar con datos fidedignos acerca de la región.

jueves, marzo 08, 2007

La universidad pública y sus mecanismos de control

Al principio, con mucha bronca, trate de tragar la noticia de Clarín sobre iregularidades en la Facultad de Derecho de la Universidad Nacional de Tucumán. La cuestión central tiene que ver con el registro de notas falsas en el sistema informático, a cambio de algún dinero.

Luego de leer la nota por segunda vez y reflexionar me encuentro con el hecho que fue un organismo de la propia Universidad (su auditoría interna) quien detectó el hecho y lo denunció. Esta forma de control y de transparencia es la que me deja tranquilo y me hace ver a esta grave situación como un problema totalmente aislado y seguramente controlable.

Ricardo Baeza Yates será condecorado por la Universidad de Waterloo

El investigador chileno en recuperación de información, Ricardo Baeza-Yates, será condecorado con la Medalla en Computación e Innovación J. Wesley Graham por la Universidad de Waterloo en Canadá . Este premio es un reconocimiento a su contribución al desarrollo de las ciencias de la computación.

Ricardo es profesor titular del Departamento de Ciencias de la Computación de la Facultad de Ciencias Físicas y Matemáticas de la Universidad de Chile y actualmente dirige los laboratorios de investigación de Yahoo! para Europa y Latinoamérica. También ha sido presidente de la Sociedad Chilena de Ciencia de la Computación, presidente del CLEI (Centro Latinoamericano de Estudios en Informática), miembro del directorio mundial de la IEEE Computer Society, y coordinador internacional del Subprograma de Informática y Electrónica aplicadas de CYTED (Programa de Cooperación Iberoamericano). En 1999, junto con B. Ribeiro-Neto, publicó el libro "Modern Information Retrieval", texto base en el área de recuperación de información; es el texto más usado actualmente en las universidades del mundo.

Grande Ricardo !!!

Vía Radio Chile


Open Source en el MIT

Un documento presenta una serie de casos de éxito del uso de tecnología open source como herramienta de apoyo a la educación. Es interesante su lectura debido a la importancia y valor de referencia de la organización que los utiliza.

LA-WEB2007

En octubre de este año, en Santiago de Chile, se realizará el Congreso Latinoamericano de la Web, organizado por el profesor Ricardo Baeza Yates. El evento reune investigadores, docentes, profesionales y empresarios conm la intención de mostrar y debatir los últimos desarrollos en la web, con énfasis en el espacio web latino americano.

Tópicos del Congreso

* Browsers and user interfaces
* E-commerce, E-Science, E-government and E-Learning
* Digital libraries
* Multimedia and hypermedia
* Mobility and ubiquitous web access
* Performance, reliability and scalability
* Search and data mining
* Semantic web
* Web engineering
* Collaboration and web communities
* Security, privacy and copyright issues
* XML and web services
* Collaborative tagging
* Blogging
* Web visualization
* Web usability

Fechas importantes

* Paper submission: May 25, 2007
* Notification of acceptance: July 16 , 2007
* Camera-ready version of accepted papers: August 17, 2007
* LA-Web Conference: October 31st – November 2nd, 2007
* October 31st will be held as a joint session with SPIRE 2007

Comité

* Conference Chair: Ricardo Baeza-Yates
* Steering Committee:
o Daniel Schwabe
o Alfredo Sanchez
o Ricardo Baeza-Yates (coordinator)
* Program Chair: Virgilio Almeyda
* Local Chair: Javier Velasco
* Contact: Ximena Olivares (ximena . olivares (a) upf . edu)

Más información en esta página

martes, marzo 06, 2007

Universidades argentinas "recibirán" software

Parece ser que El Ministerio de Educación y la organización de empresas CESSI han firmado un acuerdo a los efectos proveer de software sin cargo a docentes y alumnos de universidades nacionales. Aparentemente CESSI brindará de forma gratuita soft y capacitación de parte de empresas que representa ( Autodesk, Oracle, Sun, entre otras).

Vía Lista SOLAR

predicciones sobre generación de datos digitales

La empresa IDC ha llevado a cabo una investigación sobre almacenamiento de información, encomendada por la famosa firma EMC. El trabajo en cuestión (documento original) se mide y se trata de predecir la cantidad de información digital creada en todo el mundo. Un dato impresieonante es la estimación de información digital generada el último año, siendo estimada en 161 mil millones de gigabytes (161 exabytes de información digital o 161.000.000.000.000.000.000 bytes si la cuenta salió bien), lo notable que IDC estima en 988 exabytes para el año 2010.

Entre las predicciones del trabajo se hace notar que:

* En el año 2010, existirán cerca de 1.600 millones de usuarios en Internet (hoy se estiman en 1.100 millones).

* El número de transacciones de comercio electrónico se multiplicará por 100 en cinco años.

* Hoy existen cerca de 1.600 millones de cuentas de correo electrónico y alcanzarán los 2.000 millones en el año 2010.


Vía Clarín y mi compañero Esteban

Hace 19 años que Dios se está matando de risa


Si hace 19 años que Dios se está matando de risa. Sabés porqué, si sos joven puede ser que no, pero si tenés algunas décadas más conoces al negrito Olmedo y hace 19 años que se fue para arriba. Piluso, Perez, el mayordomo Perkins, el presidente de Costa Pobre, Rogelio Roldán, Borges, Chiquito Reyes, el manosanta, Rucucu, il laboratore son personajes que nos alegraron la vida, y ahora hacen reir al barba.

Si sos joven y no lo conociste, te digo que es tan groso como su cumpa rosarino Fonatanarosa, podes ver algo del negrito Olmedo en youtube y si queres leer andá por aca o sino en este lugar.

Ya se que falta para mi cumpleaños pero ...

Ya se que falta para mi cumpleaños pero si alguno quiere quedar bien ya sabe.

Licencias Creative Commons en números

En el Wiki de Creative Commons hay una página que registra estadísticas acerca de esta licencia particular. Un artículo de Terry Hancock indica que existen alrededor de 145 millones de trabajos en la web publicados con licencias Creative Commons ( donde un 29% se pueden considerar libres). Por otro lado se indica que se tarda alrededor de 115 días en duplicar la cantidad de trabajos publicados.

Directorio Go2web20

Go2web20 es un directorio que registra distintas aplicaciones o sitios bajo la filosofía web 2.0. Es un recurso interesante para estar actualizado y saber por donde "vuelan" los muchachos.

lunes, marzo 05, 2007

Mapa de la Argentina para GPS

La gente de MAPEAR (mapas Electrónicos Argentinos) ha presentado en su web el mapa argentino para ser cargado en equipos GPS. Es un proyecto colaborativo . Esta apasionante iniciativa no persigue fines comerciales y pone al alcance de los usuarios de GPS un recurso elemental para entretenimiento, educación o trabajo.

En una nota puede leerse que "el mapa no sólo incluye las rutas provinciales y nacionales sino también las calles de cientos de ciudades y localidades del país, pesa 66 megas y corre únicamente en navegadores Garmin. Quienes no tienen un aparato de última generación ni un dispositivo para agregarle memoria, también pueden utilizar el programa".

Mapear es una gran comunidad virtual que funciona en forma colaborativa gracias a la participación de un grupo de fanáticos del GPS que, desde distintos puntos del país, dibujan planos para que miles de personas los descarguen en forma gratuita de Internet.

Buen proyecto social, adelante!!!

Via CFI en Red

Humor: Preguntas y respuestas hechas en juicios

Algunas situaciones donde se puede observar la falta de juicio de ciertos abogados:

*¿Estaba usted presente cuando le tomaron la foto?

*¿Estaba usted solo o era el único?

*¿Fue usted, o su hermano mayor, el que murió en la guerra?

*¿Él le mató a usted?

*Usted estuvo allí hasta que se marchó, ¿no es cierto?

*Doctor, ¿cuántas autopsias ha realizado usted sobre personas fallecidas?
(respuesta) Todas mis autopsias las realice sobre personas fallecidas.

*
Cada una de sus respuestas debe ser verbal, ¿de acuerdo? ¿a qué escuela fue usted?
(respuesta) Verbal (risas en la sala)


Vía Hazmereir.net

Datos sobre Google INC.

A continuación se presentan una serie de datos, extraidos de un informe publico anual, que caracterizan a la empresa actualmente:

* La empresa tiene 40 oficinas en 20 países para ofrecer apoyo a su principal fuente de ingresos-publicidad.

* Google tiene 32 oficinas de ventas en 19 países, y equipos especializados en 11 mercados verticales.

* Más de la mitad del tráfico de Google en el año 2006 vino fuera de los EEUU.

* La lista de propiedad intelectual y marcas registradas incluye:Google, AdSense, AdWords, I’m Feeling Lucky, PageRank, Blogger, orkut, Picasa y Keyhole .Blog*Spot, Froogle, Gmail, Writely y YouTube no están registradas.

* Curiosidad: La patente de PageRank, finaliza en 2017.

* Necesidad de mejora continua: 30% del tiempo de los ingenieros se ocupa en innovación y proyectos independientes. Los gastos de investigación en el año 2006 fueron 1,228.6 millones o el 11.6% de los ingresos.

* El 99% de todos los ingresos viene de la publicidad.

* La compra de YouTube y DMarc Broadasting todavía no han generado ingresos significantes.

Vía Noticias Tech

domingo, marzo 04, 2007

Off topic: Imágenes del sensor MODIS en "casi" tiempo real

MODIS ( Moderate Resolution Imaging Spectroradiometer) es un sensor montado sobre el satélite Terra (de la NASA). Está orientado a capturar imágenes de la tierra a los efectos de detectar zonas de desastres naturales. El sensor registra radiaciones infrarrojas emitidas por los incendios existentes en la superficie de nuestro planeta. Existe una página web donde se pueden obtener imágenes con actualizaciones casi en tiempo real.

Teknea: Un Digg o Menéame "argento"

Los sitios de promoción de noticias son un ejemplo de comunidades virtuales donde un conjunto de usuarios pugna por promover sus noticias a una primera plana. Teknea es un sitio argentino al estilo Digg o Menéame donde permiten enviar una historia sobre informática o tecnología en general, la cual será revisada por todos y será promovida, o no, a la página principal. Cuando un usuario envía una noticia ésta queda en la cola de pendientes hasta que reúne los votos suficientes para ser promovida a la página principal.

viernes, marzo 02, 2007

Colecciones de prueba para recuperación de información

(Por Gabriel Tolosa y Fernando Bordignon, 2004).

Hasta aquí, hemos planteado diferentes medidas para evaluar la performance de la recuperación de un SRI, tanto para sistemas de producción existentes o sistemas experimentales con nuevas estrategias. Para la evaluación se requiere contar con colecciones conocidas sobre las cuales se puedan determinar consultas y la relevancia de los documentos respecto de éstas, para luego calcular las métricas. Estas colecciones se fueron desarrollando con el tiempo y evolucionaron en tamaño y calidad. De manera genérica, nos referimos a estas colecciones como Colecciones de Prueba y – básicamente – están formadas por tres componentes, a saber:

1) Un conjunto de documentos que constituyen el corpus.

2) Un conjunto de necesidades de información (NI).

3) Juicios de relevancia que relacionan las NI con los documentos del corpus que son relevantes a éstas.

Una colección de prueba es una herramienta experimental indispensable para los investigadores en RI ya que permite comprender la naturaleza de los resultados, compararlos con otros y reproducir pruebas en iguales condiciones. Los primeros esfuerzos en su creación se deben a Cleverdon, en los denominados Experimentos Cranfield en el área aeronáutica entre 1957 y 1968. Si bien estas primeras colecciones contenían unos cientos de documentos, marcaron una línea de trabajo, la cual – en la actualidad – se considera una tradición en la evaluación de los SRI (La Tradición Cranfield).

Posteriormente, los experimentos de Salton en la Universidad de Cornell con el sistema SMART (ftp://ftp.cs.cornell.edu/pub/smart) entre 1964 y 1988 también contemplaron la creación de colecciones de prueba, en este caso superando el millar de documentos. En la tabla 1 se presentan algunas colecciones standard (clásicas en RI) con sus características principales. Cabe destacar que los documentos de estas colecciones son de poca extensión (la colección TIME es de noticias, mientras que las demás son resúmenes). Por ejemplo, en la CACM el vocabulario contiene 10446 términos, con un promedio de aproximadamente 40 por documento.

La construcción de colecciones de prueba no es una tarea trivial y plantea algunas cuestiones que pueden aumentar – aún más – la complejidad. La primera de las cuestiones que aparece es cómo identificar los documentos relevantes. En general, la decisión de la relevancia o no de un documento respecto de una consulta es de un asesor humano. Por lo tanto, en colecciones grandes esta tarea puede ser extremadamente costosa. Además, se debe establecer si la relevancia se evalúa de manera dicotómica: a) es relevante b) no es relevante o bien de una manera más fina con una escala, por ejemplo: a) no relevante, b) poco relevante, c) relevante, d) muy relevante. Finalmente, resulta importante la cantidad de juicios a obtener, es decir, si habrá un solo juicio (solo un asesor) o muchos (más de un asesor). Esta consideración es importante ya que diferentes asesores pueden plantear desacuerdos y se deberá tener un criterio para discernir esta situación.

En la figura 1 se presenta un ejemplo de un documento de la colección CACM, identificado como I 63 y en la figura 2, una consulta de la misma colección (I 22).

En la década de 1990, en el Instituto Nacional de Estándares y Tecnología (NIST, National Institute of Standards and Technology), se comenzó a promover – liderada por Donna Harman – una conferencia dedicada al tratamiento de distintas áreas de la RI y la construcción de grandes colecciones de prueba (millones de documentos) denominada TREC (Text REtrieval Conference) (http://trec.nist.gov/). Desde entonces, la TREC se convirtió en un encuentro anual dedicado a diferentes tareas, denominadas tracks, que utilizan distintas colecciones. Inicialmente, comenzaron con dos tracks:

- Recuperación “ad-hoc” (Ad-hoc retrieval)

- Ruteo (Routing)

Pero con el tiempo se anexaron otros tales como:

- Recuperación web (Web retrieval)

- Recuperación Interactiva (Interactive retrieval)

- Filtrado de texto (Text filtering)

- Respuestas a preguntas (Question-Answering)

- Recuperación interlenguas (Cross-Language)

Las colecciones de la TREC se encuentran formadas por documentos de diferentes fuentes, como por ejemplo: Wall Street Journal (WSJ), Associated Press (AP), Ziff-Davis Computer Archive (ZIFF), Federal Register (FR), US Patentes (PAT), LA Times (LAT), Financial Times (FT). Los documentos se encuentran estructurados con etiquetas SGML para facilitar su tratamiento. En la figura 3 se muestra un ejemplo de un documento:


Por otro lado, las coecciones incluyen descripciones de las necesidades de información utilizadas para la evaluación, que en el marco de la TREC reciben el nombre de topic. En la figura 4 se muestra un ejemplo de un topic. Con estos topics cada participante genera un query que es evaluado por su sistema, de acuerdo al tratamiento particular que decida.
La creación de los juicios de relevancia es la tarea más dificultosa debido a que las colecciones modernas poseen millones de documentos y es imposible chequear cada uno con respecto a cada query derivado de cada topic. En la TREC se definió un mecanismo de combinación (pooling) en el cual solo una fracción de la colección se selecciona para evaluar manualmente. La creación de los juicios de relevancia de las colecciones de la TREC requiere de la participación de diferentes grupos de investigación pertenecientes a universidades, laboratorios y empresas. Cada grupo utiliza su propio SRI para consultar las colecciones con los queries. El proceso para la creación de los juicios de relevancia es el siguiente:

1) El NIST crea 50 topics y los remite a los participantes, quienes crean sus consultas (queries) y las procesan contra el conjunto de documentos.

2) Cada participante envía una cantidad de corridas (runs) que consisten de – como máximo – los 1000 primeros documentos recuperados para cada tema. Un subconjunto de las corridas de cada participante se define como “corrida oficial”.

3) El NIST toma los 100 primeros documentos por tema de cada corrida oficial para formar un grupo (pool) para cada tema (removiendo los duplicados). Se ha estudiado que con 100 documentos se obtienen resultados confiables, aun cuando algunos documentos relevantes se pierden.

4) En NIST, un asesor humano debidamente entrenado juzga todos los documentos en el pool para aquellos temas que él creo. Los resultados son los juicios de relevancia, tradicionalmente denominados qrels.

5) Con los qrels, las corridas se evalúan con el software trec_eval, el cual reporta ciertas medidas de performance.

Si bien con este método algunos documentos relevantes se pueden perder, como el subconjunto examinado posee una muestra representativa de los documentos relevantes se pueden aproximar los resultados.

Una segunda dificultad al crear los juicios de relevancia es que – a menudo – los asesores humanos no están de acuerdo acerca de la relevancia. Esta situación se ha estudiado por Vorhees [63] y se determinó que tiene poca influencia en la efectividad relativa de los sistemas. Para ello, utilizó varios conjuntos independientes de juicios de relevancia y encontró que mas allá del bajo solapamiento y su amplia variación entre temas particulares, el ranking relativo se mantuvo sin cambios para los diferentes conjuntos.

La TREC fue el primer esfuerzo en crear grandes colecciones de prueba, las cuales proveen resultados más confiables. Debido a que resulta imposible la creación de los qrels de manera manual, el método descripto anteriormente resulta adecuado. Sin embargo, este tema continua en discusión y algunos investigadores han propuesto métodos alternativos para crear juicios de relevancia [15] [54].


Referencias:

[15] Cormack, G.V., Palmer, C.R., Clarke, L. A. “Efficient Construction of Large Test Collections”. Proceedings of Melbourne SIGIR 1998. Conference on Research and Development in Information Retrieval. ACM Press. 1998.

[54] Sanderson, M. Y Joho, H. “Forming Test Collections with No System Pooling”. Proceedings of Sheffield SIGIR 2004. Conference on Research and Development in Information Retrieval. ACM Press. Págs. 33-40. 2004.

[63] Voorhees, E.M. “Variations in relevance judgments and the measurement of retrieval effectiveness”. Information Processing and Management, 36 (5), págs. 697-716. 2000.



jueves, marzo 01, 2007

Motores de búsqueda, estado de situación

A mediados de febrero, en Londres, se realizó un encuentro de expertos en motores de búsqueda donde se debatió el estado de situación y cuales son la tendencias de evolución. un artículo de Search Engine Watch resume datos del evento mencionado.

Algunos datos que me impactaron fueron los siguientes:

* 256 million people visited a search engine in December 2006 (81% of the global Internet population)

* The average searcher views 93 search pages a month across 27 minutes, which represents 3.4% of total time spent on the Internet.

*
Searchers behave differently on different search engines.

*
Both advertisers and agencies, especially agencies in Spain, are satisfied with the ROI from their search marketing activities.



Directorio de recursos académicos de Jose Orihuela

.
Les paso la dirección de un directorio de recursos en línea para la docencia y la investigación del profesor José Luis Orihuela.