viernes, junio 29, 2007

Libro gratis Procesamiento Automático del Español con Enfoque en Recursos Léxicos Grandes

Libro gratis (para descargar) "Procesamiento Automático del Español con Enfoque en Recursos Léxicos Grandes" de Alexander Gelbukh y Grigori Sidorov. Centro de Investigación en Computación,Instituto Politécnico Nacional,México (2006).

Índice Abreviado


Dime qué sitio usas y sabré tu clase social

.
"Dime qué sitio usas y sabré tu clase social" es el título de una nota del diario La Nación. La cual habla acerca de un estudio de investigación de la Universidad de Berkeley, sobre la división de clases de jóvenes en norteamérica en base al estudio de redes sociales electrónicas.

Aquí encontrarán la página de publicaciones de su autora, Danah Boyd, la cual tiene una producción interesante en el área de redes sociales (y además está en paper original)

Mario Benedetti y su poesía "Windows 98"

De verdad no sabía que este genial Uruguayo, muy recordado por sus letras cantadas por un tal Serrat, ha compuesto una poseía titulada "Windows 98"

Windows 98

Mi corazón se acurruca en su software
y el mouse sale a buscar el disparate.

Cuando me enamoraba de una Venus
mis sentimientos no eran informáticos,
pero ahora debo pedir permiso
hasta para escribir con el news gothic.

Te urjo amor que cambies de formato.
Prefiero recibirte en times new roman
más nada es comparable a aquel desnudo
que era tu signo en tiempos de la Remington.

Mario Benedetti, Antología de Poesía Hispanoamericana

jueves, junio 28, 2007

No logro entender como alguna vez se hicieron estos experimentos en "beneficio" de la ciencia

.
Leyendo el blog Neatorama, hallo un post sobre experimentos sicológicos. No logro entender como alguna vez se hicieron tales prácticas, sobre humanos, en "beneficio" de la humanidad.

1. Stanley Milgram´s Obedience Studies

In this Yale University study, participants were told they were part of an experiment on the effects of punishment [wiki] on learning. They were instructed to teach another participant (the “learner”) a list of words, and whenever the learner made a mistake, deliver an electric shock via a generator with levers labeled in 15-volt increments (up to 450 volts–where the label read “Danger: Severe Shock” and “XXX”).

The learner (who, unknown to the participant, was not actually receiving shocks) became increasingly vocal, at one point even screaming, “I can’t stand the pain! Get me out of here!” Because the experimenter urged the participants to continue, nearly 65% of them continued to obey the experimenter to deliver the maximum 450 volts. The participants weren’t sadistic, Milgram [wiki] argued, just socialized to obey authority figures.

2. Stanford Prison Experiment

n the summer of 1971 Philip Zimbardo [wiki] put Stanford Students in jail [wiki]. Students, who volunteered and were paid, were randomly assigned to be either guard or prisoner. The prisoners were surprised at their homes, handcuffed, and taken by police cruiser to makeshift jail in the basement of the psychology department. There they were stripped of their personal belongings and given smocks, nylon caps, and identification numbers. The uniformed guards were simply told to enforce the rules.

In just a few short days, the guards began to devise sadistic and degrading rituals for the prisoners, many of whom became depressed, anxious, or apathetic. Although they knew that this was just an experiment, all of
the guards and prisoners adopted their rules, completely overriding their own individuality. The outcome was so dramatic, the experiment was stopped after only six days.

3. Little Albert

John Watson [wiki] and Rosalie Rayner conducted one of the most famous and controversial studies in psychology using an 11-month-old boy who came to be known as Little Albert [wiki]. With Little Albert, Watson demonstrated that many fears are conditioned through an association with other fearful situations.

Before the experiment, Little Albert was a normal baby who was afraid of loud noises but not much else. Little Albert loved playing with small animals until Watson taught him to become afraid of a white rat by repeatedly banging a steel rod with a hammer whenever Albert was given a white rat to play with. Little Albert’s fear generalized to other similar objects, such as Watson’s white hair and a Santa Claus mask. Watson clearly demonstrated that fears could be conditioned, but his methods have been roundly criticized, especially since conditioning was never reversed.


Vía Neatorama

Búsquedas de imágenes por color

.

Xcavetor es un sitio de alojamiento de imágenes profesionales que permite la búsqueda de fotografía a partir de un color especificado. Es interesante esta característica dado que puede ser una buena herramienta para diseñadores gráficos.

miércoles, junio 27, 2007

SIRTEL 2007 - Workshop on Social Information Retrieval for Technology Enhanced Learning.

.

Social information retrieval (SIR) refers to a family of techniques that assist users in obtaining information to meet their information needs by harnessing the knowledge or experience of other users. Examples of SIR techniques include sharing of queries, collaborative filtering, social network analysis, social navigation, social bookmarking and the use of subjective relevance judgements such as tags, annotations, ratings and evaluations.

SIR methods, techniques and systems open an interesting new approach to facilitate and support learning and teaching. There are plenty a resource available on the Web, both in terms of digital learning content and people resources (e.g. other learners, experts, tutors) that can be used to facilitate teaching and learning tasks. The remaining challenge is to develop, deploy and evaluate systems that provide learners and teachers with guidance to help identify suitable learning resources from a potentially overwhelming variety of choices.

Several questions are being researched around the application of SIR methods in Technology-Enhanced Learning (TEL) settings. The aim of the SIRTEL'07 Workshop is to bring together researchers and practitioners who are working on topics related to the application of SIR methods, techniques and systems in educational settings, as well as to present the current status of research in this area to interested researchers and practitioners. It aims to serve as a discussion forum where researchers will present the results of their work, and also establish liaisons between different groups that are exploring related subjects. In addition, it aims to outline the rich potential of emerging SIR methods, techniques and systems in order to better build TEL systems and services.

The aim of the workshop is to chart out the current state-of-the-art of SIR in TEL, and to list the main enablers and challenges for the near future and the long term. Each presenter of the workshop is asked to explicitly identify such enablers and challenges. The workshop will conclude with an open discussion listing and prioritising the main enablers and challenges for the short and the long term. One of the aims is to identify the need for new research.

Fechas importantes

- Recepción de trabajos: 1 de julio
- Notificación: 15 de julio
- Camera ready: 15 de agosto


martes, junio 26, 2007

Evento: Tagging and Metadata for Social Information Organization

Evento: Tagging and Metadata for Social Information Organization
Mayo 8-12 12007, Baff, Canadá

Papers presentados:

lunes, junio 25, 2007

Investigación sobre el perfil de usuario de Internet

Se ha presentado el informe Proyecto Internet Catalunya, realizado por la Universitat Oberta de Catalunya, fruto de 7 años de trabajo. En el estudio se analizaron 15.390 entrevistas presenciales y 40.400 por Internet.

Las conclusiones del informe son:
Los usuarios de Internet son más activos, tienen más amigos, están más implicados en la vida política y tienen menos depresiones. Según el Director del proyecto, Manuel Castells, "...ha verificado lo que ya se sabía, que las nuevas tecnologías no encierran a la gente en casa sino que activan la sociabilidad...". Por otro lado indica que "...cuánto más autónoma es una persona más utiliza Internet, y a su vez, este uso refuerza su autonomía..". Para Castells, Internet "requiere un determinado nivel educativo", porque "nos hallamos ante una sociedad de la información desinformada y esto no lo resuelve Internet".

Del estudio se desprende que el 83% de jóvenes de entre 15 y 24 años son usuarios habituales de las nuevas tecnologías, y que en esta franja de edad está disminuyendo la diferencia de género en el uso de Internet.

Vía Diario El Mundo

Libro gratis de Procesamiento del Lenguaje

Libro gratis (para descargar) "Investigaciones en Análisis Sintáctico para el Español" de Sofía Haro y Alexander Gelbukh. Centro de Investigación en Computación,Instituto Politécnico Nacional,México ( 2006). IPN, 2006, 333 + XV pp. ISBN 970-36-0265-7

ïndice

domingo, junio 24, 2007

Los 10 mandamientos de la "iglesia" Google

.
Hay un sitio "The Church of Google" que promueve un movimiento "religioso" entorno a Google. Ellos plantean las siguientes bases a seguir:

We at the Church of Google believe the search engine Google is the closest humankind has ever come to directly experiencing an actual God (as typically defined). We believe there is much more evidence in favour of Google's divinity than there is for the divinity of other more traditional gods.

We reject supernatural gods on the notion they are not scientifically provable. Thus, Googlists believe Google should rightfully be given the title of "God", as She exhibits a great many of the characteristics traditionally associated with such Deities in a scientifically provable manner.

Y luego a modo de guía de vida o manifiesto del obrar del googlista ellos plantean los siguientes mandamientos:
  1. Thou shalt have no other Search Engine before me, neither Yahoo nor Lycos, AltaVista nor Metacrawler. Thou shalt worship only me, and come to Google only for answers.
  2. Thou shalt not build thy own commercial-free Search Engine, for I am a jealous Engine, bringing law suits and plagues against the fathers of the children unto the third and fourth generations.
  3. Thou shalt not use Google as a verb to mean the use of any lesser Search Engine.
  4. Thou shalt remember each passing day and use thy time as an opportunity to gain knowledge of the unknown.
  5. Thou shalt honor thy fellow humans, regardless of gender, sexual orientation or race, for each has invaluable experience and knowledge to contribute toward humankind.
  6. Thou shalt not misspell whilst praying to me.
  7. Thou shalt not hotlink.
  8. Thou shalt not plagiarise or take undue credit for other's work.
  9. Thou shalt not use reciprocal links nor link farms, for I am a vengeful but fair engine and will diminish thy PageRank. The Google Dance shall cometh.
  10. Thou shalt not manipulate Search Results. Search Engine Optimization is but the work of Microsoft.
Mientras no pidan el diezmo derivado de las ganancias de "ad sense" todo está bien. Se aceptan clicks como contribuciones de sus fieles.

La ciencia también tiene su lado poco atractivo

Con un poco de humor en el blog Maikelnai presenta una serie de los peores trabajos científicos del año 2007. Que se quiere decir con este rótulo? que se hace referencia solo a aquellos trabajos un poco desagradables, como por ejemplo ser "Investigador de heces de ballena" y recolectar y analizar sus deposiciones en beneficio de la humanidad.

Leyendo el post llego a la misma conclusión que mi abuelita hubiera hecho, "En ciencia también se encuentran rotos para descosidos"

sábado, junio 23, 2007

Off topic. Una milonga que me llamó la atención

.
La otra noche mientras estaba escuchando el programa de Dolina me llamó la atención la letra de una milonga, la cual tiene sus años, ya en esa época la problemática de las drogas era una preocupación. Nótese que la letra dice "El cine y la cocaina te llenaron la cabeza", duro pero real.


LA MILONGA QUE FALTABA

Letra de José Luis Panizza
Musica de José Laina

Ayer eras la mimosa
de toda la sociedad;
hoy sos una pobre cosa
que se arrastra y nada mas
Ya lucias desde chica
tu pinta de milonguera.
Vos fuistes la primera
que melena se dejo.
Mientras todos se creian
que salias de paseo
le metias al tangueo
en garçonnière comme il faut.
Engrupias a tus viejos
que ibas a aprender frances
Aprendiste a hablar al
No te importo el apellido
ni el nombre de niña bien
cuando agarraste aquel viaje
en un te del Parque Hotel.

El cine y la cocaina
te llenaron la cabeza.
A vos no fue la pobreza
que te entrego a un gigolo.
Hoy que sos una bacana
tal vez recuerdes con pena
que fuiste muchacha buena
y un berretin te perdio.

viernes, junio 22, 2007

Akamai y su Proyecto Visualize

.
Akamai es una empresa pionera en aceleración de contenidos. En este momento ha presentado un nuevo sitio donde los usuarios pueden visualizar en tiempo real el volumen de tráfico y la latencia entre ciudades del mundo. El Proyecto Visualize usa la infraestructura de la empresa que tiene presencia en 750 ciudades con más de 25.000 servidores.



jueves, junio 21, 2007

Humor: El viejo y querido Tetris

Si podés cooperá con este estudio sobre bloggers


The Society for New Communications Research (SNCR) has a survey out:

Blogs are now a near second to newspapers as the most trusted information source. A Pew Internet and American Life survey showed that blog readership in the US jumped 58% in 2005 spawning a new desire for immediate news and information. With the launch of MySpace News (www.news.myspace.com) news has taken a leap into social media sites.

We want to find out if influential bloggers like yourself are incorporating, or are planning to incorporate news on your blog and also get your views on news sources. Please take a few minutes to give us your insights into how you would prefer to receive and use news content.

https://www.surveymonkey.com/s.aspx?sm=W2chlf4zIN6Vi67ZntskSw_3d_3d


Consumo de videos en línea

El consumo de vídeos en línea está logrando un tope de popularidad. Esta moda que determinada a partir de un estudio de la empresa ComScore, el cual indica que el 80% de los usuarios en línea ingleses utilizó este servicio en abril de este año, un 76% en EE UU, un 79% en Francia y un 70% en Alemania.

miércoles, junio 20, 2007

Lo confieso, me gusta cantando por un sueño

Un joven vendedor llamado Paul Potts, con Nessun Dorma, ha ganado el concurso de canto de la TV inglesa "Britain´s Got talent". Su interpretación es espectacular.



Una más y no jodemos más, ahora con "Time to Say Goodbye"

Curso de redes con videos incluidos

El Prof. Shiv Kalyanaraman del Instituto Politécnico Rensselaer ha puesto en línea un curso de redes actualizado a este año. Lo interesante y que además le da un valor agregado es que sus clases están disponibles en video.<

Presentación didáctica sobre el modelo open source

.
Presentación didáctica sobre el modelo open source, realizada por la gente del sitio 55thinking



Vía blog TodoBI

lunes, junio 18, 2007

Ponencias OjoBuscador I

El sitio OjoBuscador ha empezado a publicar videos de las ponencias de su último Congreso. En este caso recomiendo la charla de Charla Software libre de IR para SEO’s realizada por José Ramón Pérez Agüera.








Vía OjoBuscador

Epaaaaa!!! Linus Torvald es candidato al premio Principe de Asturias en Investigación

Si señor, este miércoles se sabrá quien es el ganador del premio Principe de Asturias área investigación. Entre las muchas propuestas (son varias decenas) se halla la del finlandés Linus Torvalds, el famoso creador del sistema operativo Linux. A cruzar los dedos...

Practicando Expresiones Regulares con Regex Coach

Las expresiones regulares son una importante herramienta para el manejo de información no estructurada o débilmente estructurada. Más allá de los usos clásicos, relacionados con el análisis léxico en teoría de compiladores, un buen manejo de las expresiones regulares puede dar al programador una significativa ventaja a la hora de escribir código.

Para aquellos que deseen practicar con ER les dejo una herramienta educativa llamada Regex Coach (http://www.weitz.de/regex-coach) la cual permite construir expresiones y verificar su funcionamiento a partir del ingreso de cadenas a procesar. A los efectos de ganar tiempo les dejo a continuación una serie de tips para empezar a entender y probar la técnica:

Caracteres especiales

Por ejemplo copia la siguiente expresión regular "(sulf|clor)(ito|ato)" y comprueba con que cadenas hace match, verás que solo lo hace con 4 términos.

Prueba el operador de repetición "*" (clausura de Klenee) y verifica para la siguiente expresión regular "(sc|g)o*(al|re)" cuales términos son válidos.

"ac*a" una a seguida por cualquier cantidad de c y al final otra a

Si se quiere operar con rangos de caracteres se deben utilizar los metacaracteres "[rango]", por ejemplo [0-9] solo dígitos numéricos [a-z] letras minúsculas entre a la z, [^0-9] ^es operador de negación, es decir que no sean dígitos numéricos.

Por ejemplo, una expresión regular que detecta si un término empeiza con letra mayúscula y continua con minúsculas "[A-Z][a-z]*". O un número de 3 dígitos "[0-9]{3} " o de 3 o más [0-9]{3,}

Cualquier cadena no vacía que contenga a, x e y "[axy]+"

Si queremos detectar si una cadena a su inicio empieza con una subcadena utilizamos "^Su color" o al final de la cadena "trono$".

Ahora es el momento de ver a pleno la potencia de las ER, el siguiente programa Perl lee el archivo de texto "aba.txt" de una sola vez, reemplaza los caracteres de fin de línea por espacios, normaliza a minúsculas todas las letras, elimina aquellos caracteres que no estén en el rango de la a y la z, extrae las palabras y finalmente muestra su frecuencia. casi todo hecho con expresiones regulares y en poquísimas líneas.

open(IN,"aba.txt");

@tmp=; $texto = "@tmp";
$texto =~ s/\n/ /g;
$texto =~ tr/A-Z/z-z/;
$texto =~ s/[^a-z]/ /g;
(@arreglo)=split(/ /,$texto);
foreach $ele (@arreglo) {$aso{$ele}=$aso{$ele}+1}
foreach $ele (keys %aso) { print $ele." = ".$aso{$ele}."\n" }

domingo, junio 17, 2007

Papers en línea del AIRWeb 2007

AIRWeb 2007 es la sigla del evento "3er Workshop Internacional en Adversarial Information Retrieval on the Web" . ¿De qué se trata?, es simple, tiene que ver con un modelo de donde, por un lado un grupo de personas intenta que ciertas búsquedas conduzcan a lugares que ellos definieron, en lugar de ir a los sitios normales definidos por la masa de proveedores de información.

Ejemplo, un grupo de usuarios podría insertar el siguiente texto "nuevo imperio romano" en una importante porción de enlaces que conduzcan a la página principal de la Casa Blanca, con ello de forma artificial podría llegar a redirigir el tráfico de forma significativa, alejando a los usuarios de los sitios tradicionales que tienen que ver con tal contenido. Básicamente esto no se realiza por diversión, sino por dinero y tiene que ver con técnicas sucias que usan ciertos SEOs.

En este enlace se encuentra el listado de papers que se presentaron en el evento.

UBA Escuela de Ciencias Informáticas 2007

La Escuela de Ciencias Informáticas (Departamento de Computación - Facultad de Ciencias Exactas y Naturales - Universidad de Buenos Aires) se lleva a cabo durante los meses de julio o agosto desde el año 1987.

La ECI tiene como objetivo prioritario ofrecer a nuestros alumnos, a los alumnos de otras instituciones, a graduados y a profesionales del medio cursos de especialización y actualización intensivos de alto nivel sobre temas que habitualmente no se dan en las carreras de grado. Estos cursos son dictados en su mayoría por profesores de otras instituciones, extranjeras y nacionales, lo cual permite brindar a los participantes enfoques diferentes de los temas tratados y la oportunidad de establecer vínculos de cooperación académica, así como incentivar las actividades de investigación y desarrollo en el ámbito de las universidades.

Coincidiendo con un esfuerzo nacional para crear una capacidad científica y tecnológica propia en el área informática, se intenta promover la formación de una nueva generación de investigadores y profesionales. A las distintas ediciones de la ECI han concurrido entre 350 y 800 personas que tomaron 2 o 3 cursos cada una y entre ellas se cuentan numerosos estudiantes de universidades del interior del país.

La ECI ofrece cada año entre 6 y 10 cursos intensivos de 15 a 18 horas cada uno con evaluación final. Se otorga certificado de asistencia y/o aprobación. Se provee a los alumnos material bibliográfico relacionado con el tema de cada curso.

Por otro lado también se realizan durante la ECI conferencias, tutoriales y seminarios de menor duración en forma paralela a lo anterior y sin evaluación. Algunos de estos están específicamente dirigidos a profesionales que trabajan en empresas.


Cursos de 15 horas


Turno Mañana (9 a 12 hs)
M1.Modern Trends in the formal language theory
(Curso en inglés) Alexander Meduna, Brno University of Technology, República Checa.
Turno Tarde (14 a 17 hs)
T1.Software performance
(Curso en inglés) Arzhan Kinzhalin, Intel, Argentina
Turno Noche (19 a 22 hs)
N1.Foundations of software specification and development: an abstract overview
(Curso en inglés) Andrzej Tarlecki, Warsaw University and Institute of Computer Science and Polish Academy of Sciences, Polonia.

N2.Fundamentos Matemáticos y algoritmos de las redes
(Curso en castellano) Fabrizio Luccio, Universidad de Pisa, Italia.

N3.Object-Oriented Programming and verification in Spec#
(Curso en inglés) Mike Barnett and Shaz Qadeer, Microsoft Research.

Cursos de 30 horas


Turno Doble: Mañana y Tarde (9 a 12 y 14 a 17 hs)
MT1.Estimación de movimiento en secuencias de imágenes
(curso en castellano) Luis Alvarez León, Agustín Salgado de la Nuez, Universidad de Las Palmas de Gran Canaria, España. (Teoría y Práctica)

MT2.Síntesis de sistemas digitales: VHDL, componentes virtuales, dispositivos programables
(curso en castellano) Jean Pierre Deschamps, Universidad Rovira I Virgili, Tarragona, Gustavo Sutter Universidad Autónoma de Madrid, España. (Teoría y Práctica)

1st. Int. Workshop on Teaching and Learning of Information Retrieval

En Londres, en enero del 2007, se realizó el primer Workshop sobre Teaching and Learning of Information Retrieval. Me gusta que la disciplina ya se esté asentando dentro de los niveles de grado académico, siempre pensé que en algún momento tendría que llegar al nivel de importancia de base de datos, y luego en una segunda movida, debería surgir un área que integre a las dos, es decir al tratamiento de información estructurada y a la no (o débilmente) estructurada.

Les comento que en la página del evento están los papers a disposición de quien desee leerlos. Estuve revisando algunos y me interesó el debate propuesto por el trabajo de Stefano Mizzaro "¿Teaching of Web Information Retrieval: Web First or IR First?", del cual copio su resumen:

"When teaching Web Information retrieval (IR), a teacher has two alternatives: (i) to teach the classical pre-Web IR issues first and present the Web specific issues later; or (ii) to teach directly the Web IR discipline per se.

The first approach has the advantages of building on prerequisite knowledge, of presenting the historical development of the discipline, and probably appears more natural to most lecturers, who have followed the historical development of the field.

Conversely, the second approach has the advantage of concentrating on a more modern view of the field, and probably leads to a higher motivation in the students, since the more appealing Web issues are dealt with at course start.

I will discuss these issues, I will mention the approaches followed in the (rather few) Web IR books available, I will make some comparisons with the teaching of related disciplines, and I will also summarize my experience and some feedback from my students (I have been teaching a Web IR course for two Master's degrees in Computer Science and Information Technology at Udine University for the last two years; I had about twenty students each year; and I followed the first approach)."

Livio , el carpintero de Venecia

Livio De Marchi es apodado como el carpintero de Venecia, ¿por qué? por que él es un artesano de la talla en madera, capaz de imitar cualquier objeto. Como les hubiera gustado a los ingleses llevárselo para la operación camuflaje antes del día D.


Livio aprendió su arte en ese cuna de la cultura llamada Venecia (de donde era mi abuelo, orgulloso yo, no mentiiiira) , a partir de las fotos de sus trabajos se ve que la talla es perfecta, doy fe de esto a partir de ver su Ferrari y su escarabajo de madera, su casa de libros, su copia de un armario, etc.

Una campera tallada en madera
La clásica motoneta italiana
Su Ferrari F50, la cual tiene un motor que le permite navegar por los canales de Venecia a cinco nudos.

&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;lt;a href="https://s3.amazonaws.com:443/slideshare/ssplayer.swf?id=9614&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;doc=carpintero-de-venecia-11069" target="_blank"&amp;amp;amp;amp;amp;amp;amp;gt;https://s3.amazonaws.com:443/slideshare/ssplayer.swf?id=9614&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;doc=carpintero-de-venecia-11069&amp;amp;amp;amp;amp;amp;amp;lt;/a&amp;amp;amp;amp;amp;amp;amp;gt;

Vía Corcho, gracias

sábado, junio 16, 2007

Un 16 de junio de 1955

Un 16 de junio de 1955 ocurrió uno de los hechos más sangrientos en nuestro país. Ese día aviones de las fuerzas armadas bombardean la ciudad de Buenos Aires. En un intento de derrocamiento del Presidente de la Nación, un grupo pequeño de militares se sublevan y deciden una acción violenta a los efectos de precipitar el derrocamiento del gobierno y por ende de la democracia.

El saldo fue duro, difícil de tragar, pero aparentemente fácil de olvidar. Las fuentes no coinciden en los muertos y heridos, pero si se sabe que fueron 20 aviones que asesinaron alrededor de 300 personas e hirieron a más de 1000.

En lo personal pienso que este hecho olvidado "no fue el motivo ni la justificación" pero si la "raíz" de la desgraciada historia de violencia de todo tipo que vendría en las siguientes décadas. Por eso quiero evocar esta fecha para que en la memoria colectiva se fije un "nunca más a la violencia armada" el país no la necesita, puede crecer en el diálogo bajo el sustento de una "imperfecta democracia", pero es lo que hay y hasta el momento nada en la práctica la ha superado a escala.

Como recuerdo y ejercicio de "refresh" de memoria les dejo el documental de Pino Solanas que relata nuestro último acto de violencia nacional. La obra "Memorias del Saqueo" está publicada en Google Video y a vuestra disposición.

viernes, junio 15, 2007

Backup de tu blog

Blog Backup Online es un sitio que ofrece un servicio de copia de respaldo de blogs. De forma gratuita permite almacenar hasta 50 MB. La aplicación únicamente almacena texto y enlaces, es decir que no descarga los archivos de imágenes.

En la búsqueda de una herramienta de backup me topé con un programa para Windows/Linux que realiza la descarga completa de un sitio "HTTrack ". Me gustó su simpleza, eficiencia y los pocos bytes que ocupa este personal crawler.

Video "Código Linux"

"Código Linux" es el nombre de un documental hecho en Finlandia (doblado por la TVE), está disponible para ver desde Google Video. Recomendado para "evangelizar" sobre software libre y Linux. Sería bueno que aquellos que tenemos alguna cuota de responsabilidad en la educación lo pasemos o divulguemos por nuestras aulas.

jueves, junio 14, 2007

Universidad de Berkeley - Cursos en video

A continuación presento una serie de cursos de la Universidad de Berkeley en formato video.

Interfase con la BD SCIMago

El ranking elaborado por SCImago Research Group (integrado por investigadores de las universidades de Granada, Extremadura y la Universidad Carlos III de Madrid), analiza la producción científica de universidades e institutos de investigación de algunos países (Argentina, Brasil, Chile, Colombia, España, México, Portugal y Venezuela) iberoamericanos en los quince años comprendidos en el período 1990-2005. Se analizan más de 600 instituciones que registran artículos científicos en publicaciones indexadas en la base de datos Thomson Scientific (ISI).

El ranking opera con varios indicadores, en particular la métrica " Producción Total" muestra muestra la evolución de la producción total del agregado regional / área temática / institución seleccionada, por años del periodo 1990-2005. Este indicador muestra el conjunto de instituciones de la región que producen más cantidad de documentos científicos publicados en revistas indexadas en las bases de datos Thomson-ISI.

A la interfase de consulta puede accederse desde aquí.

Rankings de Universidades Iberoamericanas

Ranking SCIMago:
  • 1. Consejo Superior de Investigaciones Científicas (España) – 59,595
  • 2. Universidade de São Paulo (Brasil) – 38,539
  • 3. Universitat de Barcelona (España) – 25,503
  • 4. Universidad Nacional Autónoma de México (Mexico) – 24,565
  • 5. Universidad Complutense de Madrid (España) – 22,069
  • 6. Universidad de Buenos Aires (Argentina) – 16,625
  • 7. Universidade Estadual de Campinas (Brasil) – 15,173
  • 8. Universidad Autònoma Barcelona (España) – 14,690
  • 9. Universitat de Valencia (España) – 14,115
  • 10. Universidade Federal do Rio de Janeiro (Brasil) – 13,471
  • 11. Consejo de Investigaciones Científicas y Técnicas (España) – 13,364
  • 12. Universidad Autónoma de Madrid (España) – 12,993
  • 13. Universidad de Santiago de Compostela (España) – 11,082
  • 14. Universidad de Chile (Chile) – 11,026
  • 15. Universidad de Granada (España)– 10,323

Ranking Webometrics:

  • 1.(81) Universidad Nacional Autonoma de Mexico (Mexico)
  • 2.(97) Universidad de Sao Paulo (Brasil)
  • 3.(162) Universidad Complutense de Madrid (España)
  • 4.(190) Universidade Estadual de Campinas (Brasil)
  • 5.(252) Universidad de Sevilla (España)
  • 6.(257) Universitat de Barcelona (España)
  • 7.(264) Universidad do Porto (Portugal)
  • 8.(265) Universidad de Chile (Chile)
  • 9.(266) Universitat de Valencia (España)
  • 10.(267) Universitat Autonoma de Barcelona (España)
  • 11.(280) Universidad Politecnica de Madrid (España)
  • 12.(281) Universidade Ferderal de Santa Catarina Brasil (Brasil)
  • 13.(295) Universidad de Granada (España)
  • 14.(318) Universitat Politecnica de Catalunya (España)
  • 15.(322) Universidad Politecnica de Valencia (España)

Ranking de Shangai Jiao Tong University:

  • 1. (153-201) Univ Autónoma de Madrid (España)
  • 2. (153-201) Univ Nacional Autonoma Mexico (Mexico)
  • 3. (153-201) Univ Sao Paulo (Brasil)
  • 4. (202-301) Univ Barcelona (España)
  • 5. (202-301) Univ Buenos Aires (Argentina)
  • 6. (302-403) Univ Chile (Chile)
  • 7. (302-403) Univ Complutense - Madrid (España)
  • 8. (302-403) Univ Estadual Campinas (Brasil)
  • 9. (302-403) Univ Fed Rio de Janeiro (Brasil)
  • 10. (302-403) Univ Valencia (España)
  • 11. (404-502) Univ Autonoma Barcelona (España)
  • 12. (404-502) Univ Estadual Paulista (Brasil)
  • 13. (404-502) Univ Granada (España)
  • 14. (404-502) Univ Lisbon (Portugal)
  • 15. (404-502) Univ Santiago Compostela (España)
Artículo completo en Atina Chile

Software para administrar encuestas en línea

Hace tiempo estaba buscando un software simple para administrar encuestas en línea. me enganché con PHPESP y creo que vale la pena, no es complejo, fácil de instalar y posee una metodología simple para definir encuestas de opinión que se cargarán en línea.

miércoles, junio 13, 2007

Noticia urgente

"Horacio Guaraní está totalmente en contra del recital de Soda Stereo, debido a que puede diluir la verdadera esencia de la vida. Según comunicó el cantante popular va a acudir por auxilio al tribunal de Ginebra."

Paper recomendado sobre software libre

.
Paper recomendado: Comunidades Open Source. Métricas y evolución en los últimos 3 años. Felipe García, Universidad de Chile, Seminario de Software Libre. (2005)

Humor. Misterios históricos

Métricas para sitios web de bibliotecas

n el blog Internexo se presenta una entrada que trata el tema de métricas para sitios web de bibliotecas. Los indicadores se dividen en: impacto en la misión, calidad de las estrategias de servicios, calidad del desarrollo y la tecnología, calidad de infraestructura y conectividad, posicionamiento, promoción y mercadeo y uso de la información.

martes, junio 12, 2007

Soft de IA para clasificación y regresión de datos

Nuclass7 y Numap7 son dos aplicaciones de los Laboratorios Neural Decision que poseen una versión freeware (con restricciones de tamaño del modelo): Nuclass7 es para trabajar en clasificación (es posible usar redes neuronales) y Numap7 es para análisis de regresión y asociación. Pienso que pueden ser útiles para estudiantes de asignaturas de minería de datos, inteligencia artificial en grado y postgrado.

Nuclass7 7.06a : Freeware for fast training, validation, and application of classification type networks including the multilayer perceptron (MLP), functional link network, piecewise linear network, and nearest neighbor classifier. The self organizing map (SOM) and K-Means clustering are also included. Fast pruning algorithms create a nested sequence of different size networks, to facilitate structural risk minimization. C source code for applying trained networks is provided, so users can use networks in their own applications. User-supplied txt-format training data files, containing rows of numbers, can be of any size. Example training data is also provided. Fast VB Graphics for network classification error and SOM cluster formation are included. Extensive help files are provided in the software. Nuclass7 is highly automated and requires very few parameter choices by the user. This version runs significantly faster. Advanced features include network sizing and feature selection. Training data can be compressed using the discrete Karhunen-Loeve' transform (KLT). This Basic version of Nuclass7 limits the MLP to 10 hidden units, the PLN to 10 clusters, and the NNC to 50 clusters. Upgradable to the commercial version, which lacks these limitations. The regression/approximation version of this software, called Numap7, is also available. Nuclass7 was developed by the Image Processing and Neural Networks Lab of Univ. of Texas at Arlington, and by Neural Decision Lab LLC.

Numap7: Freeware for fast training, validation, and application of regression/approximation networks including the multilayer perceptron (MLP), functional link network, and piecewise linear network. The self organizing map (SOM) and K-Means clustering are also included. Fast pruning algorithms create and validate a nested sequence of different size networks, to facilitate structural risk minimization. C source code for applying trained networks is provided, so users can use networks in their own applications. User-supplied txt-format training data files, containing rows of numbers, can be of any size. Example training data is also provided. Fast VB Graphics for network training error and cluster formation are included. Extensive help files are provided in the software. Numap7 is highly automated and requires very few parameter choices by the user. This version runs significantly faster. Advanced features include network sizing and feature selection. Training data can be compressed using the discrete Karhunen-Loeve' transform (KLT). This basic version of Numap7 limits the MLP to 10 hidden units and limits the PLN to 10 clusters. Upgradable to commercial versions which lack these limitations. The classification (decision making) version of this software, called Nuclass7, is also available. Numap7.0 was developed by the Image Processing and Neural Networks Lab of Univ. of Texas at Arlington, and by Neural Decision Lab LLC.

Beethoven a favor del arte libre

A Beethoven se le atribuye la siguiente frase:

"Debería haber un gran almacén de arte en el mundo al que el artista pudiera llevar sus obras y desde el cual el mundo pudiera tomar lo que necesitara."

Vía Periodista Digital

Creo que nuestra organización tiene un problema de comunicación

La visibilidad de los sitios web

Cerca del 80% de los nuevos visitantes a un sitio llegan a partir de los resultados dados a una consulta por un buscador. Este dato da una medida de la importancia de la posición de un sitio cuando es relevante a una consulta. De allí surge un servicio denominado marketing web el cual se especializa en el posicionamiento de sitios en motores de búsqueda. La visibilidad es un atributo de un sitio que indica cuan "visible" o cuán bien posicionado está en las listas de salida de los motores de consulta cuando se consulta por temas relevantes a él.

Una buena visibilidad para un sitio indica que: a) Es percibido como importante por los usuarios, b) En el caso de tener intención comercial le provee una ventaja frente a sus competidores y c) asegura un caudal importante de nuevos visitantes de forma sostenida.

Aguillo y otros en un trabajo de investigación titulado "Posicionamiento en el web del sector académico iberoamericano" presentan una metodología para medir la visibilidad de universidades. Utilizan el motor Google (versión internacional http://google.com) donde realizaron 20 búsquedas diferentes de términos semánticamente neutros, ejemplo de consulta "+site:ar +http". Donde el objetivo de cada búsqueda es recuperar las principales páginas de cada uno de los países iberoamericanos. Google recupera cerca de 1000 sitios web con mayor valor de PageRank. En resumen, la posición brindada por el motor de búsqueda Google es una medida de visibilidad de las páginas y la cual está basada en la estructura de los enlaces hipertextuales. Luego para cada página se anotó su posición relativa en la lista de resultados obtenidos. Puesto que las universidades pueden aparecer representadas por más de una página, se contabilizó por un lado el número de instituciones únicas, y por otro la frecuencia total de aparición en cada caso.

AGUILLO, Isidro F, GRANADINO, Begoña and LLAMAS, Germán. Posicionamiento en el web del sector académico iberoamericano. INCI, Dec. 2005, vol.30, no.12, p.735-738.

Informe UNESCO sobre fraudes en educación

.
De acuerdo a un estudio de UNESCO el número de universidades fraudulentas que ofrecen títulos falsos por Internet se multiplicó por cuatro (de 200 a 800) entre 2000 y 2004. La investigación se realizó en 60 países indica que existe un importante grado de malversación de fondos públicos, afectando al derecho del ciudadano a educarse, especialmente en países en desarrollo.

El informe que se titula “Corrupt schools, corrupt universities: What can be done trata las distintas maneras de fraude que afectan a millones de estudiantes. Según consta en su presentación:

"Los autores del informe sostienen que una mayor transparencia de los sistemas de reglamentación, un reforzamiento de las capacidades de gestión para mejorar la rendición de cuentas y una mejor apropiación del proceso de gestión pueden contribuir al desarrollo de sistemas educativos exentos de corrupción. Asimismo, formulan, entre otras más, las siguientes recomendaciones sobre la forma en que se puede tratar el problema de la corrupción:

Establecer normas y reglamentaciones claras, procedimientos transparentes y un marco de políticas explícito en los que se especifiquen las responsabilidades que incumben a cada una de las distintas partes interesadas en lo que respecta a la asignación, distribución y utilización de los recursos de la educación.

Mejorar las competencias en materia de gestión, rendición de cuentas, supervisión y auditoría del personal administrativo y otras partes interesadas en el sistema educativo, esto es, las asociaciones padres-docentes, los sindicatos profesionales y otras organizaciones pertinentes de la sociedad civil.

Facilitar al público en general el acceso a la información, a fin de posibilitar la participación, la apropiación y el control de la sociedad. Todas las personas más estrechamente vinculadas al lugar de prestación de servicios educativos –el centro docente correspondiente– deben estar suficientemente bien informadas no sólo para estar en condiciones de poder detectar cualquier fraude, sino también para reivindicar todo lo que tengan derecho a exigir."

Vía Diario El País

lunes, junio 11, 2007

VideoLectures

VideoLectures es un sitio social donde profesores e investigadores comparten grabaciones de sus tutorías, lectures, ponencias, etc. Es bastante interesante y útil el material que se comparte, se pueden hallar presentaciones sobre los siguientes temas relacionados con el tema principal de este blog:


Como se puede ver en las citas anteriores, hay material proveniente de "bronces" de la informática. Esta iniciativa y este tipo de difusión libre de conocimiento permite acercarnos un poco más a ciertas fuentes que generalmente, por razones económicas, nos están vedadas.

Sería interesante que el grupo de profesores e investigadores de habla hispana se sumen a este proyecto o armen el suyo, "compartir el conocimiento es de gente noble, negarlo es de quien no lo tiene y lo aparenta, o de mediocres".

El poder real de Google

Estuve revisando los accesos a mi blog con la herramienta Google Analytics. Cuando revisé la parte que informa acerca del tráfico derivado desde servicios de búsqueda vi la siguiente composición

Moraleja, todo pasa por Google.

Datos sueltos sobre buscadores

Estaba leyendo unas slides relativas a un curso de doctorado de la Universidad de Oviedo, el tema central son los buscadores y su satisfacción por parte de los usuarios. Reproduzco algunas partes que me llamaron la atención:

La relevancia promedio de los resultados está, efectivamente, alrededor del 50% Sin embargo, ¿cuál es la dispersión?

  • 20% consultas de la muestra tiene una precisión media del 21%
  • 23% consultas no obtienen ningún resultado relevante en la primera página
  • Estimación: 15%-20% todas las consultas no obtienen resultados relevantes
  • Casi la mitad de las consultass on relativas a famosos, ocio y sexo(es decir, “fáciles”de sastisfacer)

En consecuencia, casi la mitad de los usuarios quedan satisfechos con los resultados

Pero…Un porcentaje sustancial de consultas exige a los usuarios “bucear” más allá de la primera página de resultados


Los buscadores actuales son muy buenos…

  • …localizando sitios web conocidos/”oficiales”
  • …facilitando el acceso a servicios on-line(mapas, tiempo, e-mail, subastas, etc.)
  • …resolviendo consultas simples (famosos, ocio y sexo)

En suma, Satisfaciendo a la mayor parte de la gente la mayor parte del tiempo

domingo, junio 10, 2007

Richard Stallman un filósofo contemporáneo

Richard además de ser uno de los más grandes defensores del conocimiento libre como materia prima para el desarrollo de la humanidad, es también un crítico de nuestra sociedad. Aquí transcribo un pensamiento de él sobre la democracia

".. Que las empresas tengan especial influencia en la política significa que la democracia está enferma. El propósito de la democracia es asegurarse de que los ricos no tienen una influencia proporcional a su riqueza. Y si tienen más influencia que tu o que yo, eso significa que la democracia está fallando. Las leyes que obtienen de esta forma no tienen autoridad moral, sino la capacidad de hacer daño..."

Duro, pero este tipo de noble provocación, por lo menos en mi, genera un debate interno.

La entrevista completa aquí.

Vía Neonation Blog

Métrica NGD (Distancia normalizada de Google)

.
En un artículo de investigación Cilibrasi y Vitany, que lleva por título “Automatic Meaning Discovery Using Google”, proponen una nueva métrica denominada Normalized Google Distance (NGD) o Distancia Normalizada de Google. Esta herramienta tiene por finalidad medir cuan cerca están dos términos en el espacio de documentos que indexa Google, el cual es una muestra robusta que puede ser tomada como corpus representativo de la lengua actual.

El algoritmo de cálculo indica que si se desea medir el NGD de dos términos, ejemplo profesor y alumno, se deberá consultar a Google sobre la cantidad de documentos que contienen el primer término, el segundo y ambos. Luego, utilizando una fórmula se computa la distancia entre los términos a evaluar.

Donde f(x) es el número de páginas que contienen el término x, f(y) el número de páginas que contienen el término, f(x,y) número de páginas que contienen ambos términos y N una constante de normalización.

Veamos el siguiente ejemplo, el cual fué realizado con una script disponible en la web. Números cercanos a cero son indicadores de una menor distancia.

Term 1: +"profesor"
f(x) = 43900000
log f(x) = 7.64246452024212

Term 2: +"alumnos"
f(y) = 34600000
log f(y) = 7.53907609879278

Intersection: +"profesor" +"alumnos"
f(x,y) = 1400000
log f(x,y) = 6.14612803567824

M: 11828505634
log M: 10.072929881069

  • NGD(profesor, alumno) = 0.590537818334437

Ahora probemos con dos términos donde debería haber una mayor distancia, profesor y mediocre

Term 1: +"profesor"
f(x) = 44000000
log f(x) = 7.64345267648619

Term 2: +"mediocre"
f(y) = 16800000
log f(y) = 7.22530928172586

Intersection: +"profesor" +"mediocre"
f(x,y) = 303000
log f(x,y) = 5.4814426285023

M: 11828505634
log M: 10.072929881069

  • NGD(profesor,mediocre) = 0.759233884065374
Como se vió hay una menor distancia profesor-alumnos que entre profesor-mediocre. Recomiendo la lectura del paper, donde además de un exhaustivo estudio matemático, se presentan algunas ideas de utilización de esta herramienta (traducción automática, extracción de información, redes semánticas, etc.

Pd. al código fuente de la script Perl lo hallan aquí.

Humor. Zipf y su ley del menor esfuerzo


Vía Taringa

sábado, junio 09, 2007

Directorio de bibliografía sobre Wikipedia

En el blog "Story Geek" existe un muy completo listado de bibliografía académica sobre el fenómeno Wikipedia.

Mitos urbanos digitales. Cocinando huevos con celulares

Estimados les paso un enlace donde se investiga el mitos urbano digital "Cocinando huevos con celulares".

Bon Appetit!

viernes, junio 08, 2007

Curiosidad aritmética

  • 100 = 123 + 45 – 67 + 8 – 9
  • 100 = 123 – 45 – 67 + 89
  • 100 = (1 + 2 – 3 – 4) * (5 – 6 – 7 – 8 –9)

Artículo. Búsquedas booleanas sobre texto completo usando MySQL y PHP

Artículo. Búsquedas booleanas sobre texto completo usando MySQL y PHP

jueves, junio 07, 2007

Humor. Las 20 fases de un examen

.
1.- Llegada (normalmente demasiado pronto) al lugar del examen.
2.- Repaso compulsivo y totalmente infructuoso de los apuntes.
3.- Fase de cachondeo nervioso pre-examen.
4.- Entrada atemorizada al aula donde va a perpetrarse el examen.
5.- Reparto de los folios para el examen ("¡¿Cinco folios?!" dicen algunos).
6.- Reparto de las hojas de preguntas ("En algo tan pequeño no pueden caber muchas preguntas", dicen algunos infelices).
7.- Vuelta de la hoja y descubrimiento de que usan un tamaño de letra 5 o más pequeño.
8.- Carcajada histérica.
9.- Resoplidos varios y llevadas de manos a la cabeza automáticas.
10.- Descubrimiento de que con lo (poco) que se recuerda no se puede contestar ni a la mitad de las cuestiones.
11.- Intentos vanos de copia (con el subsiguiente descubrimiento de que el de al lado tiene menos idea que tú).
12.- Fase de derrumbamiento, desesperación, impotencia y espera (porque está feo entregar el examen tras sólo diez minutos).
13.- Entrega del examen y huida del lugar del crimen.
14.- Fase de cachondeo nervioso post-examen.
15.- Fase de exclamación de palabras soeces ("La he cagado", "me clavaron" y demás).
16.- Comparación de resultados (comprobando que no hay dos personas con las mismas respuestas, o mucho peor: todos coinciden menos tú).
17.- Fase de consulta compulsiva de los apuntes (cuyo único resultado es empeorar el estado de ánimo del consultante).
18.- Fase de declaración de principios: "Ya no voy más a... (Macroeconomia, Derecho, Álgebra...)"
19.- Fase de negación ("¿Examen? ¿Qué examen? Yo no he hecho ningún examen").
20.- Fase depresiva post-traumática y elaboración de planes para eliminarla: "Necesito irme de fiesta".

Vía Un hombre solo en la red