sábado, junio 30, 2007
viernes, junio 29, 2007
Libro gratis Procesamiento Automático del Español con Enfoque en Recursos Léxicos Grandes
Índice Abreviado
- Prefacio 1
- Capítulo 1 Introducción 3
- Parte I Problemas generales del Procesamiento de Lenguaje Natural 13
- Capítulo 2 Tareas y aplicaciones de PLN 15
- Capítulo 3 Niveles de lenguaje y su reflejo en PLN 59
- Capítulo 4 Problemas del uso de diccionarios en PLN 73
- Parte II Aplicaciones del PLN con recursos léxicos grandes 97
- Capítulo 5 Análisis morfológico automático basado en un diccionario de raíces 99
- Capítulo 6 Análisis sintáctico automático basado en un diccionario de patrones de manejo 119
- Capítulo 7 Resolución de correferencia con un diccionario de escenarios 133
- Capítulo 8 Recuperación de documentos con comparación semántica suave 145
- Capítulo 9 Comparación de los coeficientes de las leyes de Zipf y Heaps en diferentes idiomas 157
- Parte III Construcción de recursos léxicos para el PLN 171
- Capítulo 10 Compilación automática del corpus léxica y morfológicamente representativo 173
- Capítulo 11 Construcción automática del diccionario de colocaciones basándose en un análisis sintáctico automático 185
- Capítulo 12 Evaluación automática de la calidad de los diccionarios explicativos 199
- Capítulo 13 Detección automática de las primitivas semánticas 207
- Bibliografía 221
- Índice analítico
Dime qué sitio usas y sabré tu clase social
"Dime qué sitio usas y sabré tu clase social" es el título de una nota del diario La Nación. La cual habla acerca de un estudio de investigación de la Universidad de Berkeley, sobre la división de clases de jóvenes en norteamérica en base al estudio de redes sociales electrónicas.
Aquí encontrarán la página de publicaciones de su autora, Danah Boyd, la cual tiene una producción interesante en el área de redes sociales (y además está en paper original)
Mario Benedetti y su poesía "Windows 98"
Windows 98
Mi corazón se acurruca en su software
y el mouse sale a buscar el disparate.
Cuando me enamoraba de una Venus
mis sentimientos no eran informáticos,
pero ahora debo pedir permiso
hasta para escribir con el news gothic.
Te urjo amor que cambies de formato.
Prefiero recibirte en times new roman
más nada es comparable a aquel desnudo
que era tu signo en tiempos de la Remington.
Mario Benedetti, Antología de Poesía Hispanoamericana
jueves, junio 28, 2007
No logro entender como alguna vez se hicieron estos experimentos en "beneficio" de la ciencia
Leyendo el blog Neatorama, hallo un post sobre experimentos sicológicos. No logro entender como alguna vez se hicieron tales prácticas, sobre humanos, en "beneficio" de la humanidad.
1. Stanley Milgram´s Obedience Studies
In this Yale University study, participants were told they were part of an experiment on the effects of punishment [wiki] on learning. They were instructed to teach another participant (the “learner”) a list of words, and whenever the learner made a mistake, deliver an electric shock via a generator with levers labeled in 15-volt increments (up to 450 volts–where the label read “Danger: Severe Shock” and “XXX”).
The learner (who, unknown to the participant, was not actually receiving shocks) became increasingly vocal, at one point even screaming, “I can’t stand the pain! Get me out of here!” Because the experimenter urged the participants to continue, nearly 65% of them continued to obey the experimenter to deliver the maximum 450 volts. The participants weren’t sadistic, Milgram [wiki] argued, just socialized to obey authority figures.
n the summer of 1971 Philip Zimbardo [wiki] put Stanford Students in jail [wiki]. Students, who volunteered and were paid, were randomly assigned to be either guard or prisoner. The prisoners were surprised at their homes, handcuffed, and taken by police cruiser to makeshift jail in the basement of the psychology department. There they were stripped of their personal belongings and given smocks, nylon caps, and identification numbers. The uniformed guards were simply told to enforce the rules.
In just a few short days, the guards began to devise sadistic and degrading rituals for the prisoners, many of whom became depressed, anxious, or apathetic. Although they knew that this was just an experiment, all of
the guards and prisoners adopted their rules, completely overriding their own individuality. The outcome was so dramatic, the experiment was stopped after only six days.
John Watson [wiki] and Rosalie Rayner conducted one of the most famous and controversial studies in psychology using an 11-month-old boy who came to be known as Little Albert [wiki]. With Little Albert, Watson demonstrated that many fears are conditioned through an association with other fearful situations.
Before the experiment, Little Albert was a normal baby who was afraid of loud noises but not much else. Little Albert loved playing with small animals until Watson taught him to become afraid of a white rat by repeatedly banging a steel rod with a hammer whenever Albert was given a white rat to play with. Little Albert’s fear generalized to other similar objects, such as Watson’s white hair and a Santa Claus mask. Watson clearly demonstrated that fears could be conditioned, but his methods have been roundly criticized, especially since conditioning was never reversed.
Vía Neatorama
Búsquedas de imágenes por color
miércoles, junio 27, 2007
SIRTEL 2007 - Workshop on Social Information Retrieval for Technology Enhanced Learning.
Creta, Grecia, Setiembre 17-20 2007
Social information retrieval (SIR) refers to a family of techniques that assist users in obtaining information to meet their information needs by harnessing the knowledge or experience of other users. Examples of SIR techniques include sharing of queries, collaborative filtering, social network analysis, social navigation, social bookmarking and the use of subjective relevance judgements such as tags, annotations, ratings and evaluations.
SIR methods, techniques and systems open an interesting new approach to facilitate and support learning and teaching. There are plenty a resource available on the Web, both in terms of digital learning content and people resources (e.g. other learners, experts, tutors) that can be used to facilitate teaching and learning tasks. The remaining challenge is to develop, deploy and evaluate systems that provide learners and teachers with guidance to help identify suitable learning resources from a potentially overwhelming variety of choices.
Several questions are being researched around the application of SIR methods in Technology-Enhanced Learning (TEL) settings. The aim of the SIRTEL'07 Workshop is to bring together researchers and practitioners who are working on topics related to the application of SIR methods, techniques and systems in educational settings, as well as to present the current status of research in this area to interested researchers and practitioners. It aims to serve as a discussion forum where researchers will present the results of their work, and also establish liaisons between different groups that are exploring related subjects. In addition, it aims to outline the rich potential of emerging SIR methods, techniques and systems in order to better build TEL systems and services.
The aim of the workshop is to chart out the current state-of-the-art of SIR in TEL, and to list the main enablers and challenges for the near future and the long term. Each presenter of the workshop is asked to explicitly identify such enablers and challenges. The workshop will conclude with an open discussion listing and prioritising the main enablers and challenges for the short and the long term. One of the aims is to identify the need for new research.
- Recepción de trabajos: 1 de julio
- Notificación: 15 de julio
- Camera ready: 15 de agosto
martes, junio 26, 2007
Evento: Tagging and Metadata for Social Information Organization
Mayo 8-12 12007, Baff, Canadá
Papers presentados:
- Learning User Profiles from Tagging Data and Leveraging them for Personal(ized) Information Access
Elke Michlmayr and Steve Cayzer - Network Properties of Folksonomies
Christoph Schmitz, Miranda Grahl, Andreas Hotho, Gerd Stumme, Ciro Cattuto, Andrea Baldassarri, Vittorio Loreto, and Vito D. P. Servedio - Emerging Motivations for Tagging: Expression, Performance, and Activism
Alla Zollers - Applying Collaborative Tagging to E-Learning
Scott Bateman, Christopher Brooks, Gord McCalla, and Peter Brusilovsky - Tag-Cloud Drawing: Algorithms for Cloud Visualization
Owen Kaser and Daniel Lemire - SemKey: A Semantic Collaborative Tagging System
Andrea Marchetti, Maurizio Tesconi, Francesco Ronzano, Marco Rosella, and Salvatore Minutoli - Towards Federated Web2.0 Sites: The TAGMAS Approach
Jon Iturrioz, Oscar Diaz, and Cristobal Arellano
lunes, junio 25, 2007
Investigación sobre el perfil de usuario de Internet
Las conclusiones del informe son: Los usuarios de Internet son más activos, tienen más amigos, están más implicados en la vida política y tienen menos depresiones. Según el Director del proyecto, Manuel Castells, "...ha verificado lo que ya se sabía, que las nuevas tecnologías no encierran a la gente en casa sino que activan la sociabilidad...". Por otro lado indica que "...cuánto más autónoma es una persona más utiliza Internet, y a su vez, este uso refuerza su autonomía..". Para Castells, Internet "requiere un determinado nivel educativo", porque "nos hallamos ante una sociedad de la información desinformada y esto no lo resuelve Internet".
Del estudio se desprende que el 83% de jóvenes de entre 15 y 24 años son usuarios habituales de las nuevas tecnologías, y que en esta franja de edad está disminuyendo la diferencia de género en el uso de Internet.
Vía Diario El Mundo
Libro gratis de Procesamiento del Lenguaje
ïndice
- Prefacio 1
- Capítulo 1 Introducción 3
- Capítulo 2 Formalismos gramaticales 23
- Capítulo 3 Las valencias sintácticas en el análisis del español 111
- Capítulo 4 Descripción sintáctica en el análisis automático 139
- Capítulo 5 Compilación de patrones de rección avanzados 193
- Capítulo 6 Otras fuentes de conocimiento para el análisis sintáctico 247
- Glosario 295
- Vocabulario bilingüe de términos (inglés — español) 299
- Índice analítico 303
- Referencias 305
- Apéndice: conjunto de prueba
domingo, junio 24, 2007
Los 10 mandamientos de la "iglesia" Google
We at the Church of Google believe the search engine Google is the closest humankind has ever come to directly experiencing an actual God (as typically defined). We believe there is much more evidence in favour of Google's divinity than there is for the divinity of other more traditional gods.
We reject supernatural gods on the notion they are not scientifically provable. Thus, Googlists believe Google should rightfully be given the title of "God", as She exhibits a great many of the characteristics traditionally associated with such Deities in a scientifically provable manner.
Y luego a modo de guía de vida o manifiesto del obrar del googlista ellos plantean los siguientes mandamientos:
- Thou shalt have no other Search Engine before me, neither Yahoo nor Lycos, AltaVista nor Metacrawler. Thou shalt worship only me, and come to Google only for answers.
- Thou shalt not build thy own commercial-free Search Engine, for I am a jealous Engine, bringing law suits and plagues against the fathers of the children unto the third and fourth generations.
- Thou shalt not use Google as a verb to mean the use of any lesser Search Engine.
- Thou shalt remember each passing day and use thy time as an opportunity to gain knowledge of the unknown.
- Thou shalt honor thy fellow humans, regardless of gender, sexual orientation or race, for each has invaluable experience and knowledge to contribute toward humankind.
- Thou shalt not misspell whilst praying to me.
- Thou shalt not hotlink.
- Thou shalt not plagiarise or take undue credit for other's work.
- Thou shalt not use reciprocal links nor link farms, for I am a vengeful but fair engine and will diminish thy PageRank. The Google Dance shall cometh.
- Thou shalt not manipulate Search Results. Search Engine Optimization is but the work of Microsoft.
La ciencia también tiene su lado poco atractivo
Leyendo el post llego a la misma conclusión que mi abuelita hubiera hecho, "En ciencia también se encuentran rotos para descosidos"
sábado, junio 23, 2007
Off topic. Una milonga que me llamó la atención
Letra de José Luis Panizza
Musica de José Laina
Ayer eras la mimosa
de toda la sociedad;
hoy sos una pobre cosa
que se arrastra y nada mas
Ya lucias desde chica
tu pinta de milonguera.
Vos fuistes la primera
que melena se dejo.
Mientras todos se creian
que salias de paseo
le metias al tangueo
en garçonnière comme il faut.
Engrupias a tus viejos
que ibas a aprender frances
Aprendiste a hablar al
No te importo el apellido
ni el nombre de niña bien
cuando agarraste aquel viaje
en un te del Parque Hotel.
El cine y la cocaina
te llenaron la cabeza.
A vos no fue la pobreza
que te entrego a un gigolo.
Hoy que sos una bacana
tal vez recuerdes con pena
que fuiste muchacha buena
y un berretin te perdio.
viernes, junio 22, 2007
Akamai y su Proyecto Visualize
Akamai es una empresa pionera en aceleración de contenidos. En este momento ha presentado un nuevo sitio donde los usuarios pueden visualizar en tiempo real el volumen de tráfico y la latencia entre ciudades del mundo. El Proyecto Visualize usa la infraestructura de la empresa que tiene presencia en 750 ciudades con más de 25.000 servidores.
jueves, junio 21, 2007
Si podés cooperá con este estudio sobre bloggers
The Society for New Communications Research (SNCR) has a survey out:
Blogs are now a near second to newspapers as the most trusted information source. A Pew Internet and American Life survey showed that blog readership in the US jumped 58% in 2005 spawning a new desire for immediate news and information. With the launch of MySpace News (www.news.myspace.com) news has taken a leap into social media sites.
We want to find out if influential bloggers like yourself are incorporating, or are planning to incorporate news on your blog and also get your views on news sources. Please take a few minutes to give us your insights into how you would prefer to receive and use news content.
https://www.surveymonkey.com/s.aspx?sm=W2chlf4zIN6Vi67ZntskSw_3d_3d
Consumo de videos en línea
miércoles, junio 20, 2007
Lo confieso, me gusta cantando por un sueño
Una más y no jodemos más, ahora con "Time to Say Goodbye"
Curso de redes con videos incluidos
Presentación didáctica sobre el modelo open source
Presentación didáctica sobre el modelo open source, realizada por la gente del sitio 55thinking
Vía blog TodoBI
lunes, junio 18, 2007
Ponencias OjoBuscador I
Vía OjoBuscador
Epaaaaa!!! Linus Torvald es candidato al premio Principe de Asturias en Investigación
Practicando Expresiones Regulares con Regex Coach
Para aquellos que deseen practicar con ER les dejo una herramienta educativa llamada Regex Coach (http://www.weitz.de/regex-coach) la cual permite construir expresiones y verificar su funcionamiento a partir del ingreso de cadenas a procesar. A los efectos de ganar tiempo les dejo a continuación una serie de tips para empezar a entender y probar la técnica:
Prueba el operador de repetición "*" (clausura de Klenee) y verifica para la siguiente expresión regular "(sc|g)o*(al|re)" cuales términos son válidos.
"ac*a" una a seguida por cualquier cantidad de c y al final otra a
Si se quiere operar con rangos de caracteres se deben utilizar los metacaracteres "[rango]", por ejemplo [0-9] solo dígitos numéricos [a-z] letras minúsculas entre a la z, [^0-9] ^es operador de negación, es decir que no sean dígitos numéricos.
Por ejemplo, una expresión regular que detecta si un término empeiza con letra mayúscula y continua con minúsculas "[A-Z][a-z]*". O un número de 3 dígitos "[0-9]{3} " o de 3 o más [0-9]{3,}
Cualquier cadena no vacía que contenga a, x e y "[axy]+"
Si queremos detectar si una cadena a su inicio empieza con una subcadena utilizamos "^Su color" o al final de la cadena "trono$".
Ahora es el momento de ver a pleno la potencia de las ER, el siguiente programa Perl lee el archivo de texto "aba.txt" de una sola vez, reemplaza los caracteres de fin de línea por espacios, normaliza a minúsculas todas las letras, elimina aquellos caracteres que no estén en el rango de la a y la z, extrae las palabras y finalmente muestra su frecuencia. casi todo hecho con expresiones regulares y en poquísimas líneas.
open(IN,"aba.txt");
@tmp=
$texto =~ tr/A-Z/z-z/;
$texto =~ s/[^a-z]/ /g;
(@arreglo)=split(/ /,$texto);
foreach $ele (@arreglo) {$aso{$ele}=$aso{$ele}+1}
foreach $ele (keys %aso) { print $ele." = ".$aso{$ele}."\n" }
domingo, junio 17, 2007
Papers en línea del AIRWeb 2007
Ejemplo, un grupo de usuarios podría insertar el siguiente texto "nuevo imperio romano" en una importante porción de enlaces que conduzcan a la página principal de la Casa Blanca, con ello de forma artificial podría llegar a redirigir el tráfico de forma significativa, alejando a los usuarios de los sitios tradicionales que tienen que ver con tal contenido. Básicamente esto no se realiza por diversión, sino por dinero y tiene que ver con técnicas sucias que usan ciertos SEOs.
En este enlace se encuentra el listado de papers que se presentaron en el evento.
UBA Escuela de Ciencias Informáticas 2007
La Escuela de Ciencias Informáticas (Departamento de Computación - Facultad de Ciencias Exactas y Naturales - Universidad de Buenos Aires) se lleva a cabo durante los meses de julio o agosto desde el año 1987.
La ECI tiene como objetivo prioritario ofrecer a nuestros alumnos, a los alumnos de otras instituciones, a graduados y a profesionales del medio cursos de especialización y actualización intensivos de alto nivel sobre temas que habitualmente no se dan en las carreras de grado. Estos cursos son dictados en su mayoría por profesores de otras instituciones, extranjeras y nacionales, lo cual permite brindar a los participantes enfoques diferentes de los temas tratados y la oportunidad de establecer vínculos de cooperación académica, así como incentivar las actividades de investigación y desarrollo en el ámbito de las universidades.
Coincidiendo con un esfuerzo nacional para crear una capacidad científica y tecnológica propia en el área informática, se intenta promover la formación de una nueva generación de investigadores y profesionales. A las distintas ediciones de la ECI han concurrido entre 350 y 800 personas que tomaron 2 o 3 cursos cada una y entre ellas se cuentan numerosos estudiantes de universidades del interior del país.
La ECI ofrece cada año entre 6 y 10 cursos intensivos de 15 a 18 horas cada uno con evaluación final. Se otorga certificado de asistencia y/o aprobación. Se provee a los alumnos material bibliográfico relacionado con el tema de cada curso.Por otro lado también se realizan durante la ECI conferencias, tutoriales y seminarios de menor duración en forma paralela a lo anterior y sin evaluación. Algunos de estos están específicamente dirigidos a profesionales que trabajan en empresas.
Cursos de 15 horas
Turno Mañana (9 a 12 hs)
- M1.Modern Trends in the formal language theory
- (Curso en inglés) Alexander Meduna, Brno University of Technology, República Checa.
- T1.Software performance
- (Curso en inglés) Arzhan Kinzhalin, Intel, Argentina
- N1.Foundations of software specification and development: an abstract overview
- (Curso en inglés) Andrzej Tarlecki, Warsaw University and Institute of Computer Science and Polish Academy of Sciences, Polonia.
- N2.Fundamentos Matemáticos y algoritmos de las redes
- (Curso en castellano) Fabrizio Luccio, Universidad de Pisa, Italia.
- N3.Object-Oriented Programming and verification in Spec#
- (Curso en inglés) Mike Barnett and Shaz Qadeer, Microsoft Research.
Cursos de 30 horas
Turno Doble: Mañana y Tarde (9 a 12 y 14 a 17 hs)
- MT1.Estimación de movimiento en secuencias de imágenes
- (curso en castellano) Luis Alvarez León, Agustín Salgado de la Nuez, Universidad de Las Palmas de Gran Canaria, España. (Teoría y Práctica)
- MT2.Síntesis de sistemas digitales: VHDL, componentes virtuales, dispositivos programables
- (curso en castellano) Jean Pierre Deschamps, Universidad Rovira I Virgili, Tarragona, Gustavo Sutter Universidad Autónoma de Madrid, España. (Teoría y Práctica)
1st. Int. Workshop on Teaching and Learning of Information Retrieval
Les comento que en la página del evento están los papers a disposición de quien desee leerlos. Estuve revisando algunos y me interesó el debate propuesto por el trabajo de Stefano Mizzaro "¿Teaching of Web Information Retrieval: Web First or IR First?", del cual copio su resumen:
The first approach has the advantages of building on prerequisite knowledge, of presenting the historical development of the discipline, and probably appears more natural to most lecturers, who have followed the historical development of the field.
Conversely, the second approach has the advantage of concentrating on a more modern view of the field, and probably leads to a higher motivation in the students, since the more appealing Web issues are dealt with at course start.
I will discuss these issues, I will mention the approaches followed in the (rather few) Web IR books available, I will make some comparisons with the teaching of related disciplines, and I will also summarize my experience and some feedback from my students (I have been teaching a Web IR course for two Master's degrees in Computer Science and Information Technology at Udine University for the last two years; I had about twenty students each year; and I followed the first approach)."
Livio , el carpintero de Venecia
Livio aprendió su arte en ese cuna de la cultura llamada Venecia (de donde era mi abuelo, orgulloso yo, no mentiiiira) , a partir de las fotos de sus trabajos se ve que la talla es perfecta, doy fe de esto a partir de ver su Ferrari y su escarabajo de madera, su casa de libros, su copia de un armario, etc.
Su Ferrari F50, la cual tiene un motor que le permite navegar por los canales de Venecia a cinco nudos.
Vía Corcho, gracias
sábado, junio 16, 2007
Un 16 de junio de 1955
El saldo fue duro, difícil de tragar, pero aparentemente fácil de olvidar. Las fuentes no coinciden en los muertos y heridos, pero si se sabe que fueron 20 aviones que asesinaron alrededor de 300 personas e hirieron a más de 1000.
En lo personal pienso que este hecho olvidado "no fue el motivo ni la justificación" pero si la "raíz" de la desgraciada historia de violencia de todo tipo que vendría en las siguientes décadas. Por eso quiero evocar esta fecha para que en la memoria colectiva se fije un "nunca más a la violencia armada" el país no la necesita, puede crecer en el diálogo bajo el sustento de una "imperfecta democracia", pero es lo que hay y hasta el momento nada en la práctica la ha superado a escala.
Como recuerdo y ejercicio de "refresh" de memoria les dejo el documental de Pino Solanas que relata nuestro último acto de violencia nacional. La obra "Memorias del Saqueo" está publicada en Google Video y a vuestra disposición.
viernes, junio 15, 2007
Backup de tu blog
En la búsqueda de una herramienta de backup me topé con un programa para Windows/Linux que realiza la descarga completa de un sitio "HTTrack ". Me gustó su simpleza, eficiencia y los pocos bytes que ocupa este personal crawler.
Video "Código Linux"
jueves, junio 14, 2007
Universidad de Berkeley - Cursos en video
IDS 110 Introduction to Computers
InfoSys 141 Search Engines: Technology, Society and Business
CS 61B Data Structures
CS 162 Operating Systems and Systems Programming
Stat 2 Introduction to Statistics
CS 61A The Structure and Interpretation of Computer Programs
CS 61BL Data Structures and Programming Methodology
EE 225B Digital Image Processing
Art 23 Foundations of American Cyberculture
Interfase con la BD SCIMago
A la interfase de consulta puede accederse desde aquí.
Rankings de Universidades Iberoamericanas
- 1. Consejo Superior de Investigaciones Científicas (España) – 59,595
- 2. Universidade de São Paulo (Brasil) – 38,539
- 3. Universitat de Barcelona (España) – 25,503
- 4. Universidad Nacional Autónoma de México (Mexico) – 24,565
- 5. Universidad Complutense de Madrid (España) – 22,069
- 6. Universidad de Buenos Aires (Argentina) – 16,625
- 7. Universidade Estadual de Campinas (Brasil) – 15,173
- 8. Universidad Autònoma Barcelona (España) – 14,690
- 9. Universitat de Valencia (España) – 14,115
- 10. Universidade Federal do Rio de Janeiro (Brasil) – 13,471
- 11. Consejo de Investigaciones Científicas y Técnicas (España) – 13,364
- 12. Universidad Autónoma de Madrid (España) – 12,993
- 13. Universidad de Santiago de Compostela (España) – 11,082
- 14. Universidad de Chile (Chile) – 11,026
- 15. Universidad de Granada (España)– 10,323
Ranking Webometrics:
- 1.(81) Universidad Nacional Autonoma de Mexico (Mexico)
- 2.(97) Universidad de Sao Paulo (Brasil)
- 3.(162) Universidad Complutense de Madrid (España)
- 4.(190) Universidade Estadual de Campinas (Brasil)
- 5.(252) Universidad de Sevilla (España)
- 6.(257) Universitat de Barcelona (España)
- 7.(264) Universidad do Porto (Portugal)
- 8.(265) Universidad de Chile (Chile)
- 9.(266) Universitat de Valencia (España)
- 10.(267) Universitat Autonoma de Barcelona (España)
- 11.(280) Universidad Politecnica de Madrid (España)
- 12.(281) Universidade Ferderal de Santa Catarina Brasil (Brasil)
- 13.(295) Universidad de Granada (España)
- 14.(318) Universitat Politecnica de Catalunya (España)
- 15.(322) Universidad Politecnica de Valencia (España)
Ranking de Shangai Jiao Tong University:
- 1. (153-201) Univ Autónoma de Madrid (España)
- 2. (153-201) Univ Nacional Autonoma Mexico (Mexico)
- 3. (153-201) Univ Sao Paulo (Brasil)
- 4. (202-301) Univ Barcelona (España)
- 5. (202-301) Univ Buenos Aires (Argentina)
- 6. (302-403) Univ Chile (Chile)
- 7. (302-403) Univ Complutense - Madrid (España)
- 8. (302-403) Univ Estadual Campinas (Brasil)
- 9. (302-403) Univ Fed Rio de Janeiro (Brasil)
- 10. (302-403) Univ Valencia (España)
- 11. (404-502) Univ Autonoma Barcelona (España)
- 12. (404-502) Univ Estadual Paulista (Brasil)
- 13. (404-502) Univ Granada (España)
- 14. (404-502) Univ Lisbon (Portugal)
- 15. (404-502) Univ Santiago Compostela (España)
Software para administrar encuestas en línea
miércoles, junio 13, 2007
Noticia urgente
Paper recomendado sobre software libre
Paper recomendado: Comunidades Open Source. Métricas y evolución en los últimos 3 años. Felipe García, Universidad de Chile, Seminario de Software Libre. (2005)
Métricas para sitios web de bibliotecas
martes, junio 12, 2007
Soft de IA para clasificación y regresión de datos
Nuclass7 7.06a : Freeware for fast training, validation, and application of classification type networks including the multilayer perceptron (MLP), functional link network, piecewise linear network, and nearest neighbor classifier. The self organizing map (SOM) and K-Means clustering are also included. Fast pruning algorithms create a nested sequence of different size networks, to facilitate structural risk minimization. C source code for applying trained networks is provided, so users can use networks in their own applications. User-supplied txt-format training data files, containing rows of numbers, can be of any size. Example training data is also provided. Fast VB Graphics for network classification error and SOM cluster formation are included. Extensive help files are provided in the software. Nuclass7 is highly automated and requires very few parameter choices by the user. This version runs significantly faster. Advanced features include network sizing and feature selection. Training data can be compressed using the discrete Karhunen-Loeve' transform (KLT). This Basic version of Nuclass7 limits the MLP to 10 hidden units, the PLN to 10 clusters, and the NNC to 50 clusters. Upgradable to the commercial version, which lacks these limitations. The regression/approximation version of this software, called Numap7, is also available. Nuclass7 was developed by the Image Processing and Neural Networks Lab of Univ. of Texas at Arlington, and by Neural Decision Lab LLC.
Numap7: Freeware for fast training, validation, and application of regression/approximation networks including the multilayer perceptron (MLP), functional link network, and piecewise linear network. The self organizing map (SOM) and K-Means clustering are also included. Fast pruning algorithms create and validate a nested sequence of different size networks, to facilitate structural risk minimization. C source code for applying trained networks is provided, so users can use networks in their own applications. User-supplied txt-format training data files, containing rows of numbers, can be of any size. Example training data is also provided. Fast VB Graphics for network training error and cluster formation are included. Extensive help files are provided in the software. Numap7 is highly automated and requires very few parameter choices by the user. This version runs significantly faster. Advanced features include network sizing and feature selection. Training data can be compressed using the discrete Karhunen-Loeve' transform (KLT). This basic version of Numap7 limits the MLP to 10 hidden units and limits the PLN to 10 clusters. Upgradable to commercial versions which lack these limitations. The classification (decision making) version of this software, called Nuclass7, is also available. Numap7.0 was developed by the Image Processing and Neural Networks Lab of Univ. of Texas at Arlington, and by Neural Decision Lab LLC.
Beethoven a favor del arte libre
"Debería haber un gran almacén de arte en el mundo al que el artista pudiera llevar sus obras y desde el cual el mundo pudiera tomar lo que necesitara."
Vía Periodista Digital
La visibilidad de los sitios web
Una buena visibilidad para un sitio indica que: a) Es percibido como importante por los usuarios, b) En el caso de tener intención comercial le provee una ventaja frente a sus competidores y c) asegura un caudal importante de nuevos visitantes de forma sostenida.
Aguillo y otros en un trabajo de investigación titulado "Posicionamiento en el web del sector académico iberoamericano" presentan una metodología para medir la visibilidad de universidades. Utilizan el motor Google (versión internacional http://google.com) donde realizaron 20 búsquedas diferentes de términos semánticamente neutros, ejemplo de consulta "+site:ar +http". Donde el objetivo de cada búsqueda es recuperar las principales páginas de cada uno de los países iberoamericanos. Google recupera cerca de 1000 sitios web con mayor valor de PageRank. En resumen, la posición brindada por el motor de búsqueda Google es una medida de visibilidad de las páginas y la cual está basada en la estructura de los enlaces hipertextuales. Luego para cada página se anotó su posición relativa en la lista de resultados obtenidos. Puesto que las universidades pueden aparecer representadas por más de una página, se contabilizó por un lado el número de instituciones únicas, y por otro la frecuencia total de aparición en cada caso.
AGUILLO, Isidro F, GRANADINO, Begoña and LLAMAS, Germán. Posicionamiento en el web del sector académico iberoamericano. INCI, Dec. 2005, vol.30, no.12, p.735-738.
Informe UNESCO sobre fraudes en educación
El informe que se titula “Corrupt schools, corrupt universities: What can be done” trata las distintas maneras de fraude que afectan a millones de estudiantes. Según consta en su presentación:
"Los autores del informe sostienen que una mayor transparencia de los sistemas de reglamentación, un reforzamiento de las capacidades de gestión para mejorar la rendición de cuentas y una mejor apropiación del proceso de gestión pueden contribuir al desarrollo de sistemas educativos exentos de corrupción. Asimismo, formulan, entre otras más, las siguientes recomendaciones sobre la forma en que se puede tratar el problema de la corrupción:
Establecer normas y reglamentaciones claras, procedimientos transparentes y un marco de políticas explícito en los que se especifiquen las responsabilidades que incumben a cada una de las distintas partes interesadas en lo que respecta a la asignación, distribución y utilización de los recursos de la educación.
Mejorar las competencias en materia de gestión, rendición de cuentas, supervisión y auditoría del personal administrativo y otras partes interesadas en el sistema educativo, esto es, las asociaciones padres-docentes, los sindicatos profesionales y otras organizaciones pertinentes de la sociedad civil.
Facilitar al público en general el acceso a la información, a fin de posibilitar la participación, la apropiación y el control de la sociedad. Todas las personas más estrechamente vinculadas al lugar de prestación de servicios educativos –el centro docente correspondiente– deben estar suficientemente bien informadas no sólo para estar en condiciones de poder detectar cualquier fraude, sino también para reivindicar todo lo que tengan derecho a exigir."
Vía Diario El País
lunes, junio 11, 2007
VideoLectures
- Using Rank Propagation and Probabilistic Counting for Link-based Spam Detection, Carlos Castillo, Universita di Roma La Sapienza
- Applications of Query Mining, Ricardo Baeza-Yates, Yahoo Research
- Information Retrieval and Text Mining, Thomas Hofmann, Brown University
- "Tuning": Error Optimisation in Ad-Hoc Retrieval, Hugo Zaragoza, Yahoo! Research
- Learn to Weight Term in Information Retrieval Using Category Information, Rong Jin, Department of Computer Science and Engineering Michigan State University
- Dynamics of Networked Ontologies. Pascal Hitzler, Universität Karlsruhe
- A short Tutorial on Semantic Web, York Sure, University of Karlsruhe
- Learning from the Masters: Understanding Ontologies found on the Web, Bijan Parsia.
- From query based Information Retrieval to context driven Information Supply, Andrei Broder, Yahoo! Research
- Information Retrieval and Language Technology, Thorsten Joachims, Cornell University
- Extracting Instances of Relations From Web Documents Using Redundancy, Viktor de Boer, Universiteit van Amsterdam
- Data Mining and Knowledge Discovery, Nada Lavrac, Odsek za inteligentne sisteme - IJS
- Towards Trust for Semantic Web Annotations, Wolfgang Woerndl, Technische Universitat Munchen
- Making Semantic Web Real, Siegfried Handschuh , Digital Enterprise Research Institute (DERI)
- Interview with Tim Berners Lee
- Interview with Marko Grobelnik
- Interview with Christos Faloutsos
Sería interesante que el grupo de profesores e investigadores de habla hispana se sumen a este proyecto o armen el suyo, "compartir el conocimiento es de gente noble, negarlo es de quien no lo tiene y lo aparenta, o de mediocres".
El poder real de Google
Moraleja, todo pasa por Google.
Datos sueltos sobre buscadores
La relevancia promedio de los resultados está, efectivamente, alrededor del 50% Sin embargo, ¿cuál es la dispersión?
- 20% consultas de la muestra tiene una precisión media del 21%
- 23% consultas no obtienen ningún resultado relevante en la primera página
- Estimación: 15%-20% todas las consultas no obtienen resultados relevantes
- Casi la mitad de las consultass on relativas a famosos, ocio y sexo(es decir, “fáciles”de sastisfacer)
En consecuencia, casi la mitad de los usuarios quedan satisfechos con los resultados
Pero…Un porcentaje sustancial de consultas exige a los usuarios “bucear” más allá de la primera página de resultados
Los buscadores actuales son muy buenos…
- …localizando sitios web conocidos/”oficiales”
- …facilitando el acceso a servicios on-line(mapas, tiempo, e-mail, subastas, etc.)
- …resolviendo consultas simples (famosos, ocio y sexo)
En suma, Satisfaciendo a la mayor parte de la gente la mayor parte del tiempo
domingo, junio 10, 2007
Richard Stallman un filósofo contemporáneo
Duro, pero este tipo de noble provocación, por lo menos en mi, genera un debate interno.".. Que las empresas tengan especial influencia en la política significa que la democracia está enferma. El propósito de la democracia es asegurarse de que los ricos no tienen una influencia proporcional a su riqueza. Y si tienen más influencia que tu o que yo, eso significa que la democracia está fallando. Las leyes que obtienen de esta forma no tienen autoridad moral, sino la capacidad de hacer daño..."
La entrevista completa aquí.
Vía Neonation Blog
Métrica NGD (Distancia normalizada de Google)
El algoritmo de cálculo indica que si se desea medir el NGD de dos términos, ejemplo profesor y alumno, se deberá consultar a Google sobre la cantidad de documentos que contienen el primer término, el segundo y ambos. Luego, utilizando una fórmula se computa la distancia entre los términos a evaluar.
Donde f(x) es el número de páginas que contienen el término x, f(y) el número de páginas que contienen el término, f(x,y) número de páginas que contienen ambos términos y N una constante de normalización.
Veamos el siguiente ejemplo, el cual fué realizado con una script disponible en la web. Números cercanos a cero son indicadores de una menor distancia.
Term 1: +"profesor"
f(x) = 43900000
log f(x) = 7.64246452024212
Term 2: +"alumnos"
f(y) = 34600000
log f(y) = 7.53907609879278
Intersection: +"profesor" +"alumnos"
f(x,y) = 1400000
log f(x,y) = 6.14612803567824
M: 11828505634
log M: 10.072929881069
- NGD(profesor, alumno) = 0.590537818334437
Ahora probemos con dos términos donde debería haber una mayor distancia, profesor y mediocre
Term 1: +"profesor"
f(x) = 44000000
log f(x) = 7.64345267648619
Term 2: +"mediocre"
f(y) = 16800000
log f(y) = 7.22530928172586
Intersection: +"profesor" +"mediocre"
f(x,y) = 303000
log f(x,y) = 5.4814426285023
M: 11828505634
log M: 10.072929881069
- NGD(profesor,mediocre) = 0.759233884065374
Pd. al código fuente de la script Perl lo hallan aquí.
sábado, junio 09, 2007
Directorio de bibliografía sobre Wikipedia
Mitos urbanos digitales. Cocinando huevos con celulares
Bon Appetit!
viernes, junio 08, 2007
Curiosidad aritmética
- 100 = 123 + 45 – 67 + 8 – 9
- 100 = 123 – 45 – 67 + 89
- 100 = (1 + 2 – 3 – 4) * (5 – 6 – 7 – 8 –9)
Artículo. Búsquedas booleanas sobre texto completo usando MySQL y PHP
jueves, junio 07, 2007
Humor. Las 20 fases de un examen
1.- Llegada (normalmente demasiado pronto) al lugar del examen.
2.- Repaso compulsivo y totalmente infructuoso de los apuntes.
3.- Fase de cachondeo nervioso pre-examen.
4.- Entrada atemorizada al aula donde va a perpetrarse el examen.
5.- Reparto de los folios para el examen ("¡¿Cinco folios?!" dicen algunos).
6.- Reparto de las hojas de preguntas ("En algo tan pequeño no pueden caber muchas preguntas", dicen algunos infelices).
7.- Vuelta de la hoja y descubrimiento de que usan un tamaño de letra 5 o más pequeño.
8.- Carcajada histérica.
9.- Resoplidos varios y llevadas de manos a la cabeza automáticas.
10.- Descubrimiento de que con lo (poco) que se recuerda no se puede contestar ni a la mitad de las cuestiones.
11.- Intentos vanos de copia (con el subsiguiente descubrimiento de que el de al lado tiene menos idea que tú).
12.- Fase de derrumbamiento, desesperación, impotencia y espera (porque está feo entregar el examen tras sólo diez minutos).
13.- Entrega del examen y huida del lugar del crimen.
14.- Fase de cachondeo nervioso post-examen.
15.- Fase de exclamación de palabras soeces ("La he cagado", "me clavaron" y demás).
16.- Comparación de resultados (comprobando que no hay dos personas con las mismas respuestas, o mucho peor: todos coinciden menos tú).
17.- Fase de consulta compulsiva de los apuntes (cuyo único resultado es empeorar el estado de ánimo del consultante).
18.- Fase de declaración de principios: "Ya no voy más a... (Macroeconomia, Derecho, Álgebra...)"
19.- Fase de negación ("¿Examen? ¿Qué examen? Yo no he hecho ningún examen").
20.- Fase depresiva post-traumática y elaboración de planes para eliminarla: "Necesito irme de fiesta".
Vía Un hombre solo en la red