César A. Aguilar

miércoles, 18 de noviembre de 2009

Láminas para la clase: 18/11/2009

Saludos a todos:

Les mando las láminas de la clase de hoy. Junto con las lecturas que he colgado antes, creo que tendrán un buen panorama sobre cómo se ocupan modelos lógicos para hacer análisis semántico computacional.

Nos vemos en un rato.

Materiales de lectura sobre semántica computacional

Saludos a todos:

Como lo comentamos la clase pasada, hoy nos toca la última sesión del curso de PLN, por lo que a partir de hoy y hasta la primera semana de diciembre tenemos tiempo para dedicarlo a sus trabajos, ya sea en sesiones de asesoría, consultas, revisiones de sus avances, etc. Vale decir también que ha sido un placer trabajar con ustedes a lo largo de estas sesiones, y que espero les haya servido lo que revisamos juntos sobre tratamiendo automático de lenguas naturales.

Para terminar, hoy vamos a revisar algunas cuestiones relacionadas con el uso de modelos lógicos para hacer análisis semántico. Este camino ha sido muy seguido en PLN para desarrollar lo que hoy se conoce como semántica computacional, más que nada porque permite desarrollar modelos de inferencia útiles para analizar el significado de una estructura sintáctica. En este sentido, incluyo algunos textos que les pueden resultar interesantes:

1. El primero, como se pueden imaginar, es el capítulo que Jurafsky y Martin le dedican a la representación de significado desde un enfoque formal.

2. Gennaro Chierchia y Sally McConnell-Ginet escribieron en 1990 un libro titulado Meaning and Grammar: an Introduction to Semantics (MIT Press), el cual es un buen manual para abordar el análisis semántico formal de lenguas naturales. Aquí les presento el capítulo en donde explican el uso del llamado cálculo lambda para realizar tal análisis en frases y oraciones.

3. Un texto introductorio elaborado por Chris Manning sobre lo que es una semántica formal, en donde abordar varias cuestiones (uso de operadores lógicos, teorías de conjuntos, mapeo de funciones de dos dominios distintos...), entre ellas el uso de cálculo lambda.

4. Finalmente, esta clase de modelos formales son sumamente útiles para diseñar sistemas de cómputo capaces de identificar y extraer conceptos en textos, y con ello generar datos pertinentes que permitan construir ontologías. Al respecto, les paso un artículo elaborado por Philipp Cimiano y Uwe Reyle, en donde exponen de forma general una propuesta para desarrollar una ontología basada en el reconocimiento de relaciones semánticas en documentos.

Nos vemos en un rato. Suerte con todo.

jueves, 12 de noviembre de 2009

Algunos artículos extras sobre BCLs

Saludos a todos:

Como les había comentado, les mando algunos artículos para que tengan mayores datos sobre cómo operan algunas de las BCLs que vimos ayer, en concreto: WordNet, EuroWordNet y FrameNet.

1. Sobre WordNet, creo que la mejor opción es que visiten el sitio que la Universidad de Princeton le dedica. En específico, creo que les puede resulta interesante la liga dedicada a publicaciones: cuenta con un manual para manejar la versión 3, así como artículos relacionados con el diseño, desarrollo y uso de Wordnet para distintas tareas.

2. Sobre EuroWordNet, Piek Vossen publicó un artículo en el International Journal of Lexicography (2004), en donde expone brevemente qué es, la cantidad de datos que maneja, cómo fue construido, así como una evauación preliminar de su desempeño.

3. Finalmente, dos artículos sobre FrameNet, publicados en un número especial que le dedicó justo el International Journal of Lexicography (2003). El primero es la drescripción general de la base de datos que organiza las entradas verbales de FrameNet. El segundo es la exposición de un análisis hecho para describir el contenido léxico-semántico del verbo to attach. Creo que les puede dar una mejor idea sobre el uso de FrameNet.

Espero que las lecturas les sean útiles. Suerte con todo.

Sobre los criterios para el trabajo final

Saludos a todos:

Perdón por este desfase de horas. Les mando por correo electrónico un documento con los criterios a seguir para el trabajo final. Por alguna razón, tengo problemas para subir ese documento a este blog. A condición de preguntar cuándo se acaba, y cuál es la fecha máxima en la que pueden entregarlo, por lo menos tienen el resto de noviembre, más la primera semana de diciembre (antes del 11, que es cuando tienen que presentar sus avances en el doctorado) para irlo redactando. Vale decir que si tienen dudas, comentarios, sugerencias o requieren alguna asesoría de mi parte, en lo que pueda apoyarlos cuentan conmigo.

Junto con los criterios anexo dos artículos que, creo, les pueder servir como guía para estructurar su trabajo.

Un artículo fue elaborado por Marti Hearts, de la Universidad de Berkeley, y está orientado hacia la extracción de relaciones léxicas en textos. De una manera muy clara, breve y sencilla, Hearts presenta un experimento para detectar estas relaciones, poniendo énfasis en el método que siguió y los datos que obtuvo. Dada la sencillez de su explicación, este trabajo ha sido la base de otros que siguen esta misma línea de investigación.

El otro artículo fue redactado en colectivo en un centro de investigación de lingüística computacional de la Universidad de Barcelona (en concreto, Monserrat Civit, M. Antònia Martí y otros). La idea es proponer un marco de trabajo para la detección de predicados verbales en corpus textuales, usando varias técnicas de PLN (etiquetado, parsing, métodos estocásticos, etc.). Si su trabajo final no cuenta con datos obtenidos de corpus, creo que este trabajo les puede ser útil para darse una idea de cómo proponer algún análisis o método, considerando los modelos y técnicas de PLN que hemos visto.

Finalmente, quedamos que el próximo miércoles 18 de noviembre me entregan un índice, bosquejo o esqueleto de lo que van a hacer. El máximo es de dos cuartillas. No es necesario que influyan referencias bibliográficas, lo que me interesa es saber qué tienen en mente trabajar.

Seguimos en contacto. Mil gracias por su asistencia al curso.

Suerte con todo.

miércoles, 11 de noviembre de 2009

Materiales de lectura para la clase: 11/11/09

Saludos a todos:

Perdón por el retraso (lo cual se está convirtiendo en mal hábito): ya pueden bajar las láminas de la clase de hoy. Del mismo modo, les anexo unas lecturas que pueden revisar en casa posteriormente.

1. Los capítulos 18 y 19 del libro de Jurafsky y Martin dedicados a la semántica léxica (el primero) y semántica léxica computacional (el segundo).

2. El artículo pionero en donde James Pustejovksy desarrolló su modelo de lexicón generativo, publicado en Computational Linguistics. Este artículo se convirtió posteriormente en un libro, el cual fue editado por la MIT Press.

Sobre WordNet y FrameNet, en la semana anexo algunas lecturas al respecto.

Suerte con todo.

miércoles, 4 de noviembre de 2009

Láminas para la clase: 04/11/2009

Saludos a todos:

Aquí están las láminas para la sesión de hoy. Recuerden: la idea es que además de verlas en clase, también puedan consultarlas después.

Por otro lado, complementaria a las láminas, una lectura más del libro de Jurafsky y Martin, ahora dedicada a la cuestión del parsing probabilístico.

Creo que con eso de momento podemos abordar el tema. Y bueno, empezamos la cuenta regresiva en el curso: unas dos o tres clases más, y acabamos con este seminario.

Sugiero que pronto empecemos a platicar sobre cuál va a ser su trabajo para fin de semestre, Mientras tanto, suerte con todo, y nos vemos en unos minutos.

miércoles, 28 de octubre de 2009

Láminas para la clase: 28/10/2009

Saludos a todos:

Aquí están las láminas para nuestra clase de hoy: 20/10/2009.

Nos vemos en unos minutos. Suerte con todo.