miércoles, 28 de octubre de 2009

Láminas para la clase: 28/10/2009

Saludos a todos:

Aquí están las láminas para nuestra clase de hoy: 20/10/2009.

Nos vemos en unos minutos. Suerte con todo.

domingo, 25 de octubre de 2009

Materiales de lectura para la clase: 28/10/09

Saludos a todos:

Como complemento al tema que vamos a ver en clase, anexo las siguientes lecturas, por si les interesa profundizar en la cuestión del parsing usando algún modelo de gramática formal. La idea entonces es la siguiente:

1. Para tener un panorama general sobre qué es parsing, así como el uso que esta tarea se hace de las gramáticas libres de contexto (Context-Free Grammars, CFGs), pueden ver el capítulo 13 del libro de Jurafsky y Martin.

2. Una gramática que trabaja en un nivel inmediato a las CFGs son las llamadas gramáticas de adición de árboles (o Tree Adjoining Grammars, TAGs), desarrolladas por Aravind K. Joshi (1929). Este modelo es útil para entender el concepto de gramática formal, además de que computacionalmente es sencillo de implementar. Si quieren profundizar en ellas, anexo un artículo extenso, el cual no es para que lo terminen ahora, pero creo que les puede servir como texto de consulta.

3. Hasta hoy día, las TAGs procesan todavía frases y oraciones de forma simple y plana. Empero, recientemente se ha tratado de añadirles rasgos léxicos y semánticos, Una vía para hacer esto ha sido considerar el uso de gramáticas basadas en rasgos (Feature-Based Grammars, FBGs). Esta clase de gramáticas proponen la selección de rasgos morfosintácticos, léxicos y semánticos relevantes para hacer parsing. Tales rasgos son codificadas en matrices que van asociadas a un ítem (p.e., una palabra o una frase). El texto que les presento es de John Blevins, en donde explica a detalle en qué consisten las FBGs.

4. Finalmente, una gramática que aprovecha al máximo esta inserción de matrices de rasgos para tratar de hacer un análisis léxico-sintáctico de una oración es la gramática léxico-funcional (Lexical-Functional Grammar, LFG), formulada por Joan Bresnan y Ronald Kaplan. El artículo que anexo lo escribió Mary Dalrymple, con miras a establecer una breve introducción a esta gramática.

Junto con estos textos, también pueden consultar las siguientes páginas WEB:

1. Un parser on-line desarrollado por
Aoife Cahill, de la Universidad de Stuttgart, el cual hace sus análisis basado en la gramática léxica funcional. Trabaja únicamente para el inglés. Si quieren jugar con él, pueden hacerlo a través de este sitio: http://lfg-demo.computing.dcu.ie/lfgparser.html

2. La misma Universidad de Stuttgart ha elaborado un corpus para el alemán, usando etiquetas morfosintácticas basadas en LFG. A este corpus se le conoce como el Tiger Corpus, el cual, aparte de brindar su sistema de etiquetas, también cuenta con una interfaz de consulta sintáctica. Pueden acceder al Tiger Corpus a través de esta liga: www.ims.uni-stuttgart.de/projekte/TIGER/TIGERCorpus/.

Creo que con esto tienen bastantes cosas para pensar un poco sobre la cuestión del parsing. Dentro de poco añado las láminas de la clase.

Suerte con todo.

miércoles, 21 de octubre de 2009

Láminas para la clase: 21/10/2009

Saludos a todos:

Ya pueden bajar las láminas para esta clase. Nos vemos en un rato.

Suerte con todo.

Materiales de lectura: clase para el 21/10/2009

Saludos a todos:

Les mando el siguiente material de consulta para la clase, el cual creo que les puede ser útil para abordar lo que iremos viendo sobre chunking y parsing.

1. Una lectura del manual de Jurafsky y Martin sobre cómo construir una gramática formal para el inglés, considerando precisamente cosas que ya discutimos en otras clases: gramáticas libres de contexto, expresiones regulares, corpus lingüísticos anotados, etc.

2. Una liga a un libro escritor por Sofía Galicia (Facultad de Ciencias de la UNAM) y Alexander Gelbukh (CIC-IPN), dedicado al estudio de la sintaxis del español desde un enfoque computacional. Una parte interesante de este libro es el recorrido histórico que hacen Galicia y Gelbukh sobre los dintintos modelos de gramáticas formales que se conocen y se usan en lingüística computacional, entre otras cosas que pueden revisar.

3. Un artículo elaborado por Aoife Cahill (
Universität Stuttgart), en donde da una descripción bastante puntual sobre la relación existente entre gramáticas formales, treebanks y métodos probabilísticos.

4. Finalmente, una aplicación real para detectar estructuras sintácticas (frases y oraciones) en un corpus etiquetado para el español: el proyecto Ancora, elaborado en colaboración por la Universidad de Barcelona, la Universidad Politécnica de Catalunya y la Universidad del País Vasco. Para mayores detalles, pueden acceder a tal proyecto dando un clic aquí.

En un momento más añado las láminas de la clase. Suerte con todo.

martes, 20 de octubre de 2009

Información complementaria: clase para el 21/10/09

Saludos a todos:

Por si no les ha llegado el mensaje que les mandé a su correo, les aviso: mañana la clase de PLN la tomaremos en el Salón de Usos Múltiples del Posgrado, de 2:00 p.m. a 6:00 p.m.

Nos vemos mañana entonces. Suerte con todo.

viernes, 16 de octubre de 2009

Propuesta de cambio de horario para nuestra próxima clase

Saludos a todos:

Publico esta entrada para hacerles la siguiente propuesta: Álvaro, Rafael y Alfredo (nuestros compañeros de la UABC) van a estar en Querétaro el martes 20 y el miércoles 21 de este mes, para realizar una serie de actividades en nuestro posgrado, incluida la asistencia a clase.

Dado que ellos hacen, literalmente, un largo viaje desde Baja California hasta acá, nos piden que la clase del miércoles 21 la iniciemos a las 2:00 p.m., con miras a terminar a las 6:00 p.m., y así ellos pueden salir disparados al DF para tomar su avión a las 10:00 p.m. Por experiencia, sé que estos viajes-relámpago son la locura completa, por lo que si ustedes están de acuerdo, creo que podemos acceder a su petición. Ergo, nos vemos este miércoles a las 2:00 p.m.

Nota importante: falta por definir el lugar, ya que bien puede ser el salón del Patio Barroco, o bien puede ser en algún salón de nuestro posgrado. Ya les avisaré antes de tener la clase. Estén entonces pendientes del blog y de sus correos para mayores detalles.

Este fin de semana subiré algunas lecturas para nuestro siguiente tema: chunking y parsing. Como siempre, podrán acceder a ellas desde este blog.

Buen fin de semana, y suerte con todo.

César



miércoles, 14 de octubre de 2009

Láminas para la clase: 14/10/2009

Hola a todos:

De entrada, una felicitación a todos aquellos que participaron en AMLA 2009; y a los que no fueron espero que hayan avanzado en sus trabajos y/o lecturas y/o tareas, etc. Anexo las láminas de esta clase.

Ligado a lo anterior, hoy vamos a ver una técnica para determinar de forma automática raíces (o mejor dicho, stems) dentro de un documento. El autor de esta técnica, Martin Porter, la codificó en un algortimo que popularmente se conoce como el algoritmo de Porter. Dentro de la comunidad de PLN, es muy usado en tareas morfológicas, así como en procesos de edición de corpus. Revísenlo, y luego me comentan qué les pareció esta técnica.

Nos vemos en un momento, entonces. Suerte con todo.