César A. Aguilar: 2009

miércoles, 18 de noviembre de 2009

Láminas para la clase: 18/11/2009

Saludos a todos:

Les mando las láminas de la clase de hoy. Junto con las lecturas que he colgado antes, creo que tendrán un buen panorama sobre cómo se ocupan modelos lógicos para hacer análisis semántico computacional.

Nos vemos en un rato.

Materiales de lectura sobre semántica computacional

Saludos a todos:

Como lo comentamos la clase pasada, hoy nos toca la última sesión del curso de PLN, por lo que a partir de hoy y hasta la primera semana de diciembre tenemos tiempo para dedicarlo a sus trabajos, ya sea en sesiones de asesoría, consultas, revisiones de sus avances, etc. Vale decir también que ha sido un placer trabajar con ustedes a lo largo de estas sesiones, y que espero les haya servido lo que revisamos juntos sobre tratamiendo automático de lenguas naturales.

Para terminar, hoy vamos a revisar algunas cuestiones relacionadas con el uso de modelos lógicos para hacer análisis semántico. Este camino ha sido muy seguido en PLN para desarrollar lo que hoy se conoce como semántica computacional, más que nada porque permite desarrollar modelos de inferencia útiles para analizar el significado de una estructura sintáctica. En este sentido, incluyo algunos textos que les pueden resultar interesantes:

1. El primero, como se pueden imaginar, es el capítulo que Jurafsky y Martin le dedican a la representación de significado desde un enfoque formal.

2. Gennaro Chierchia y Sally McConnell-Ginet escribieron en 1990 un libro titulado Meaning and Grammar: an Introduction to Semantics (MIT Press), el cual es un buen manual para abordar el análisis semántico formal de lenguas naturales. Aquí les presento el capítulo en donde explican el uso del llamado cálculo lambda para realizar tal análisis en frases y oraciones.

3. Un texto introductorio elaborado por Chris Manning sobre lo que es una semántica formal, en donde abordar varias cuestiones (uso de operadores lógicos, teorías de conjuntos, mapeo de funciones de dos dominios distintos...), entre ellas el uso de cálculo lambda.

4. Finalmente, esta clase de modelos formales son sumamente útiles para diseñar sistemas de cómputo capaces de identificar y extraer conceptos en textos, y con ello generar datos pertinentes que permitan construir ontologías. Al respecto, les paso un artículo elaborado por Philipp Cimiano y Uwe Reyle, en donde exponen de forma general una propuesta para desarrollar una ontología basada en el reconocimiento de relaciones semánticas en documentos.

Nos vemos en un rato. Suerte con todo.

jueves, 12 de noviembre de 2009

Algunos artículos extras sobre BCLs

Saludos a todos:

Como les había comentado, les mando algunos artículos para que tengan mayores datos sobre cómo operan algunas de las BCLs que vimos ayer, en concreto: WordNet, EuroWordNet y FrameNet.

1. Sobre WordNet, creo que la mejor opción es que visiten el sitio que la Universidad de Princeton le dedica. En específico, creo que les puede resulta interesante la liga dedicada a publicaciones: cuenta con un manual para manejar la versión 3, así como artículos relacionados con el diseño, desarrollo y uso de Wordnet para distintas tareas.

2. Sobre EuroWordNet, Piek Vossen publicó un artículo en el International Journal of Lexicography (2004), en donde expone brevemente qué es, la cantidad de datos que maneja, cómo fue construido, así como una evauación preliminar de su desempeño.

3. Finalmente, dos artículos sobre FrameNet, publicados en un número especial que le dedicó justo el International Journal of Lexicography (2003). El primero es la drescripción general de la base de datos que organiza las entradas verbales de FrameNet. El segundo es la exposición de un análisis hecho para describir el contenido léxico-semántico del verbo to attach. Creo que les puede dar una mejor idea sobre el uso de FrameNet.

Espero que las lecturas les sean útiles. Suerte con todo.

Sobre los criterios para el trabajo final

Saludos a todos:

Perdón por este desfase de horas. Les mando por correo electrónico un documento con los criterios a seguir para el trabajo final. Por alguna razón, tengo problemas para subir ese documento a este blog. A condición de preguntar cuándo se acaba, y cuál es la fecha máxima en la que pueden entregarlo, por lo menos tienen el resto de noviembre, más la primera semana de diciembre (antes del 11, que es cuando tienen que presentar sus avances en el doctorado) para irlo redactando. Vale decir que si tienen dudas, comentarios, sugerencias o requieren alguna asesoría de mi parte, en lo que pueda apoyarlos cuentan conmigo.

Junto con los criterios anexo dos artículos que, creo, les pueder servir como guía para estructurar su trabajo.

Un artículo fue elaborado por Marti Hearts, de la Universidad de Berkeley, y está orientado hacia la extracción de relaciones léxicas en textos. De una manera muy clara, breve y sencilla, Hearts presenta un experimento para detectar estas relaciones, poniendo énfasis en el método que siguió y los datos que obtuvo. Dada la sencillez de su explicación, este trabajo ha sido la base de otros que siguen esta misma línea de investigación.

El otro artículo fue redactado en colectivo en un centro de investigación de lingüística computacional de la Universidad de Barcelona (en concreto, Monserrat Civit, M. Antònia Martí y otros). La idea es proponer un marco de trabajo para la detección de predicados verbales en corpus textuales, usando varias técnicas de PLN (etiquetado, parsing, métodos estocásticos, etc.). Si su trabajo final no cuenta con datos obtenidos de corpus, creo que este trabajo les puede ser útil para darse una idea de cómo proponer algún análisis o método, considerando los modelos y técnicas de PLN que hemos visto.

Finalmente, quedamos que el próximo miércoles 18 de noviembre me entregan un índice, bosquejo o esqueleto de lo que van a hacer. El máximo es de dos cuartillas. No es necesario que influyan referencias bibliográficas, lo que me interesa es saber qué tienen en mente trabajar.

Seguimos en contacto. Mil gracias por su asistencia al curso.

Suerte con todo.

miércoles, 11 de noviembre de 2009

Materiales de lectura para la clase: 11/11/09

Saludos a todos:

Perdón por el retraso (lo cual se está convirtiendo en mal hábito): ya pueden bajar las láminas de la clase de hoy. Del mismo modo, les anexo unas lecturas que pueden revisar en casa posteriormente.

1. Los capítulos 18 y 19 del libro de Jurafsky y Martin dedicados a la semántica léxica (el primero) y semántica léxica computacional (el segundo).

2. El artículo pionero en donde James Pustejovksy desarrolló su modelo de lexicón generativo, publicado en Computational Linguistics. Este artículo se convirtió posteriormente en un libro, el cual fue editado por la MIT Press.

Sobre WordNet y FrameNet, en la semana anexo algunas lecturas al respecto.

Suerte con todo.

miércoles, 4 de noviembre de 2009

Láminas para la clase: 04/11/2009

Saludos a todos:

Aquí están las láminas para la sesión de hoy. Recuerden: la idea es que además de verlas en clase, también puedan consultarlas después.

Por otro lado, complementaria a las láminas, una lectura más del libro de Jurafsky y Martin, ahora dedicada a la cuestión del parsing probabilístico.

Creo que con eso de momento podemos abordar el tema. Y bueno, empezamos la cuenta regresiva en el curso: unas dos o tres clases más, y acabamos con este seminario.

Sugiero que pronto empecemos a platicar sobre cuál va a ser su trabajo para fin de semestre, Mientras tanto, suerte con todo, y nos vemos en unos minutos.

miércoles, 28 de octubre de 2009

Láminas para la clase: 28/10/2009

Saludos a todos:

Aquí están las láminas para nuestra clase de hoy: 20/10/2009.

Nos vemos en unos minutos. Suerte con todo.

domingo, 25 de octubre de 2009

Materiales de lectura para la clase: 28/10/09

Saludos a todos:

Como complemento al tema que vamos a ver en clase, anexo las siguientes lecturas, por si les interesa profundizar en la cuestión del parsing usando algún modelo de gramática formal. La idea entonces es la siguiente:

1. Para tener un panorama general sobre qué es parsing, así como el uso que esta tarea se hace de las gramáticas libres de contexto (Context-Free Grammars, CFGs), pueden ver el capítulo 13 del libro de Jurafsky y Martin.

2. Una gramática que trabaja en un nivel inmediato a las CFGs son las llamadas gramáticas de adición de árboles (o Tree Adjoining Grammars, TAGs), desarrolladas por Aravind K. Joshi (1929). Este modelo es útil para entender el concepto de gramática formal, además de que computacionalmente es sencillo de implementar. Si quieren profundizar en ellas, anexo un artículo extenso, el cual no es para que lo terminen ahora, pero creo que les puede servir como texto de consulta.

3. Hasta hoy día, las TAGs procesan todavía frases y oraciones de forma simple y plana. Empero, recientemente se ha tratado de añadirles rasgos léxicos y semánticos, Una vía para hacer esto ha sido considerar el uso de gramáticas basadas en rasgos (Feature-Based Grammars, FBGs). Esta clase de gramáticas proponen la selección de rasgos morfosintácticos, léxicos y semánticos relevantes para hacer parsing. Tales rasgos son codificadas en matrices que van asociadas a un ítem (p.e., una palabra o una frase). El texto que les presento es de John Blevins, en donde explica a detalle en qué consisten las FBGs.

4. Finalmente, una gramática que aprovecha al máximo esta inserción de matrices de rasgos para tratar de hacer un análisis léxico-sintáctico de una oración es la gramática léxico-funcional (Lexical-Functional Grammar, LFG), formulada por Joan Bresnan y Ronald Kaplan. El artículo que anexo lo escribió Mary Dalrymple, con miras a establecer una breve introducción a esta gramática.

Junto con estos textos, también pueden consultar las siguientes páginas WEB:

1. Un parser on-line desarrollado por Aoife Cahill, de la Universidad de Stuttgart, el cual hace sus análisis basado en la gramática léxica funcional. Trabaja únicamente para el inglés. Si quieren jugar con él, pueden hacerlo a través de este sitio: http://lfg-demo.computing.dcu.ie/lfgparser.html

2. La misma Universidad de Stuttgart ha elaborado un corpus para el alemán, usando etiquetas morfosintácticas basadas en LFG. A este corpus se le conoce como el Tiger Corpus, el cual, aparte de brindar su sistema de etiquetas, también cuenta con una interfaz de consulta sintáctica. Pueden acceder al Tiger Corpus a través de esta liga: www.ims.uni-stuttgart.de/projekte/TIGER/TIGERCorpus/.

Creo que con esto tienen bastantes cosas para pensar un poco sobre la cuestión del parsing. Dentro de poco añado las láminas de la clase.

Suerte con todo.

miércoles, 21 de octubre de 2009

Láminas para la clase: 21/10/2009

Saludos a todos:

Ya pueden bajar las láminas para esta clase. Nos vemos en un rato.

Suerte con todo.

Materiales de lectura: clase para el 21/10/2009

Saludos a todos:

Les mando el siguiente material de consulta para la clase, el cual creo que les puede ser útil para abordar lo que iremos viendo sobre chunking y parsing.

1. Una lectura del manual de Jurafsky y Martin sobre cómo construir una gramática formal para el inglés, considerando precisamente cosas que ya discutimos en otras clases: gramáticas libres de contexto, expresiones regulares, corpus lingüísticos anotados, etc.

2. Una liga a un libro escritor por Sofía Galicia (Facultad de Ciencias de la UNAM) y Alexander Gelbukh (CIC-IPN), dedicado al estudio de la sintaxis del español desde un enfoque computacional. Una parte interesante de este libro es el recorrido histórico que hacen Galicia y Gelbukh sobre los dintintos modelos de gramáticas formales que se conocen y se usan en lingüística computacional, entre otras cosas que pueden revisar.

3. Un artículo elaborado por Aoife Cahill (Universität Stuttgart), en donde da una descripción bastante puntual sobre la relación existente entre gramáticas formales, treebanks y métodos probabilísticos.

4. Finalmente, una aplicación real para detectar estructuras sintácticas (frases y oraciones) en un corpus etiquetado para el español: el proyecto Ancora, elaborado en colaboración por la Universidad de Barcelona, la Universidad Politécnica de Catalunya y la Universidad del País Vasco. Para mayores detalles, pueden acceder a tal proyecto dando un clic aquí.

En un momento más añado las láminas de la clase. Suerte con todo.

martes, 20 de octubre de 2009

Información complementaria: clase para el 21/10/09

Saludos a todos:

Por si no les ha llegado el mensaje que les mandé a su correo, les aviso: mañana la clase de PLN la tomaremos en el Salón de Usos Múltiples del Posgrado, de 2:00 p.m. a 6:00 p.m.

Nos vemos mañana entonces. Suerte con todo.

viernes, 16 de octubre de 2009

Propuesta de cambio de horario para nuestra próxima clase

Saludos a todos:

Publico esta entrada para hacerles la siguiente propuesta: Álvaro, Rafael y Alfredo (nuestros compañeros de la UABC) van a estar en Querétaro el martes 20 y el miércoles 21 de este mes, para realizar una serie de actividades en nuestro posgrado, incluida la asistencia a clase.

Dado que ellos hacen, literalmente, un largo viaje desde Baja California hasta acá, nos piden que la clase del miércoles 21 la iniciemos a las 2:00 p.m., con miras a terminar a las 6:00 p.m., y así ellos pueden salir disparados al DF para tomar su avión a las 10:00 p.m. Por experiencia, sé que estos viajes-relámpago son la locura completa, por lo que si ustedes están de acuerdo, creo que podemos acceder a su petición. Ergo, nos vemos este miércoles a las 2:00 p.m.

Nota importante: falta por definir el lugar, ya que bien puede ser el salón del Patio Barroco, o bien puede ser en algún salón de nuestro posgrado. Ya les avisaré antes de tener la clase. Estén entonces pendientes del blog y de sus correos para mayores detalles.

Este fin de semana subiré algunas lecturas para nuestro siguiente tema: chunking y parsing. Como siempre, podrán acceder a ellas desde este blog.

Buen fin de semana, y suerte con todo.

César

miércoles, 14 de octubre de 2009

Láminas para la clase: 14/10/2009

Hola a todos:

De entrada, una felicitación a todos aquellos que participaron en AMLA 2009; y a los que no fueron espero que hayan avanzado en sus trabajos y/o lecturas y/o tareas, etc. Anexo las láminas de esta clase.

Ligado a lo anterior, hoy vamos a ver una técnica para determinar de forma automática raíces (o mejor dicho, stems) dentro de un documento. El autor de esta técnica, Martin Porter, la codificó en un algortimo que popularmente se conoce como el algoritmo de Porter. Dentro de la comunidad de PLN, es muy usado en tareas morfológicas, así como en procesos de edición de corpus. Revísenlo, y luego me comentan qué les pareció esta técnica.

Nos vemos en un momento, entonces. Suerte con todo.

miércoles, 30 de septiembre de 2009

Láminas para la clase: 30/09/2009

Saludos:

Perdón nuevamente por el retraso y los aceleres. Ya están disponibles las láminas para la clase de hoy.

Nos vemos en un rato. Suerte con todo.

domingo, 27 de septiembre de 2009

Algunos artículos sobre corpus lingüísticos

Saludos a todos:

Espero que hayan pasado un buen fin de semana. Dado el gran interés que mostraron desde la clase pasada por la elaboración y explotación de corpus lingüísticos, en esta clase que viene vamos a abordar dicho tema. Básicamente, atenderemos tres cuestiones:

1. Definir qué es un corpus lingüístico.

2. Revisar algunas tareas de procesamiento de corpus.

3. Hacer algunas consultas a corpus ya elaborados, considerando en algunos casos el uso de expresiones regulares.

Hay una enorme cantidad de corpus alrededor del mundo hechos para distintas lenguas, pensando igualmente en diferentes fines. De acuerdo con la literatura sobre corpus lingüísticos, el Brown Corpus, desarrollado en la Brown University, es el primer corpus anotado sintácticamente para el inglés. Si quieren mayores detalles, he aquí la liga para revisar el manual de dicho corpus.

Como saben, para el español existen igualmente varios corpus lingüísticos. El más famoso es el Corpus de Referencia del Español Actual (CREA), elaborado por la Real Academia de la Lengua Española. Otro menos famoso, pero no por ello menos interesante es el corpus del español elaborado por Mark Davies, un linguista computacional de la Universidad de Brigham Young.

Este corpus cuenta con alrededor de cien millones de palabras, lo que lo hace una fuente de datos bastante fiable para estudiar algún fenómeno del español. Además, otro atractivo es que permite hacer uso de algunas expresiones regulares, lo que permite que puedan hacer búsquedas de palabras, colocaciones, concordancias, etc., con un buen nivel de precisión.

Ahora, un corpus lingüístico no es únicamente una fuente de consulta accesible vía una interfaz. También puede ser visto como una base de datos útil para modelar y entrenar herramientas automáticas de análisis lingüístico. Bajo esta perspectiva, desde la década de los 90 la Universidad de Pensilvania ha venido desarrollando un proyecto de corpus lingüístico con anotación sintáctica conocido como PennTree Bank. En pocas palabras, si a ustedes les interesa crear un etiquetador de partes de la oración (esto es, un tagger), quizá les convenga contar con un corpus previamente etiquetado que los ayude a entrenar su etiquetador. Para concretar esta tarea de entrenamiento cuentan justo con el PennTree Bank.

Finalmente, aparte de las ligas que les mando, anexo 5 artículos que pueden resultarles interesantes.

1. El primero es una discusión que sostuvieron Stefan Th. Gries (University of California at Santa Barbara), y Frederick Newmeyer (University of Washington). Vale mucho la pena este artículo, pues Gries ofrece claras definiciones sobre lo que es un corpus lingüístico, para qué sirve, por qué son importantes, etc., a un lingüista formal como Newmeyer.

2. En un tono también introductorio, Joan Torruella y Joaquim Llisterri (Universidad Autónoma de Barcelona) elaboraron un artículo en donde primero definen qué es un corpus lingüístico, y después plantean una tipología posible de corpus, considerando su extensión, sus fines, el tipo de dato lingüístico que contienen, etc.

3. Una vez entendido qué es un corpus, una lectura complementaria es el Cap. 5 del libro de Jurafsky y Martin, que aborda lo que es una palabra, su segmentación y su anotación sintáctica conforme un análisis de corpus.

4. ¿Qué es la anotación sintáctica? Steven Bird (University of Melbourne) y Mark Liberman (University of Pennsylvania) explican esto es un artículo, además de proponer un sistema de etiquetas POST con carácter universal.

5. ¿Internet es un corpus? Esta idea la desarrollan Adam Kilgarriff (University of Sussex) y Gregory Grefenstette (Clairvoyance Corp.). Además de plantear esta posibilidad, ofrecen algunas pistas sobre cómo podría ser explotado. El artículo lo encuentran en esta liga.

Como podrán ver, el tema de los corpus lingüísticos es muy extenso, y fácil nos podemos llevar todo un curso nada más abordándolo. Lo que intentaremos la clase que viene es ver algunas cosas básicas, con miras a que lo apliquen en su trabajo final.

Un último detalle: una buena búsqueda en un corpus debiera considerar el uso de expresiones regulares, sobre todo para codificar patrones regulares de palabras, frases u oraciones. Aquí pueden ver una explicación sobre el uso de expresiones regulares en Python, un lenguaje de programación orientado a objetos. Si les interesa esto, existe un set de herramientas programadas para tratamiento de lenguas naturales en Python llamado NLTK, es decir, Natural Language Tool-Kit. Si gustan, échenle un ojo a la página de NLTK, la cual les puede resultar sumamente interesante.

Nos vemos entonces la siguiente clase. Suerte con todo.

miércoles, 23 de septiembre de 2009

Láminas para la clase: 23/09/2009

Saludos a todos:

Perdón por este "alto grado de entropia" con el material de esta clase. Les mando las láminas que estamos viendo ahora.

jueves, 3 de septiembre de 2009

Aclaración sumamente importante:

Saludos a todos:

Una disculpa de antemano por este error con las fechas: los días en los que NO VAMOS A TENER CLASE SON EL 9 Y EL 16 DE SEPTIEMBRE. Originalmente les había dicho que era el 16 y el 23. Un error de dedo y de cálculo de fechas (y si juntamos ambos errores, se da una pésima combinación).

Una vez aclarado esto, según lo platicamos en la clase, parece ser que el 16 es feriado..., si es así, por mi parte la única clase que perdemos es la del 9 de septiembre. Creo que la cosa va bien entonces.

Por otro lado, les recuerdo que tienen tarea: diseñar un autómata para frases nominales en español, inglés, alemán y catalán. Sobre si lo quieren hacer determinista o no-determinista, lo dejo a su criterio.

Si tienen dudas sobre qué es un autómata, aparte de la lectura de Jurasfky y Martin (Cap. 2), pueden ver la definición que da Wikipedia. Me gusta porque es clara, y los manda a otras ligas o posibles textos. Si les parece simplona la explicación, no hay problema: el mismo Daniel Jurafsky tiene una clase de su curso de NLP dedicada al tema: "Strings, Formal languages, and Automata". Cualquiera de las dos opciones es muy buena.

Ahora sí, me despido, y prometo que nos vemos nuevamente el miércoles 23 de septiembre. Cualquier duda, comentario o sugerencia, mándenme un correo: CAguilar@iingen.unam.mx. Por cierto, si quieren echarle un ojo, acabo de terminar una página WEB personal: http://cesaraguilar.weebly.com/. Cualquier opinión sobre ella se las agradeceré enormemente.

Suerte con todo, y seguimos en contacto.

César

miércoles, 2 de septiembre de 2009

Nueva clase: 02/09/2009

Saludos a todos:

Perdón por las carreras. Aquí están las láminas para esta clase, las cuales pueden ver con calma en casa. Al igual que las de la clase pasada, éstas las guardo en formato PDF. De igual manera, la lectura será el cap. 3 del libro de Jurafsky y Martin, el cual es material complementario. Podrán ver bien al revisar el material cuáles son las diferencias entre lo que explican Jurafsky y Martin de lo que hoy vamos a ver.

miércoles, 26 de agosto de 2009

Avisos e invitaciones

Un aviso muy importante:

Los días 16 y 23 de septiembre NO VAMOS A TENER CLASE, pues voy a estar en dos eventos: el primero es el congreso de la SEPLN de este año, y el segundo es un taller sobre extracción automática de definiciones. Les paso las ligas por si les interesa ver más al respecto.

Ahora, una invitación. La siguiente semana, del lunes 31 de agosto al martes 1 de septiembre, se va a llevar a cabo el 4º Coloquio de Lingüística Computacional de la Facultad de Filosofía y Letras de la UNAM. Todos los que quieran ir son bienvenidos, y creo que podrán encontrarse cosas interesantes. Así, les paso copia del cartel, junto con el programa del COLICO. Del mismo modo, en la página del Grupo de Ingeniería Lingüística de la UNAM pueden obtener información al respecto.

Nos vemos en un rato. Suerte con todo.

lunes, 24 de agosto de 2009

Láminas para la clase del próximo miércoles: 26/08/09

Saludos a todos.

Ya están disponibles las láminas de la clase para el miércoles 26 de agosto. Me vi obligado a convertirlas a formato PDF por algunos problemas que tuve para subirlas, pero creo que las pueden descargar sin problemas.

Como habíamos quedado la clase pasada, la secuencia será la siguiente: la primera hora la dedicamos a revisar rápidamente los 4 artículos de lectura, de modo que podamos sacar lo que consideremos más importante.

Después de esto, pasamos a ver las láminas con el contenido de esta clase.

Cualquier duda, comentario o sugerencia son bienvenidos. Suerte con todo.

jueves, 20 de agosto de 2009

Otra lectura más para la clase del 26/08/09

Anexo la siguiente lectura: es el capítulo 2 de libro del libro de Jurafsky y Martin, dedicado al tema de las expresiones regulares y teoría de autómatas. Con estas 4, tenemos suficiente para la clase del próximo miércoles.

miércoles, 19 de agosto de 2009

Segunda clase: 26/08/09

Para la siguiente clase, dedicada a lenguajes formales y expresiones regulares, les propongo las siguientes lecturas:

1. Chomsky, Noam (1953): "Systems of Syntactic Analysis", The Journal of Symbolic Logic, Vol. 18, No. 3: 242-256.

2. Chomsky, Noam (1956): "Three models for the description of language", I.R.E. Transactions on Information Theory, Vol. IT-2, No. 3: 113–124.

3. Mateescu, A. y Salomaa, A. "Introduction", en Rozenberg, G., y Salomaa, A. (eds.), Handbook of Formal Languages, Berlin, Springer.

lunes, 10 de agosto de 2009

Primera clase: 19 de agosto de 2009

Aquí pueden descargar las primeras láminas de la clase.

Respecto a los materiales que vamos a revisar, tenemos:

1. Un video en donde el Dr. Chandra platica con su computadora SAL 9000. Pueden acceder a él dando un click aquí.

2. Un video en el cual la Dra. Emily Bender, de la Universidad de Washington, da una breve explicación sobre lo que es PLN. Pueden dar un click aquí.

3. Lecturas. Les propongo las siguientes.

3.1. La introducción que hacen Daniel Jurafsky y James Martin a su libro sobre PLN.

3.2. El artículo famoso de Alan Turing, originalmente publicado en Mind (1950).

3.3. Un breve artículo de Stuart C. Shapiro sobre inteligencia artificial, publicado en el 2000, considerando dentro de ella al PLN.

3.4. Más o menos en el mismo tono que Shapiro, un artículo de Karen Spärk-Jones.

Cualquier duda o comentario, lo vemos en clase.

martes, 28 de julio de 2009

Curso de Procesamiento de Lenguaje Natural

En esta sección del blog pueden acceder a los materiales del curso de procesamiento de lenguaje natural (o PLN). Así, aquí pueden encontrar:

1. El programa del seminario.

2. El calendario de nuestras sesiones.

3. Las presentaciones (en formatos ppt y pdf) las iré actualizando y las verán como entradas de este blog.

4. Referencias a algunas páginas interesantes sobre PLN. Al igual que las clases, las iré actualizando conforme avancemos en la clase.

sábado, 25 de julio de 2009

Información académica

Curriculum Vitae

He aquí una versión actualizada de mi CV hasta este día, en español.