Portafolio NLP

En este portafolio presento los talleres realizados durante el curso de NLP (2020-2)

Contenidos

1. Leer archivos en diferentes formatos: en este taller aprendimos el código para leer archivos en diferentes formatos: html, .zip, word y pdf. Primer acercamiento a las técnicas de scrapping.

2. Preprocesamiento de textos: limpiar textos, poner minúsculas y adiós a las palabras vacías y signos de puntuación.

3. Iniaciación al feature engenieering: iniciación al feature engenineering, aprendimos a hacer representación vectorial de textos, generación de bolsa de palabras, herramientas que sirven para generar nuestros corpus.

4. ¿qué tan distantes son los textos?: TFIDF medición de las distancias y cercanías de los textos según medidas euclideas y distancia del coseno.

5. Modelos de predicción de palabras y contexto: embedding: En este taller hicimos una primera aproximación a nuestro proyecto, predicción de las palabras cercanas según su contexto de uso.

6. Clasificación_Kmeans: clasificación de textos a partir del algoritmo Kmeans ¿en dónde se clasifican los textos? prueba de train y test.

7. LDA: Modelado de textos: ¿cómo clasificar textos similares?: el LDA nos permite clasificar textos similares o que pertenecen a una “misma tradición discursiva”. Excelentes visualizaciones para acercarse a los textos.

8. Nube de palabras: código para generar nubes de palabras (realizamos todos los pasos de preprocesado).

9. Scrapping de twitter: análisis de datos desde redes sociales : lectura y generación de tuits desde API, recolección de datos, limpieza de datos para twitter, series de tiempo, mapa de calor.

10. Análisis de sentimientos : usamos las librerías VaderSentiments y análisis con flair