# Importamos la libreria nltk (muy importante para el NLP) 
import nltk
# Importamos la funcion word_tokenize() para tokenizar
from nltk import word_tokenize
# Descargamos el componente necesario
nltk.download('punkt')

# Cadena
msj = "El día está nublado, tal vez llueva"

# Realizamos la tokenizacion
word_tokenize(msj)

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\usuario\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.

['El', 'día', 'está', 'nublado', ',', 'tal', 'vez', 'llueva']


frase = "El día está nublado, tal vez llueva"
tokens = word_tokenize(msj)
print(f'Frase: {frase}\nTokens: {tokens}')

Frase: El día está nublado, tal vez llueva
Tokens: ['El', 'día', 'está', 'nublado', ',', 'tal', 'vez', 'llueva']


frase = """Y es en este día que nos encontramos, tal como lo habíamos prometido.
El día no puede estar más reluciente, tal vez llueva al rato, tal vez no. 
El hecho es que estamos aquí."""

# Importamos la libreria para trabajar con expresiones regulares
import re

# Primero quitamos todos los caracteres que no son alfanumericos
# y los sustituimos por espacios en blanco
frase = re.sub(r'[\W]+', ' ', frase)
frase

'Y es en este día que nos encontramos tal como lo habíamos prometido El día no puede estar más reluciente tal vez llueva al rato tal vez no El hecho es que estamos aquí '


# Creamos un patron para hallar todas las letras de la frase
# que tienen acentos
pattern = re.compile(r'[áéíóú]')
# Buscamos todas las coincidencias
pattern.findall(frase)

['í', 'í', 'í', 'á', 'í']


# Creamos un diccionario con las vocales acentuadas y no acentuadas
dict_acent = {'á': 'a',
              'í': 'i'}


frase = pattern.sub(lambda match: dict_acent[match[0]], frase)
frase

'Y es en este dia que nos encontramos tal como lo habiamos prometido El dia no puede estar mas reluciente tal vez llueva al rato tal vez no El hecho es que estamos aqui '


frase = frase.lower()
frase

'y es en este dia que nos encontramos tal como lo habiamos prometido el dia no puede estar mas reluciente tal vez llueva al rato tal vez no el hecho es que estamos aqui '


tokens = word_tokenize(frase)
tokens

['y',
 'es',
 'en',
 'este',
 'dia',
 'que',
 'nos',
 'encontramos',
 'tal',
 'como',
 'lo',
 'habiamos',
 'prometido',
 'el',
 'dia',
 'no',
 'puede',
 'estar',
 'mas',
 'reluciente',
 'tal',
 'vez',
 'llueva',
 'al',
 'rato',
 'tal',
 'vez',
 'no',
 'el',
 'hecho',
 'es',
 'que',
 'estamos',
 'aqui']


# Importacion necesaria
from collections import Counter

# Utilizamos la funcion Counter() sobre nuestra frase tokenizada
Counter(tokens)

Counter({'y': 1,
         'es': 2,
         'en': 1,
         'este': 1,
         'dia': 2,
         'que': 2,
         'nos': 1,
         'encontramos': 1,
         'tal': 3,
         'como': 1,
         'lo': 1,
         'habiamos': 1,
         'prometido': 1,
         'el': 2,
         'no': 2,
         'puede': 1,
         'estar': 1,
         'mas': 1,
         'reluciente': 1,
         'vez': 2,
         'llueva': 1,
         'al': 1,
         'rato': 1,
         'hecho': 1,
         'estamos': 1,
         'aqui': 1})


dict_counter = dict(Counter(tokens))
dict_counter

{'y': 1,
 'es': 2,
 'en': 1,
 'este': 1,
 'dia': 2,
 'que': 2,
 'nos': 1,
 'encontramos': 1,
 'tal': 3,
 'como': 1,
 'lo': 1,
 'habiamos': 1,
 'prometido': 1,
 'el': 2,
 'no': 2,
 'puede': 1,
 'estar': 1,
 'mas': 1,
 'reluciente': 1,
 'vez': 2,
 'llueva': 1,
 'al': 1,
 'rato': 1,
 'hecho': 1,
 'estamos': 1,
 'aqui': 1}


# Podemos visualizar mejor convirtiendo lo anterior a una dataframe
import pandas as pd
df_freq = pd.DataFrame([dict_counter]).transpose().reset_index()
df_freq.rename(columns={'index': 'Tokens', 0: 'Frecuencia'})


# Importaciones necesarias
from nltk.stem import WordNetLemmatizer

# Componentes necesarios
nltk.download('wordnet')
nltk.download('omw-1.4')

# Instanciamos
lemattizer = WordNetLemmatizer()

# Frase
frase = "The museum was taken care of by the police"

# Tokenizamos
tokens = word_tokenize(frase)

# Lematizamos cada palabra
for token in tokens:
    print(lemattizer.lemmatize(token))

The
museum
wa
taken
care
of
by
the
police

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\usuario\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\usuario\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


# Algoritmo de Porter
PSt = nltk.stem.PorterStemmer()
# Algoritmo de Lancaster
LSt = nltk.stem.LancasterStemmer()


# Frase
frase = "The museum was taken care of by the police"

# Tokenizamos
tokens = word_tokenize(frase)

# Truncamiento cada palabra
for token in tokens:
    #     Porter                  Lancaster
    print(PSt.stem(token), "-->", LSt.stem(token))

the --> the
museum --> muse
wa --> was
taken --> tak
care --> car
of --> of
by --> by
the --> the
polic --> pol


# Importacion necesaria
from nltk.corpus import stopwords

# Componente necesario
nltk.download('stopwords')

# Stopwords del idioma ingles
stopwords_list = list(stopwords.words('english'))
for st in stopwords_list:
    print(st, end=", ")

i, me, my, myself, we, our, ours, ourselves, you, you're, you've, you'll, you'd, your, yours, yourself, yourselves, he, him, his, himself, she, she's, her, hers, herself, it, it's, its, itself, they, them, their, theirs, themselves, what, which, who, whom, this, that, that'll, these, those, am, is, are, was, were, be, been, being, have, has, had, having, do, does, did, doing, a, an, the, and, but, if, or, because, as, until, while, of, at, by, for, with, about, against, between, into, through, during, before, after, above, below, to, from, up, down, in, out, on, off, over, under, again, further, then, once, here, there, when, where, why, how, all, any, both, each, few, more, most, other, some, such, no, nor, not, only, own, same, so, than, too, very, s, t, can, will, just, don, don't, should, should've, now, d, ll, m, o, re, ve, y, ain, aren, aren't, couldn, couldn't, didn, didn't, doesn, doesn't, hadn, hadn't, hasn, hasn't, haven, haven't, isn, isn't, ma, mightn, mightn't, mustn, mustn't, needn, needn't, shan, shan't, shouldn, shouldn't, wasn, wasn't, weren, weren't, won, won't, wouldn, wouldn't,

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\usuario\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


# Frase
frase = "The museum was taken care of by the police"

# Tokenizamos
tokens = word_tokenize(frase)


# Lista auxiliar para almacenar todos los tokens que
# no son stopswords
tokens_no_stopwords = []
# Recorremos cada token
for token in tokens:
    # Seleccionamos solo los tokens que no son stopwords
    if token not in stopwords_list:
        tokens_no_stopwords.append(token)
tokens_no_stopwords

['The', 'museum', 'taken', 'care', 'police']


print(f'Frase original: {frase}')
print(f'Frase sin las stopwords: {" ".join(tokens_no_stopwords)}')

Frase original: The museum was taken care of by the police
Frase sin las stopwords: The museum taken care police

Procesamiento de lenguaje natural¶

Conceptos teóricos ¶

Modelos¶

Componentes¶

Aplicaciones¶

Corpus ¶

Tokenizadores ¶

Lematizadores ¶

Stemmers ¶

Stopswords ¶

	Tokens	Frecuencia
0	y	1
1	es	2
2	en	1
3	este	1
4	dia	2
5	que	2
6	nos	1
7	encontramos	1
8	tal	3
9	como	1
10	lo	1
11	habiamos	1
12	prometido	1
13	el	2
14	no	2
15	puede	1
16	estar	1
17	mas	1
18	reluciente	1
19	vez	2
20	llueva	1
21	al	1
22	rato	1
23	hecho	1
24	estamos	1
25	aqui	1