Café com Código #12: Parts of Speech, O que é isso ?

No Café com Código de hoje vamos de Parts of Speech,  o que é isso?

Salve Minerador,

No Café com Código #12 vai mais um dica para você aprender Data Science na pausa para o sagrado cafezinho.

Na rapidinha de hoje mostraremos uma técnica bem interessante para projetos envolvendo Mineração de textos.

Se quiser receber um conteúdo de Data Science toda semana no seu e-mail, se cadastre na lista VIP

Coloque o seu e-mail abaixo para receber gratuitamente as atualizações do blog!

Imagine um chatboot que precisa entender e interagir com um usuário através de texto

chatboot precisará saber quem é o sujeito da frase, (sujeito aqui pode ser interpretado como o “ser” que está interagindo com o robô), qual o verbo (o verbo poderia ser uma ação, por exemplo, imprimir fatura) para tomar uma ação

Tem ideia de como fazer isso ?

Hoje vamos ver um pouco de como fazer tagging de palavras, ou seja, como classificar uma palavra conforme sua função gramatical na frase.

A partir disso, podemos usar essa classificação para várias tarefas, uma delas poderia ser para treinar um chatboot, como no exemplo acima.

Existem diversas formas de fazer de trabalhar com essa técnica, com a NLTK podemos usar essa técnica, pois, no seu dicionário este contém centenas de palavras já classificadas

Vejamos:

O primeiro passo é usar a função word_tokenize() para separa as palavras da frase, Vou passar uma frase e obter uma lista de palavras:

Em seguida, use a função pos_tag() do nltk para fazer a classificação dessas:

cafecomcodigo_nltk02

O nltk nos retorna as tags que este usou para classificar as palavras. Cada tag possui um significado.

Para descobrir o significado das tags (siglas) use o método help do NLTK, esse mostra o significado e alguns exemplos, veja:

Veja que para frase acima, o nltk classificou a palavra “invoice” (fatura) como um substantivo(NN) e a palavra “print” como um verbo(VB), ou seja, a ação que quero que ele entenda.

Interessante hein?

Da pra usar no Português?

Dá sim, mas o dicionário é limitado veja:

Então, o que achou? alguma dúvida? Me fale aqui.

Esse foi mais um Café com Código, toda Quarta as 15h no seu e-mail 😉

Se você gostou dessa dica, confira o nosso artigo Mineração de Textos: 7 Técnicas e Aplicações para Você Extrair Valor dos Dados e Alavancar Suas Análises 🙂

Não esqueça de compartilhar com seus amigos esse artigo.

Se quiser receber um conteúdo de Data Science toda semana no seu e-mail, se cadastre na lista VIP  Parts of Speech Parts of Speech Parts of Speech

Coloque o seu e-mail abaixo para receber gratuitamente as atualizações do blog!

Forte Abraço!