Manual Do Aplicativo Iramuteq

Manual do Aplicativo Iramuteq
(versão 0.7 Alpha 2 e R Versão 3.2.3)
Anexo – Exemplo de uma aplicação
Maria Elisabeth Salviati
Planaltina, DF março de 2017
94
Introdução
Este exemplo tem por objetivo mostrar todos os procedimentos realizados, desde a
preparação do corpus até os resultados. Uma vez que o Iramuteq é um software que se aplica
ao estudo de diversas áreas, escolheu-se um corpus com assunto atual e de fácil compreensão
aos pesquisadores de diversas áreas: “Impeachment da Presidente da República Dilma
Rousseff”. Foram selecionados 15 artigos de jornal (O Globo, Correio Brasiliense e UOL) no
período de 11 de abril a 17 de maio de 2016.
Preparação do Corpus
Os artigos foram copiados eletronicamente da internet diretamente no Word e com esse
aplicativo eles foram formatados separadamente: um arquivo para cada artigo. A fonte e
tamanho foram padronizados, bem como a eliminação de negritos, itálicos e parágrafos.
Eliminaram-se, também, todos os sinais especiais não recomendados, tais como: hifens; aspas
simples e duplas.
As palavras originalmente com hifens tiverem os hifens substituídos por underscore. Palavras
compostas como Constituição Federal; Congresso Nacional; Advocacia Geral da União foram
unidas por underscore.
Colocaram-se linha estrela e temática em cada arquivo individual, conforme exemplo abaixo,
Figura 1:
**** *artigo_01 *jornal_globo *data_19/04/2016

_*senado
Figura 1 – Linha estrela e temática
As variáveis escolhidas foram:
- artigo: numeração crescente a partir de 01 para cada artigo.
- jornal: nome mnemônico e padronizado do jornal que publicou o artigo.
- data: data de publicação do artigo.
- temática: conforme o assunto predominante do artigo, classificaram-se nas seguintes

temáticas: senado; câmara; congresso_nacional; presidência_da_república, STF e trâmite.
---------------------(artigo 14)-------------------------------------------------------------------------------
----------------------------------------------------------------------------------------------------------------
Temer. No caso de Dilma_Rousseff, as sugestões para a composição do colegiado foram feitas
em menos de um dia.
**** *artigo_15 *jornal_correio_brasiliense *data_09/05/2016
_*câmara
Waldir_Maranhão anula tramitação do processo de impeachment de Dilma_Rousseff.
Waldir_Maranhão está no exercício do cargo desde sexta_feira após o STF afastar o
-----------------------------------------------------------------------------------------------------------------
Figura 2 – Junção de arquivos
95
Em seguida, juntaram-se todos os arquivos em um único arquivo, obedecendo-se a numeração
em ordem crescente dos artigos. Cada artigo iniciou em uma nova linha, conforme exemplo
abaixo, Figura 2.
Nota: Acrescentou-se, no início do arquivo, uma linha em branco, pois se notou que o
Iramuteq estava desprezando o primeiro artigo. O acréscimo dessa linha em branco resolveu o
problema.
O arquivo salvo no Word com a extensão docx foi, então, aberto no OpenOffice Writer e salvo
com a opção de “Salvar como” “Texto codificado (.txt)”, “Editar configurações do filtro” e
“Manter formato atual: Figuras 3, 4 e 5.
Figura 3 – Texto codificado
Figura 4 – Editar configurações do filtro
96
Figura 5 – Manter o formato atual
Em seguida, escolheu-se o formato Unicode (UTF-8) e LF (Line Feed), ou seja, alimentação de

linha, Figura 6.
Figura 6 – Formato UTF-8 e LF
O arquivo novo gerado com extensão txt foi aberto no Iramuteq e escolhidas as opções de
abertura conforme figura 7.
Figura 7 – Opções de abertura do corpus
97
Não foi reportado nenhum problema e o arquivo foi importado corretamente. Em seguida,
solicitou-se a execução da Análise Estatística (Análise de texto/Estatística).
O sistema selecionou as palavras ativas, suplementares e hápax (frequência 1) apresentou o

relatório da Figura 8.
Figura 8 – Análise estatística textual
É importante, nesse ponto, que o usuário verifique se o total de textos considerados é o

mesmo que o corpus preparado.
Em seguida, abriu-se a Lista de Palavras Ativas e verificou-se a lista criada. Nesse momento,
notaram-se problemas na contabilização das frequências devido à existência de muitos
sinônimos para um mesmo conceito. A Tabela 1 traz algumas das correções que foram
necessárias. O corpus foi todo corrigido e, então, carregado novamente no Iramuteq.
98
Palavra Substituição
Casa Senado ou Câmara conforme o caso.
Petista Presidente_da_República Dilma_Rousseff
Dilma Presidente_da_República Dilma_Rousseff
Dilma Rousseff Presidente_da_República Dilma_Rousseff
Presidente Dilma Presidente_da_República Dilma_Rousseff
Renan Calheiros presidente_do_Senado Renan_Calheiros
Renan presidente_do_Senado Renan_Calheiros
Presidente do Senado presidente_do_Senado Renan_Calheiros
Cunha presidente_da_Câmara Eduardo_Cunha
Eduardo Cunha presidente_da_Câmara Eduardo_Cunha
Presidente da Câmara presidente_da_Câmara Eduardo_Cunha
Levandowski presidente_do_STF Levandowski
Presidente do STF presidente_do_STF Levandowski
Presidente do Supremo presidente_do_STF Levandowski
comissão comissão_especial
comissão especial comissão_especial
Tabela 1 – Padronização de palavras no corpus
Para não ficarem duas bases no Iramuteq, excluiu-se primeiro a base de dados do Iramuteq,
Figura 9.
Selecionou-se do lado esquerdo o arquivo (da hierarquia maior) e solicitou-se “Deletar do

histórico”. Além disso, utilizando-se o Windows Explorer excluiu-se a pasta criada para os
resultados do corpus. Esse procedimento evita confusões por manter vários dados do mesmo
corpus ativos no Iramuteq.
Figura 9 – Deletar a base de dados do Iramuteq
99
A Figura 10 mostra a lista de formas ativas. Nela, verificou-se a necessidade de colocar os
Advérbios (palavras selecionadas na lista) como formas suplementares para não prejudicar a
análise das formas mais importantes encontradas.
Figura 10 – Lista de Palavras Ativas
As formas suplementares também são importantes e podem ser utilizadas em várias análises.
Proporcionam maior robustez à análise textual. Porém, ao analisar a lista criada, Figura 11,
notou-se a necessidade de eliminar alguns tipos gramaticais, considerados como
suplementares, por não acrescentarem nada ao texto e ao mesmo tempo prejudicarem a
visualização dos resultados. Eles estão selecionados nas listas da Figura 11.
Figura 11 – Lista de Palavras Suplementares
100
Foram, portanto, eliminados os seguintes tipos gramaticais, Figura 12:
- artigos indefinidos
- artigos definidos
- pronomes relativos
- pronomes pessoais
- pronomes possessivos
- números
- adjetivos numéricos
- preposições
Figura 12 – Tipos Gramaticais Eliminados
Resultados das Análises

Apresentam-se, a seguir, algumas análises realizadas sobre o corpus. O pesquisador deve
observar, no entanto, que nem todos grafos gerados são úteis para elucidar o conteúdo
textual, por isso, é importante analisa-lo e, então, decidir sobre sua utilidade ou não.
1) Análise de Especificidades e AFC
Foram utilizadas as seguintes configurações: formas ativas e suplementares; variável: jornal, lei
hipergeométrica. O grafo gerado foi reeditado, conforme configuração da Figura 13.
Figura 13 – Opções de configuração do grafo de AFC
101
As setas vermelhas mostram os parâmetros que foram modificados. O grafo resultante é
mostrado na Figura 14.
Figura 14 – Grafo AFC por jornal
Observe que o grafo de AFC representa o conteúdo de cada jornal: Correio Brasiliense em
vermelho; O Globo em verde e em azul o UOL (apenas um artigo). No centro aparece a palavra
Impeachment, tema principal do corpus.
No segundo grafo de Especificidades e AFC, Figura 15, solicitou-se a análise de cada artigo
Utilizou-se a mesma configuração anterior, mas alterando-se a variável para artigo.
Nessa figura, o centro indica o tema: impeachment, Dilma Rousseff, Presidente da República.
Ao redor estão os principais atores do processo: Eduardo Cunha; Renan Calheiros,

Levandowski e Temer vice-presidente, bem como as principais palavras-chaves do texto: crime
de responsabilidade, denúncia, decisão, congresso nacional, processo, comissão especial.
102
Figura 15 – Grafo AFC por artigo
2) Classificação: Método Reinert
As Figuras 16 e 17 mostram o Dendrograma em dois formatos diferentes e na Figura 18, a

seguir, a AFC.
Foram encontradas cinco classes de discurso, bastante equilibradas entre si. Porém apenas
duas classes formam a hierarquia superior. A Classe 5 em lilás e todas as outras quatro classes.
A classe 5 trata das ações do Senado Federal. A classe 4 trata do vice-presidente Michel Temer
e o pedido para seu impeachment. Em conjunto está a classe 3, as ações da Câmara com
Eduardo Cunha e Waldir Maranhão para o impeachment da Presidente Dilma Rousseff. As
classes 1 e 2 estão unidas hierarquicamente. A primeira trata do parecer favorável para a
instauração do processo de afastamento. A classe dois trata da sessão de votação realizada no
domingo 17/04/2016. Essas duas se juntam também as outras duas classes (4 e 3).
103
Figura 16 – Dendograma (formato 1)
A Figura 8 traz as mesmas informações em um formato diferente.
Figura 17 – Dendrograma (formato 2)
A Figura 18 mostra a Análise Fatorial por Correspondência pelas cinco classes do

Dendrograma. Notam-se as cores correspondentes a cada classe.
104
Figura 18 – AFC pelas cinco classes
3) Análise de Similitude
A Figura 19 mostra as configurações adotadas para o grafo de similitude: mostra a escolha das
palavras desejadas na janela do lado esquerdo; e, no lado direito, a configuração do grafo. O
resultado está apresentado na Figura 20.
105
Figura 19 – Configurações do Grafo de Similitude
Figura 20 – Grafo de Similitude
106
4) Nuvem de palavras
Para execução da Nuvem de palavras, utilizaram-se as configurações mostradas nas Figuras 21

e 22. As configurações alteradas, Figura 21, estão marcadas com a seta vermelha.
Figura 21 – Configuração da Nuvem de palavras
A Figura 22 mostra as palavras que foram selecionadas para compor a Nuvem.
Figura 22 – Escolha das Formas para Gerar a Nuvem
107
A Figura 23 traz a Nuvem de Palavras gerada.
Figura 23 – Nuvem de palavras
108

Manual Do Aplicativo Iramuteq

Enviado por

Direitos autorais:

Formatos disponíveis

Manual Do Aplicativo Iramuteq

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Manual Do Aplicativo Iramuteq

Enviado por

Direitos autorais:

Formatos disponíveis

Manual do Aplicativo Iramuteq

(versão 0.7 Alpha 2 e R Versão 3.2.3)

Anexo – Exemplo de uma aplicação

Maria Elisabeth Salviati

Planaltina, DF março de 2017

**** *artigo_01 *jornal_globo *data_19/04/2016

As variáveis escolhidas foram:

- artigo: numeração crescente a partir de 01 para cada artigo.

- jornal: nome mnemônico e padronizado do jornal que publicou o artigo.

- data: data de publicação do artigo.

- temática: conforme o assunto predominante do artigo, classificaram-se nas seguintes

Figura 3 – Texto codificado

Figura 4 – Editar configurações do filtro

Em seguida, escolheu-se o formato Unicode (UTF-8) e LF (Line Feed), ou seja, alimentação de

Figura 6 – Formato UTF-8 e LF

Figura 7 – Opções de abertura do corpus

O sistema selecionou as palavras ativas, suplementares e hápax (frequência 1) apresentou o

Figura 8 – Análise estatística textual

É importante, nesse ponto, que o usuário verifique se o total de textos considerados é o

Tabela 1 – Padronização de palavras no corpus

Selecionou-se do lado esquerdo o arquivo (da hierarquia maior) e solicitou-se “Deletar do

Figura 9 – Deletar a base de dados do Iramuteq

Figura 10 – Lista de Palavras Ativas

Figura 11 – Lista de Palavras Suplementares

Figura 12 – Tipos Gramaticais Eliminados

Resultados das Análises

1) Análise de Especificidades e AFC

Figura 13 – Opções de configuração do grafo de AFC

Figura 14 – Grafo AFC por jornal

Ao redor estão os principais atores do processo: Eduardo Cunha; Renan Calheiros,

2) Classificação: Método Reinert

As Figuras 16 e 17 mostram o Dendrograma em dois formatos diferentes e na Figura 18, a

A Figura 8 traz as mesmas informações em um formato diferente.

Figura 17 – Dendrograma (formato 2)

A Figura 18 mostra a Análise Fatorial por Correspondência pelas cinco classes do

Figura 20 – Grafo de Similitude

Para execução da Nuvem de palavras, utilizaram-se as configurações mostradas nas Figuras 21

Figura 21 – Configuração da Nuvem de palavras

A Figura 22 mostra as palavras que foram selecionadas para compor a Nuvem.

Figura 22 – Escolha das Formas para Gerar a Nuvem

Figura 23 – Nuvem de palavras

Você também pode gostar

**** artigo_01 jornal_globo *data_19/04/2016