|
|
|
|
| |
|
| |
|
| |
|
|
MOURA, M. F.; NOGUEIRA, B. M.; CONRADO, M. da S.; SANTOS, F. F. dos; REZENDE, S. O.. |
Uma proposta completa para resolver o problema de selecionar automaticamente atributos não redundantes do tipo n-gramas é apresentada neste trabalho. Geralmente, o uso de n-gramas é um requisito para melhorar a interpretação subjetiva dos resultados em tarefas de mineração de textos, nesses casos, eles são estatisticamente gerados e selecionados. Após a seleção, em geral, há a presença de redundâncias, por exemplo, o termo "informática agropecuária" e seus componentes "informática" e "agropecuária". Assim, propõe-se um modelo que envolve a remoção de stopwords estatisticamente identificadas, uma seleção estatística eficiente para os atributos do tipo n-grama e a remoção das redundâncias apresentadas após a seleção. Observa-se, pelos resultados... |
Tipo: Folhetos |
Palavras-chave: Recuperação da informação; Seleção de atributos; N-gramas; Atributos redundantes; Mineração de textos; Dados categorizados; N-grams; Categorical data; Redundant attribute; Text mining; Attribute selection; Information retrieval. |
Ano: 2010 |
URL: http://www.infoteca.cnptia.embrapa.br/infoteca/handle/doc/885611 |
| |
|
|
MOURA, M. F.; EVANGELISTA, S. R. M.; MASSRUHÁ, S. M. F. S.; SANTOS, T. T.. |
Neste trabalho utilizou-se uma estratégia com base em mineração de textos para fornecer uma indicação dos atuais portfólios da Embrapa Informática Agropecuária. Para tanto, utilizaram-se, como dados, os projetos liderados por essa unidade nos últimos anos, de 2004 a 2010. A esses dados aplicou-se um processo de extração semiautomática do conhecimento, utilizando vocabulário controlado, filtragem estatística de atributos, agrupamento hierárquico de documentos, descrição única dos agrupamentos e várias interações usuários do processo. Os resultados obtidos foram satisfatórios, tendo passado apenas por validação subjetiva, mostrando que o processo pode ser aplicado a dados semelhantes. |
Tipo: Folhetos |
Palavras-chave: Mineração de textos; Portfólios; Aprendizado de máquina; Seleção de atributos; Agrupamento de documentos; Descrição de agrupamentos; Text mining; Cluster analysis. |
Ano: 2011 |
URL: http://www.infoteca.cnptia.embrapa.br/infoteca/handle/doc/920208 |
| |
|
| |
|
|
MORETTI, C. J. P.; PEIXOTO, B. M.; MOURA, M. F.. |
A ferramenta TaxTools foi desenvolvida pelo Laboratório de Inteligência Computacional (Labic) do Instituto de Ciência Matemática e de Computação (ICMC) da Universidade de São Paulo (USP), campus de São Carlos, SP, com o objetivo de auxiliar no processo de mineração de textos. Atualmente, ela tem sido mantida e evoluída pelo Laboratório de Inteligência Computacional (LabIC) da Embrapa Informática Agropecuária. Esse tutorial abrange apenas as opções disponíveis na TaxTools, que completam o processo de obtenção de uma taxonomia de tópicos (MOURA et al., 2008); como clusterização, cálculos de medidas intercluster e de joinability, métodos de podas, métodos de visualização de resultados e algumas opções auxiliares. |
Tipo: Folhetos |
Palavras-chave: Recuperação da informação; Mineração de textos; Agrupamento de documentos; Cortes de agrupamento; Visualização de agrupamentos; Descrição de agrupamentos; Clusterização; Cluster analysis; Information retrieval. |
Ano: 2010 |
URL: http://www.infoteca.cnptia.embrapa.br/infoteca/handle/doc/882099 |
| |
|
|
|