|
|
|
|
| |
|
| |
|
|
MOURA, M. F.; NOGUEIRA, B. M.; CONRADO, M. da S.; SANTOS, F. F. dos; REZENDE, S. O.. |
Uma proposta completa para resolver o problema de selecionar automaticamente atributos não redundantes do tipo n-gramas é apresentada neste trabalho. Geralmente, o uso de n-gramas é um requisito para melhorar a interpretação subjetiva dos resultados em tarefas de mineração de textos, nesses casos, eles são estatisticamente gerados e selecionados. Após a seleção, em geral, há a presença de redundâncias, por exemplo, o termo "informática agropecuária" e seus componentes "informática" e "agropecuária". Assim, propõe-se um modelo que envolve a remoção de stopwords estatisticamente identificadas, uma seleção estatística eficiente para os atributos do tipo n-grama e a remoção das redundâncias apresentadas após a seleção. Observa-se, pelos resultados... |
Tipo: Folhetos |
Palavras-chave: Recuperação da informação; Seleção de atributos; N-gramas; Atributos redundantes; Mineração de textos; Dados categorizados; N-grams; Categorical data; Redundant attribute; Text mining; Attribute selection; Information retrieval. |
Ano: 2010 |
URL: http://www.infoteca.cnptia.embrapa.br/infoteca/handle/doc/885611 |
| |
|
|
MOURA, M. F.; EVANGELISTA, S. R. M.; MASSRUHÁ, S. M. F. S.; SANTOS, T. T.. |
Neste trabalho utilizou-se uma estratégia com base em mineração de textos para fornecer uma indicação dos atuais portfólios da Embrapa Informática Agropecuária. Para tanto, utilizaram-se, como dados, os projetos liderados por essa unidade nos últimos anos, de 2004 a 2010. A esses dados aplicou-se um processo de extração semiautomática do conhecimento, utilizando vocabulário controlado, filtragem estatística de atributos, agrupamento hierárquico de documentos, descrição única dos agrupamentos e várias interações usuários do processo. Os resultados obtidos foram satisfatórios, tendo passado apenas por validação subjetiva, mostrando que o processo pode ser aplicado a dados semelhantes. |
Tipo: Folhetos |
Palavras-chave: Mineração de textos; Portfólios; Aprendizado de máquina; Seleção de atributos; Agrupamento de documentos; Descrição de agrupamentos; Text mining; Cluster analysis. |
Ano: 2011 |
URL: http://www.infoteca.cnptia.embrapa.br/infoteca/handle/doc/920208 |
| |
|
|
|