SABIIA - Sistema Aberto e Integrado de Informação em Agricultura (Sabiia)

Provedor de dados

Infoteca-e (2)

Autor

	MOURA, M. F. (2)
	REZENDE, S. O. (2)
	SANTOS, F. F. dos (2)
	CONRADO, M. da S. (1)
	MARCACINI, R. M. (1)

Mais...

Palavra-chave

Tipo do documento

Folhetos (2)

Ano

2010 (2)

País

Brazil (2)

Idioma

Português (2)

Ordenar por:

Relevância

Autor

Título

Ano

Registros recuperados: 2

Primeira

...

Última

Metodologia para a comparação de diferentes métodos de descrição de agrupamentos hierárquicos de documentos independentes do algoritmo de agrupamento.

Infoteca-e

MOURA, M. F.; SANTOS, F. F. dos; MARCACINI, R. M.; REZENDE, S. O..

Para facilitar a compreensão de uma coleção de documentos, pode-se organizá-la em grupos hierárquicos e obter descritores para cada um dos grupos automaticamente. O problema que se apresenta é decidir entre métodos de agrupamentos e de descrição dos grupos, que sejam eficientes e apresentem bons resultados. Particularmente, este trabalho apresenta uma proposta para a comparação entre resultados obtidos a partir de métodos de seleção de descritores em agrupamentos hierárquicos de documentos, especificamente para métodos independentes do algoritmo de agrupamento utilizado. Para esses métodos, dado um agrupamento hierárquico, o objetivo é selecionar descritores (palavras ou sentenças) discriminativos dos grupos, preferencialmente sem repetição de descritores...

Tipo: Folhetos

Palavras-chave: Descritores de agrupamento; Agrupamento hierárquico; Mineração de texto; Modelos lineares generalizado; Análise de variância; Recuperação de informação; Generalized linear models; Mutual information mean; Multiple mean comparisons; Hierarchical document clusters descriptors.

Ano: 2010

URL: http://www.infoteca.cnptia.embrapa.br/infoteca/handle/doc/885560

Um modelo para a seleção de n-gramas significativos e não redundantes em tarefas de mineração de textos.

Infoteca-e

MOURA, M. F.; NOGUEIRA, B. M.; CONRADO, M. da S.; SANTOS, F. F. dos; REZENDE, S. O..

Uma proposta completa para resolver o problema de selecionar automaticamente atributos não redundantes do tipo n-gramas é apresentada neste trabalho. Geralmente, o uso de n-gramas é um requisito para melhorar a interpretação subjetiva dos resultados em tarefas de mineração de textos, nesses casos, eles são estatisticamente gerados e selecionados. Após a seleção, em geral, há a presença de redundâncias, por exemplo, o termo "informática agropecuária" e seus componentes "informática" e "agropecuária". Assim, propõe-se um modelo que envolve a remoção de stopwords estatisticamente identificadas, uma seleção estatística eficiente para os atributos do tipo n-grama e a remoção das redundâncias apresentadas após a seleção. Observa-se, pelos resultados...

Tipo: Folhetos

Palavras-chave: Recuperação da informação; Seleção de atributos; N-gramas; Atributos redundantes; Mineração de textos; Dados categorizados; N-grams; Categorical data; Redundant attribute; Text mining; Attribute selection; Information retrieval.

Ano: 2010

URL: http://www.infoteca.cnptia.embrapa.br/infoteca/handle/doc/885611

Registros recuperados: 2

Primeira

...

Última

Empresa Brasileira de Pesquisa Agropecuária - Embrapa Todos os direitos reservados, conforme Lei n° 9.610 Política de Privacidade Área restrita		Embrapa Parque Estação Biológica - PqEB s/n° Brasília, DF - Brasil - CEP 70770-901 Fone: (61) 3448-4433 - Fax: (61) 3448-4890 / 3448-4891 SAC: https://www.embrapa.br/fale-conosco