Sabiia Seb
PortuguêsEspañolEnglish
Embrapa
        Busca avançada

Botão Atualizar


Botão Atualizar

Registro completo
Provedor de dados:  Infoteca-e
País:  Brazil
Título:  Metodologia para a comparação de diferentes métodos de descrição de agrupamentos hierárquicos de documentos independentes do algoritmo de agrupamento.
Autores:  MOURA, M. F.
SANTOS, F. F. dos
MARCACINI, R. M.
REZENDE, S. O.
Data:  2011-04-11
Ano:  2010
Palavras-chave:  Descritores de agrupamento
Agrupamento hierárquico
Mineração de texto
Modelos lineares generalizado
Análise de variância
Recuperação de informação
Hierarchical document clusters descriptors
Generalized linear models.
Mutual information mean.
Multiple mean comparisons
Resumo:  Para facilitar a compreensão de uma coleção de documentos, pode-se organizá-la em grupos hierárquicos e obter descritores para cada um dos grupos automaticamente. O problema que se apresenta é decidir entre métodos de agrupamentos e de descrição dos grupos, que sejam eficientes e apresentem bons resultados. Particularmente, este trabalho apresenta uma proposta para a comparação entre resultados obtidos a partir de métodos de seleção de descritores em agrupamentos hierárquicos de documentos, especificamente para métodos independentes do algoritmo de agrupamento utilizado. Para esses métodos, dado um agrupamento hierárquico, o objetivo é selecionar descritores (palavras ou sentenças) discriminativos dos grupos, preferencialmente sem repetição de descritores ao longo dos efetivamente representativo da coleção de textos agrupada. Dessa forma, torna-se imperativo encontrar uma medida que verifique a efetividade da discriminação para os descritores selecionados, bem como uma medida de qualidade destes. Nessa proposta, a discriminação é medida por meio da avaliação dos resultados de um processo de recuperação de informações, que utiliza os descritores para formar as expressões de busca. A qualidade é medida pela variabilidade do vocabulário obtido e sua representatividade em relação ao conjunto total de atributos utilizado para o agrupamento dos documentos. Essas medidas e processo de validação respeitam a hierarquia produzida pelo agrupamento, bem como padronizações e validações confiáveis do ponto de vista estatístico. Os experimentos e os resultados obtidos mostram que essa metodologia é capaz de avaliar seguramente a diferença de efetividade entre métodos de descrição de agrupamentos hierárquicos, tendo sido aplicada a dezesseis coleções de textos e quatro diferentes métodos de descrição.

bitstream/item/32407/1/BolPesq26.pdf
Tipo:  Boletim de Pesquisa e Desenvolvimento (INFOTECA-E)
Idioma:  Português
Identificador:  15660

http://www.infoteca.cnptia.embrapa.br/infoteca/handle/doc/885560
Editor:  Campinas: Embrapa Informática Agropecuária, 2010.
Relação:  Embrapa Informática Agropecuária - Boletim de Pesquisa e Desenvolvimento (INFOTECA-E)
(Embrapa Informática Agropecuária. Boletim de pesquisa e desenvolvimento, 26).
Formato:  37 p. il.
Fechar
 

Empresa Brasileira de Pesquisa Agropecuária - Embrapa
Todos os direitos reservados, conforme Lei n° 9.610
Política de Privacidade
Área restrita

Embrapa
Parque Estação Biológica - PqEB s/n°
Brasília, DF - Brasil - CEP 70770-901
Fone: (61) 3448-4433 - Fax: (61) 3448-4890 / 3448-4891 SAC: https://www.embrapa.br/fale-conosco

Valid HTML 4.01 Transitional