|
|
OLIVEIRA, S. R. de M.; YAMAGISHI, M. E. B.; BORRO, L. C.; FALCAO, P. R. K.; SANTOS, E. H. dos; VIEIRA, F. D.; MAZONI, I.; JARDINE, J. G.; NESHICH, G.. |
Os principais desafios relacionados ao problema de classificação de enzimas em banco de dados de estruturas de proteínas são: 1) o ruído presente nos dados; 2) o grande número de variáveis; 3) o número não-balanceado de membros por classe. Para abordar esses desafios, apresenta-se uma metodologia para seleção de parâmetros, que combina recursos de matemática (ex: Transformada Discreta do Cosseno) e da estatística (ex:.g., correlação de variáveis e amostragem com reposição). A metodologia foi validada considerando-se os três principais métodos de classificação da literatura, a saber; árvore de decisão, classificação Bayesiana e redes neurais. Os experimentos demonstram que essa metodologia é simples, eficiente e alcança resultados semelhantes àqueles... |
Tipo: Folhetos |
Palavras-chave: Bioinformática; Classificação de proteínas; Mineração de dados. |
Ano: 2006 |
URL: http://www.infoteca.cnptia.embrapa.br/infoteca/handle/doc/2836 |
| |