Identificação (título, autores, veículo e data de publicação)
Malstone: towards a benchmark for analytics on large data clouds
Bennett, C.; Grossman, R. L.; Locke, D.; Seidman, J. & Vejcik, S.
Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining, ACM, 2010, 145-152
Problema
Benchmarks projetados para medir o desempenho de aplicações de mineração de dados em ambientes de computação em nuvens, avaliar a escalabilidade de diferentes arquiteturas de banco de dados e volume de dados
Trabalhos relacionados
J. Gray. Sort benchmark home page. http://research.microsoft.com/barc/SortBenchmark/, 2008. – Apresenta o benchmark TeraSort, que utiliza 10 bilhões de registros de 100 bytes para as operações.
W. Sobel, S. Subramanyam, A. Sucharitakul, J. Nguyen, H. Wong, A. Klepchukov, S. Patil, A. Fox, and D. Patterson. Cloudstone: Multi-platform, multi-language benchmark and measurement tools for web 2.0. In Proceedings of Cloud Computing and its Applications 2008, 2008. – apresenta o benchmark CloudStone, que analisa aplicações da web 2.0
C.-T. Chu, S. K. Kim, Y.-A. Lin, Y. Yu, G. Bradski, A. Y. Ng, and K. Olukotun. Map-Reduce for machine learning on multicore. In NIPS, volume 19, 2007. – realize um estudo de mineração de dados com computação em nuvem e computação intensiva de dados
J. Dean and S. Ghemawat. MapReduce: Simplifed data processing on large clusters. Communications of the ACM, 51(1):107{113, 2008. – Apresenta um estudo sobre operações de MapReduce
N. Provos, D. McNamee, P. Mavrommatis, K. Wang, and N. Modadugu. The ghost in the browser: Analysis of web-based malware. In HotBot '07, 2007. – descreve um sistema que utiliza MapReduce para detecção de malwares
Solução proposta (metodologia e resultados)
O benchmark Malstone e o gerador de carga Malgen, que em conjunto calculam métricas e cargas sobre um ambiente
Malstone – computa a métrica SPM (proporção de marcações) como sendo a quantidade de entidades marcadas dividido pela quantidade de entidades.
Malgen – gerador de logs para todos os nós do cluster, utilizando leis de distribuição, em larga escala
Conclusão
Não há benchmarks para medir desempenho em CC que suporte mineração de dados em grandes conjuntos de dados, e existem poucos geradores de dados. Para isso foi construído o MalStone e o MalGen. Nos experimentos foi identificado que há muita diferença entre middlewares de CC projetados para suportar mineração de dados em grandes conjuntos de dados.
Pontos fortes
A utilização de um exemplo motivacional, disponíveis na internet e bom para quem for trabalhar com BD em CC
Pontos fracos
Figuras e tabelas desorganizadas. Há referências muito longe da figura ou tabela. Além disso poderiam ter um visual melhor. Modelo um pouco confuso de se entender
Trabalhos futuros
Não há.
Nenhum comentário:
Postar um comentário