Um dos grandes mitos do big data é que se deve começar por projetos grandes. No entanto, começar grande em big data pode dar uma grande dor de cabeça, além de levar tempo demais para que os resultados apareçam.
Se para começar sua empresa precisa estabelecer um grande data warehouse, assegurar uma visão única do cliente e adquirir ferramentas e talentos para trabalhar com todo o volume de dados disponíveis, pode levar um bom tempo e dinheiro até que algum resultado dos seus esforços seja visível.
Uma maneira de abordar um problema de big data é dividindo-o em pequenos problemas de dados primeiro. Escolha uma questão simples e bem definida, explore-a e demonstre seu valor. Repita esses passos quantas vezes forem necessárias.
Amostras de dados
O início do projeto se dá com a escolha de uma amostra gerenciável de dados. Porém, há chances de que sua empresa não esteja bem equipada para fornecer boas amostras para análises estatísticas e data mining.
Os dados devem estar organizados pelo seu uso em operações diárias. Qualquer processo de amostragem acaba usando recursos e se não estiverem bem organizados, podem reduzir a velocidade de resposta de outras operações, interferindo nos negócios diários.
Seus dados precisam estar organizados tendo amostragem em mente, caso contrário, a empresa pode enfrentar desafios técnicos. Os dados desejados podem estar espalhados em uma série de diretórios. Eles também podem estar em uma única base de dados, mas exigirem técnicas complexas para obterem a amostra desejada. Os dados requeridos ainda podem estar em uma base de dados mal adaptada aos seus propósitos. Bases de dados orientadas a grafos, por exemplo, estão se tornando populares graças a sua estrutura flexível, capaz de oferecer tempos ultrarrápidos de resposta. No entanto, esse tipo de base de dados não usa índices adequados para servir de base para uma amostra aleatória.
Há ainda a possibilidade de os profissionais com acesso direto ao diretório de big data não terem noção de estatística. Escolher uma amostra de dados requer algumas análises específicas. É preciso pensar no seu objetivo – exatamente de quais dados você precisa e como devem estar organizados? É preciso identificar qualquer exigência especial (particularmente exigências legais) para lidar com dados, além de assegurar sua conformidade.
Exploração dos dados
Depois de finalmente obter a amostra, é hora de se dedicar à exploração e modelamento dos dados, usando os mesmos métodos usados para pequenos problemas.
É importante manter seus modelos simples. Alguns podem ser tão complexos que sua implementação é extremamente difícil, especialmente em sistemas operacionais com dados distribuídos. A única justificativa para modelos complexos é adaptação e isso não pode atrapalhar sua implantação.
Trabalhar próximo do time de TI e outros departamentos da empresa também é importante para integrar qualquer modelo às operações do negócio.
O Data Center Architecture Assessment Service da Broadtec ajuda sua empresa a entender o atual estado de sua arquitetura e determinar quais alterações podem ajuda-lo a atingir seus objetivos de negócio e de TI. A Broadtec faz um mapeamento da infraestrutura de rede do datacenter com base nos objetivos de maturidade dos serviços de TI.
Com Forbes