Como acelerar projetos de Inteligência de Dados

Migrar da arquitetura fragmentada de dados departamentais para o modelo de repositório unificado é uma condição primária para que as empresas possam efetivamente implementar a inteligência de negócios. Esta migração, por sua vez, soluciona velhos gargalos do ambiente de dados, como a excessiva dependência de pessoas ou de processos artesanais, bem como a falta de governança e a baixa produtividade na geração de insights competitivos.

Entretanto, este passo fundamental em direção à centralização dos dados - cujo paradigma mais maduro do mercado é, sem dúvida, o modelo de Data Warehouse (DW) - enfrenta grandes desafios. Entre eles, os custos pesados de projeto, a exigência de alta massa crítica na fase de preparação e a grande dificuldade de definição prévia de um ROI, uma vez que o valor da informação a ser usada no DW só irá ser realmente conhecido após a prévia padronização e harmonização dos dados. E isto, por si só, já apresenta um custo considerável e muito difícil de mensurar no médio prazo.

À parte isto, um típico projeto de DW tem por objetivo a consolidação de massas de dados alimentadas via silos departamentais e previamente organizadas a partir de parâmetros relativamente estáveis.

Uma característica que se transforma em complicador, quando levamos em conta o atual cenário de dados massivos e velozes. Dados difíceis de domar, provenientes de múltiplos canais, e nos quais, presumivelmente, há enormes potenciais de informação para uso na inteligência de negócios em sua função primordial de maximizar as receitas e amplificar a produtividade.

É nesse novo contexto que desponta como solução o emprego de um modelo de estruturação de dados voltado para a rápida consolidação de um repositório central, mas sem os altos custos e prazos exigidos pela intensa preparação e minuciosa seleção dos dados heterogêneos que normalmente precedem a implantação do DW.

Em sintonia com a cultura de desenvolvimento ágil e com as novas exigências de time to market impostas pelo alto dinamismo dos negócios (agora cada vez mais atrelados ao fluxo vivo de dados), esse modelo tem sido designado genericamente no mercado como "plataforma modular de aceleração de projetos de estruturação das informações de negócio".

Tal plataforma se consolida sobre uma série de pilares que cobrem todas as fases de um projeto consistente de integração de dados. Quais sejam: a de fase de ideação, o planejamento, o desenvolvimento & homologação, a operação propriamente dita e a análise de resultados por parte dos cientistas da informação em conjunto com as áreas de negócios.

Entre os pilares do modelo destaca-se a adoção do paradigma de Data Lakes (DL) como a nova alternativa de repositório, esta sim, em consonância perfeita com a chamada cultura "agile", uma vez que permite a agregação imediata de dados brutos (não estruturados) para a sua exploração de forma muito mais rápida, em comparação com a criação de um DW tradicional.

É claro que, em algum ponto, a implantação do DW, até mais que uma exigência, passará a ser consequência do nível de maturidade de dados alcançada ao longo do próprio processo de exploração dos dados baseada no uso dos Data Lakes.

Os Data Lakes, cabe lembrar, se diferenciam do DW por não exigirem a limpeza e seleção minuciosa dos dados na fase de alimentação do repositório central, o que faz com que sejam perfeitos para colher dados, não só departamentais, mas também nas correntes de streaming de informação pulsantes que compõem o ambiente Big Data.

Com vistas à constituição de Data Lakes efetivamente produtivos, a estratégia aqui defendida deve oferecer as condições para a instauração e operação de um modelo de desenvolvimento baseado na atuação de células "Sprint". Estas células são, em resumo, pequenos comitês estratégicos que irão definir o ciclo de integração e exploração dos dados com vistas aos objetivos de negócios.

Em conjunção com essas duas premissas, começa a ser empregado pelas empresas mais "ágeis" o conceito de "aceleração de projetos", a que me referi ainda há pouco, e cujo caso de aplicação mais conhecido no Brasil foi apresentado pela Webmotors (que usou a plataforma 4Insights) no último congresso Gartner Summit Data & Analytics 2017, que ocorreu em junho último.

O modelo empregado na Webmotors dispõe das condições ideais para a atuação das células Sprint e aplica uma interface gráfica intuitiva, na qual é possível desenhar o modelo de dados analíticos e contemplar estes dados no aspecto multidimensional, de forma automática, gerando códigos e interagindo em todas as fases na construção e evolução de um DW/Data Lake.

Em outras palavras, o que temos aí é a capacidade prática de se conectar as funcionalidades analíticas diretamente na camada de dados. Ou seja, redundando na eliminação de grandes e difíceis gargalos que, normalmente, são encontrados no processo de ingestão de dados.

Um salto seguro e controlado que realiza, sem intervalos estanques, todas as tarefas de integração antes seccionadas em etapas, tais como aquisição, transferência e carga para a produção de DW/Data Lake.

Esta estrutura possui também um painel e repositório de data quality, através do qual os dados são dinamicamente validados, com base em regras e modelos construídos ao longo do processo de produção. E sendo que dados rejeitados são direcionados naturalmente para uma área de correção, de modo a acelerar o processo de qualidade e homologação, bem como para tornar a ingestão de dados tão veloz quanto o próprio fluxo atual de dados de negócios.

Empresas de vários nichos de negócios vêm adotando o modelo de plataforma de aceleração, da qual apenas alguns aspectos foram aqui apresentados. Em média, estas empresas reportam economias da ordem de 65% no binômio tempo/recursos, e a maioria conseguiu reduzir para poucas semanas alguns processos de integração que poderiam levar meses.

Em sua apresentação no Gartner, a equipe da Webmotors mostrou de que forma o emprego da metodologia Sprint, associada aos DW/Data Lakes e aos componentes de integração pré-formatados, permitiram a criação e ativação de uma estrutura de Big Data em apenas quatro semanas e com grande economia de custos.

Mostrou também de que maneira o emprego de inteligência analítica sobre dados não estruturados (e, em grande parte, sobre logs de conexões de clientes) ajudou o time de TI a criar uma fantástica fonte de novas receitas provenientes da análise de vínculos.

E de como tais análises de vínculos se transformam em insights de negócios, tanto para aferir e melhorar a jornada do cliente em sua estrutura de e-commerce, quanto para clientes da Webmotors em suas estratégias de vendas, crosselling, upselling e posicionamento de portfolio.
 
Maurício Carvalho é diretor de Alianças da Plataforma 4Insights

Leia mais

Conheça erros que tornam os dados corporativos uma ameaça

Aprimore o atendimento com uma base de dados atualizada

A Transformação Digital e as leis de proteção dados

Tags: big data, banco de dados, inteligência de dados, data lakes, 4Insights