menu

9 Tendências em Dados para 2016 que você precisa conhecer

Após olhar para a minha bola de cristal durante os dois primeiros meses de 2016, eu posso agora, com confiança (e com 63.4% ± 42.3657 de certeza) prever o que vai ser tendência em 2016 no mundo dos dados. Uma vez que é improvável que alguma outra pessoa em toda a comunidade de tecnologia esteja escrevendo um artigo como esse, eu me sinto obrigado a compartilhar meus insights prescientes com vocês, para que vocês não se surpreendam com o que está por vir durante o resto do ano. Portanto, sem mais delongas (rufar dos tambores), aqui estão minhas previsões para os próximos 12 meses.

9 tendências em dados

1. Estratégia de Big Data além do Hadoop. Após anos de uma rápida adoção do Hadoop e de outras alternativas a bancos de dados tradicionais, com foco em tecnologia, nós veremos uma mudança em direção a estratégias mais focadas em negócio. Essas estratégias, cuidadosamente desenvolvidas, vão envolver chief data officers (CDOs) e outras lideranças de negócio, e serão guiadas por oportunidades de inovação e a criação de valor de negócio a partir de dados. A última geração de avanços animadores em técnicas de ciência e engenharia de dados será o início de uma série de oportunidades de negócio criativas, e a infraestrutura de dados assumirá um papel de coadjuvante. Benefícios reais serão melhor atingidos por meio do alinhamento estratégico entre oportunidades de alto valor e tecnologias certas para suportar solucões inovadoras.

2. Apache Spark no lugar de MapReduce. Atuando no processamento de dados de memória, o Apache Spark entrou em cena em 2014 como um projeto de alto nível da Apache e foi um termo dominante em 2015, sendo então considerado "pronto para o mercado" e tendo uma significante adoção antecipada. Podemos esperar que 2016 verá uma explosão da adoção de Spark por fast followers e organizações que procuram substituir plataformas de gerenciamento de dados legados. Spark rodando no Hadoop YARN vai provavelmente dominar essa explosão e reduzir drasticamente a necessidade de processamento MapReduce.

3. Aprendizagem Profunda e Aprendizagem de Máquina de Código Aberto. No final de 2015, o Google abriu o código do TensorFlow, sua plataforma de aprendizagem de máquina. Apenas algumas semanas depois, a IBM lançou a sua tecnologia de aprendizagem de máquina, SystemML, na comunidade de código aberto. Esses últimos projetos se unem a uma crescente pletora de projetos de aprendizagem de máquina de código aberto já existentes, como DL4J (para implementar Aprendizagem Profunda em Java). Cientistas de dados e tecnologistas possuem agora, à sua disposição, os algoritmos líderes mundias em análise preditiva avançada. Podemos esperar que isso irá impulsionar a criação de valor a partir de dados em uma forma que jamais imaginamos.

4. Mundo habilitado por IA. Preterida desde os anos 70, a inteligência artificial (IA) está se tornando popular novamente. Exemplos como veículos autônomos, reconhecimento facial, negociação de ações e diagnóstico médico estão aguçando a imaginação da geração atual de tecnologistas. Além disso, o poder da computação distribuída e paralela está mais acessível do que nunca, tornando possível a experimentação de ideias inovadoras. Ao mesmo tempo, a riqueza de dados necessária para alimentar algoritmos de aprendizagem de máquina está mais prolífica, diversa e prontamente disponível do que nunca. Embora você talvez tenha que aguardar mais alguns anos para possuir seu próprio carro autônomo, você pode esperar que a vida em 2016 irá se tornar um pouco melhor por conta dos usos inovadores da IA.

5. IoT amadurece. Desde 1999, quando Kevin Ashton cunhou o termo “Internet das Coisas” (IoT), o mundo tem visto avanços interessantes no uso de sensores e dispositivos interconectados. O fenômeno da IoT vem rapidamente ganhando força nos últimos anos com a contribuição de empresas como GE, Cisco Systems e Ericsson. De acordo com a Gartner, a IoT irá compreender 26 bilhões de unidades operacionais até o ano de 2020, e, como resultado, provedores de produtos e serviços de IoT irão gerar mais de 300 bilhões de dólares em receita incremental.

Podemos esperar que 2016 veja a adoção de padrões abertos que beneficiem o monitoramento de dispositivos, a aquisição e análise de dados e o compartilhamento de informação como um todo. Nós veremos também divergências em questões relacionadas aos tipos de dados coletados por esses dispositivos. Dados pessoais, orientados ao consumo, irão aumentar a complexidade de segurança e privacidade. Dados corporativos irão aumentar a complexidade de questões como compartilhamento de conhecimento, arquiteturas de armazenamento e padrões de uso.

Todos esses sensores e dispositivos produzem enormes volumes de dados sobre diversas coisas, algumas delas nunca antes monitoradas. A combinação de sensores e dispositivos cada vez mais baratos e a facilidade com a qual os dados coletados podem ser analisados vão gerar uma explosão de produtos e conceitos inovadores em 2016.

6. Análise de Conteúdo "Não-Estruturado" se torna rotina. A análise de texto livre, áudio, vídeo, imagens, spam, emojis e outros dados não tabulares (não são realmente não-estruturados) tem sido uma área especial dentro do mundo da ciência de dados nos últimos anos. A convergência de técnicas de análise semânticas mais acesíveis, a explosão de conteúdo em texto livre e, bibliotecas como word2vec e doc2vec (DL4J) levaram a um maior uso regular de técnicas de mineração de texto. O sistema FaceNet do Google está mostrando uma acurácia de 99.96% (esse artigo do DailyMail.com), e pesquisadores do Carnegie Mellon abriram recentemente o código do seu projeto OpenFace, que afirmar poder reconhecer rostos em tempo real com somente 10 fotos de referência. A disponibilidade de ferramentas gratuitas para análise de mídias sociais continua a crescer (veja esse relatório da Butler Analytics). Esses são só alguns poucos exemplos da maturação de técnicas, ferramentas e bibliotecas que permitem a análise de dados não-tabulares por uma comunidade abrangente de tecnologistas. Podemos esperar um uso mais abrangente dessas técnicas em 2016 e, é claro, os debates sobre segurança e privacidade que irão definitivamente se seguir.

7. GPUs de propósito geral para computação distribuída. Diferentemente de CPUs de múltiplos núcleos, que possuem em torno de uma dúzia de núcleos, GPUs (Unidades de Processamento Gráfico) integram centenas de milhares de núcleos de computação. GPUs foram desenvolvidas originalmente para acelerar funções gráficas computacionalmente pesadas. Entretanto, recentemente, adaptações de GPUs de propósito geral têm estendido essa tecnologia para lidar com tarefas paralelas e distribuídas. O segmento de super computadores tem abraçado a tecnologia de GPUs como parte integral do seu avanço computacional.

Até 2015, programação geral em GPU era desgastante, requerendo que os desenvolvedores gerenciassem essa infraestrutura a nível de hardware. CUDA da Nvidia, é uma plataforma de computação paralela e também um modelo de programação que fornece uma API que permite abstrair o hardware subjacente do programa sendo desenvolvido. Além disso, a linguagem aberta de computação do Khronos Group (OpenCL) é uma plataforma para escrever programas que executam em plataformas heterogêneas consistindo de CPUs, GPUs, bem como processadores de sinais digitais (DSPs), field-programmable gate arrays (FPGAs) e outros processadores ou aceleradores de hardware.

Com essas abstrações de programação vem a habilidade real para várias organizações de considerarem uma infraestrutura de GPU ao invés de (ou além de) clusters de computação utilizando CPUs. Atente para a combinação de computação em nuvem de código aberto como OpenStack e Cloud Foundry com o uso hardware com GPUs permitindo a construção de plataformas privadas e públicas de computação em nuvem

8. Transações Híbridas/Adoção de Processamento Anaítico. As últimas três décadas de computação analítica têm dado ênfase à separação entre problemas operacionais e analíticos. Arquiteturas de Data warehouse integram cópias dos dados de sistemas operacionais e as remodelam para fins analíticos. De forma similar, arquiteturas modernas, como o lago de dados, utilizam tecnologias de Big Data para replicar dados em um lago de dados operacionais para fins de exploração e descoberta. O problema com esses modelos é que eles exigem a duplicação de dados, em alguns casos várias cópias, o que não é adequado a explosão antecipada de dados que estamos experimentando atualmente.

Em 2014 a Gartner cunhou o acrônimo HTAP (Hybrid Transaction/Analytic Processing) para descrever um novo tipo de tecnologia que suporta tanto casos de uso operacionais quanto analíticos sem a necessidade de infraestruturas adicionais de gerenciamento de dados. HTAP permite a detecção em tempo real de tendências e sinais que permitem respostas rápidas e imediatas. HTAP possibilita que varejistas identifiquem rapidamente itens que se tornaram campeões de venda dentro da última hora e criem ofertas customizadas para esses itens.

Tecnologias convencionais de SGBD não são capazes de suportar HTAP devido às suas restrições de locking e inabilidade em escalar (I/O e memória). Entretanto, o surgimento de novas tecnologias SQL casa a performance e escalabilidade de tecnologias NoSQL com as propriedades ACID de SGBS tradicionais possibilitando que essa capacidade híbrida manipule consultas OLTP, OLAP, e outras consultas analíticas. A funcionalidade HTAP é oferecida por empresas de bancos de dados como MemSQL, VoltDB, NuoDB and InfinitumDB. Podemos esperar a adoção dessas tecnologias por organizações que buscam evitar a complexidade de soluções distintas de gerenciamento de dados.

9. Segurança de Dados, Privacidade e Encriptação. A atual e ineficaz luta contra o crime cibernético irá continuar sua escalada em 2016 na medida em que criminosos cibernéticos e hacktivists continuam a se tornar mais sofisticados. Consumidores estão se tornando cada vez mais conscientes de que seus dados pessoais possuem valor e que sua privacidade está em risco. Da mesma forma, as corporações estão cada vez mais preocupadas com o roubo de dados sensíveis, com o custo de recuperação e os decorrentes danos contra suas reputações. Ao mesmo tempo, usuários de tecnologia estão cada vez mais hiper-conectados, aumentando, desse modo, a vulnerabilidade de seus dados. Esses fatores significam que estratégias avançadas de segurança de dados continuarão a ser alta prioridade para organizações de TI mundo afora.