O Poder dos Dados : Conceito e sua Importância em Data Science.

1.Importância dos dados:
Vivemos em uma época de dados e os dados geram informações. As informações geram conhecimento, e este por sua vez, traz soluções e respostas a tudo que está em nossa volta e nos ajudam nas tomadas de decisões.

A informação é formada por dados, e os dados são chamados de novo petróleo. Então quem domina os dados tem a informação e quem tem a informação tem o poder. Estamos vivendo a 4ª Revolução industrial e isso afeta a forma de trabalhar, viver e relacionar.
No entanto, podemos dizer que estamos com um pé na 4º Revolução Industrial e com o outro na 5ª Revolução Industrial. Isso se dá pelo fato de que, na quinta geração, a maquina e o homem estarão trabalhando juntos. Assim sendo, se faz necessário o controle dos dados e determos assim o poder da informação e impactar vidas. Por tanto, dominar os Dados é a chave do sucesso nos negócios.
2.O que são dados:
Dados são um número, um caractere, uma letra um símbolo ou uma imagem. Pode-se dizer que, um dado é a menor unidade ou elemento de uma informação. Por conta do crescente uso de redes sociais; um like, um emoji, uma foto ou uma publicação é um DADO.
Os Dados se encontram na sua forma origina, ou dados brutos, sem significância a princípio. Para eles se tornarem mais uteis precisam passar por uma transformação, no qual podemos chamar de processamento. Esse processamento se dá através de soft’s (ETL’s, Power BI), analise estatística ou modelo matemático (ML e Programação (Python)).
Com os dados já processados e limpos, podemos gerar um conjunto de informações que nos darão um entendimento e como aplica-los para determinado fim. Isso podemos chamar de conhecimento, ou seja, a consciência e o entendimento que nos ajudará a tomar uma decisão ou realizar uma tarefa.

3.Ciências de Dados:
A Ciência de Dados é a um conjunto de técnicas e conceitos usados para se obter através dos dados informações e conhecimento e assim serem aplicadas em negócios e tomadas de decisões. Envolve todos os processos de processamento de dados pra obter uma solução á um problema.
Através da Ciências de Dados se obtém insights. Ou seja, lampejos de ideias, que te fazem enxergar e compreender padrões nas informações. Como se fosse uma “epifania” de conhecimento.
Na ciência de dados, conseguimos contextualizar um dado e contar uma história das informações. Uma história que não se limita apenas no passado ou presente. Mas, usar como base os dados anteriores e suas respectivas relações com os dados atuais e prever resultados que impactarão nas decisões comerciais, financeiras e sociais das pessoas e empresas, o qual chamamos de analise preditiva.
A Ciência de Dados é uma área interdisciplinar; é uma junção de inteligência artificial e de negócios com processos computacionais, matemáticos e estatísticos. A Ciência de Dados também faz uso das tecnologias de BIG DATA e DATA MINING, que apesar de serem tecnologias muito abrangentes e que podem ser aplicadas a outras áreas além da ciência de dados, elas estão muito relacionadas entre si.
4.Big Data:
A base do BIG DATA são também os dados, porém de uma forma muito mais abrangente. Como próprio nome já deixa claro. Ou seja, é um alto volume de dados. O conceito de BIG DATA vem se desenvolvendo desde os primórdios da humanidade. Mas hoje ele está mais consolidado.
O homem nos primórdios fazia uso da arte rupestre por meio de desenhos nas rochas para se comunicar e registrar dados, ou seja, armazená-los. Depois surgiram os pergaminhos devido a evolução da escrita, aumentado assim o seu volume de informações, sendo necessária a criação das bibliotecas para armazenar todas essas informações(dados) que estavam registradas nos pergaminhos. E por fim, chegamos ao desenvolvimento de tecnologias e meios de armazenar dados mediante bancos de dados e outros meios. Assim sendo, com o auto volume de dados como: imagem, vídeos, documentos e informações variadas produzidos pelas redes socias e dispositivos IoT, consolidou-se o conceito de BIG DATA.
E as empresas, percebendo esse crescimento brusco dos dados, começaram a ver o valor de armazenar e processar os dados de maneira estratégica em seus negócios. Assim, o BIG DATA foi sistematizado em cinco princípios, ou 5V’s: volume, velocidade, variedade, veracidade e valor.
-Volume: refere-se a quantidades de dados que produzimos e compartilhamos que não são apenas de Terabytes, mas sim de Zettabytes ou de Brotonbytes. Até 2025, a International Data Corporation (IDC) diz que os dados mundiais crescerão 61% para 175 Zettabytes, com a maior parte dos dados residindo na nuvem e nos data centers.
-Velocidade: Milhões de dados são produzidos nas redes socias e dispositivos IoT por minuto. Isso influencia e explica o crescimento avassalador no volume de dados já mencionado acima.
-Variedade: Esta é mais uma característica que embasa o BIG DATA. Por conta da globalização das informações, são produzido diversos tipos de dados (e-mail, sms, imagens, áudios, vídeos, documentos, emoticons, conteúdos, likes etc.), ou seja, uma multiplicidade de dados trafegando nas redes socias e nos dispositivos IoT. Essa variedade pode ser composta e armazenada, por exemplo, em estrutura de arquivos HDFS do Apache Hadoop e gerenciada pelos seus diversos serviços, como Hive, Hbase, Spark, entre outros.
-Veracidade: Para se obter um insight seguro e confiável para uma tomada de decisão, devemos verificar a qualidade, tipo e procedência dos dados. Como no BIG DATA, lidamos com um volume elevado de dados a ciência de dados se ocupa em limpar, organizá-los para que tenham qualidade e valor. Para gerenciar a qualidade e veracidade dos dados se faz uso do DAMA DMBOX, um framework da governança de Dados.
Uma das atividades importante neste cenário é o processo de profiling, onde se tem uma visão melhor dos dados.
-Valor: Com a grande variedade e volume de dados que cada vez mais cresce e uma seleção de qualidade destas informações, as empresas enxergaram que poderiam tirar insights de valores inestimáveis, não somente em sentido de crescimento nos negócios, mas em um retorno financeiro elevado. Principalmente após uma análise preditiva, onde todos querem prever o futuro com base nas diversas variáveis em um contexto. Sim, a regra geral atual é “guarde, porque amanhã isso valerá muito”.
5.Data Mining:
Data Mining, ou seja, mineração de dados, surgiu por conta justamente do BIG DATA. Como vimos no tópico sobre BIG DATA estamos lidando com um auto volume de dados em que aplicamos os 5V’s.
E para extrairmos insights para tomadas de decisões devemos processar e transformar os dados de sua forma bruta em informações padronizadas. No entanto, realizar manualmente esse processo de análise exploratória, levando em conta os 5V’s do BIG DATA se tornaria inviável.
É neste momento que se faz necessário o uso das tecnologias e processos do Data Mining, que consistem em encontrar padrões ou tendencias num auto volume de dados e de maneira automatizada ajudar o usuário final para tomadas de decisões. E para isso, faz-se uso das técnicas de Estatísticas, IA e Machine Learning (Aprendizado de Máquina).
Data mining faz parte do processo de descoberta de conhecimento (KDD – Knowledge Discovery and Data Mining).
6.Tipos de Dados:
Como já mencionamos no tópico sobre BIG DATA, existem uma variedade de tipos de dados. E podemos agrupá-los em dados estruturados, dados semiestruturados e dados não estruturados. E por conta do volume e variedade destes dados que o contexto do BIG DATA nos traz, se faz necessário o armazenamento dele. E com isso temos Bancos de dados relacionais e não relacionais.
Esses Bancos fazem usam de uma linguagem para gerenciar seus dados. No caso dos Bancos Relacionais (que usam dados estruturados) a linguagem é baseada no SQL (Structured Query Language). É justamente por isso que a categoria relacional é considerada fácil, pois a inserção dos dados é fácil e recuperável. Vale ressaltar que a maioria dos tipos de banco de dados usam o SQL.
E os Bancos Não-Relacionais utilizam a linguagem NoSQL (do inglês, Not Only SQL — Não Apenas SQL) que formam a base de armazenamento para o contexto dos dados semi e não estruturados.
Vejam nesta imagem um resumo dos tipos de dados e suas respectivas linguagens e bases de armazenamento:
7.Conclusão.
Esses conceitos são apenas a “ponta do iceberg” no mundo dos dados. Quem aprender a dominar os dados vai deter em suas mãos as habilidades de transformar vidas e negócios.
Toda estrutura e tecnologia que giram em torno dos dados estão em constantes crescimento. Nesse ponto, já podemos ver a atuação de inteligências artificiais, que aceleram o processo de análise preditivas e prescritivas.
Assim sendo se faz necessário de um profissional habilitado extrair o néctar deste novo petróleo. Esse profissional é o Cientista de Dados. Mas num próximo artigo podemos falar um pouco mais sobre e outros profissionais do mundo dos dados.
Autor: Milton B Assis
Estudante de Ciências de Dados na Unipar-EAD e na FLAI – Inteligência Artificial e Data Science
0 Comentários