Data science é uma disciplina multifacetada, que engloba aprendizado de máquina e outros processos analíticos, estatísticas e ramos relacionados da matemática, cada vez mais emprestados da computação científica de alto desempenho, tudo para extrair insights dos dados e usar essas informações para contar histórias.

 

As estatísticas podem ser uma ferramenta poderosa ao executar a arte da ciência de dados. De uma visão de alto nível, a estatística é o uso da matemática para realizar análises técnicas de dados. Uma visualização básica, como um gráfico de barras, pode fornecer algumas informações de alto nível, mas, com as estatísticas, podemos operar nos dados de uma maneira mais orientada a informações e direcionada. A matemática envolvida nos ajuda a formar conclusões concretas sobre nossos dados, em vez de apenas adivinhar.

 

Usando estatísticas, podemos obter insights mais detalhados sobre como exatamente nossos dados são estruturados e com base nessa estrutura, como podemos aplicar de maneira otimizada outras técnicas de data science para obter ainda mais informações. Aqui vamos analisar cinco conceitos básicos de estatística que os cientistas de dados precisam conhecer e como podem ser aplicados com mais eficiência.

 

Comece com estatísticas

 

O principal atributo que um cientista de dados entrega à sua empresa é a capacidade de extrair insights de complexidade. A chave para alcançar isso é entender como descobrir o significado de dados.

 

A análise estatística é, portanto, uma habilidade importante para dominar. Estatísticas permitem que você:

 

  • Descreva dados para fornecer uma imagem detalhada às partes interessadas
  • Compare dados e teste hipóteses, para informar decisões de negócios
  • Identifique tendências e relacionamentos que fornecem valor preditivo real

 

As estatísticas fornecem um poderoso conjunto de ferramentas para dar sentido aos dados comerciais e operacionais. Mas tenha cuidado! A única coisa pior do que insights limitados são insights enganosos. É por isso que é vital entender os fundamentos da análise estatística. Felizmente, existem alguns princípios que você pode seguir.

 

Avalie suas suposições

 

É muito importante estar ciente das suposições que você faz sobre seus dados. Sempre critique a proveniência e seja cético quanto aos resultados. Poderia haver uma explicação desinteressante para as tendências observadas em seus dados? Qual a validade do seu teste ou metodologia de estatísticas escolhida? Seus dados atendem a todas as premissas subjacentes?

 

Saber quais descobertas são interessantes e valiosas também depende de suas suposições. Um caso elementar em questão é julgar se é mais apropriado relatar a média ou a mediana de um conjunto de dados.

 

Muitas vezes, mais importante do que saber qual abordagem tomar, é saber qual não tomar. Geralmente, existem várias maneiras de analisar determinado conjunto de dados, mas evite as armadilhas comuns.

 

Por exemplo, múltiplas comparações devem sempre ser corrigidas. Em nenhuma circunstância você deve procurar confirmar uma hipótese usando os mesmos dados usados ​​para gerá-la. Você ficaria surpreso com a frequência com que isso é feito.

 

Distribuição > Localização

 

A distribuição de uma variável é geralmente pelo menos tão interessante e informativa quanto sua localização. Na verdade, muitas vezes é mais. Isso ocorre porque a distribuição de uma variável geralmente contém informações sobre os processos generativos subjacentes (ou amostragem).

 

Por exemplo, os dados de contagem geralmente seguem uma distribuição de Poisson, enquanto um sistema exibindo feedback positivo (“reforço”) tenderá a apresentar uma distribuição de lei de potência. Nunca confie em dados normalmente distribuídos sem primeiro verificar cuidadosamente.

 

Em segundo lugar, entender a distribuição dos dados é essencial para saber como trabalhar com eles. Muitos testes e métodos estatísticos dependem de suposições sobre como seus dados são distribuídos.

 

Sempre certifique-se de tratar dados unimodais e bimodais de maneira diferente. Eles podem ter a mesma média, mas você perderia uma tonelada de informações importantes se desconsiderar suas distribuições.

 

A distribuição de uma variável determina a certeza que você tem sobre seu verdadeiro valor. Uma distribuição estreita permite maior segurança, enquanto uma distribuição ampla permite menos.

 

A variação de uma média é crucial para fornecer contexto. Com demasiada frequência, os meios com intervalos de confiança muito amplos são reportados ao lado de meios com intervalos de confiança muito estreitos. Isso pode ser enganoso.

 

Amostragem adequada

 

A realidade é que a amostragem pode ser um ponto problemático para cientistas de dados comercialmente orientados, especialmente para aqueles com experiência em pesquisa ou engenharia.

 

Em um ambiente de pesquisa, você pode ajustar experimentos precisamente desenhados com muitos fatores e níveis diferentes e controlar os tratamentos. No entanto, as condições comerciais são frequentemente ótimas do ponto de vista da coleta de dados. Cada decisão deve ser cuidadosamente ponderada contra o risco de interromper o negócio.

 

Isso requer que os cientistas de dados sejam inventivos, mas realistas, com sua abordagem à solução de problemas. O teste A / B é um exemplo canônico de uma abordagem que ilustra como os produtos e as plataformas podem ser otimizados em um nível granular, sem causar grandes perturbações no business as usual.

 

O teste A / B é um padrão da indústria para comparar diferentes versões de produtos, a fim de otimizá-los. Os métodos Bayesianos podem ser úteis para trabalhar com conjuntos de dados menores, se você tiver um conjunto razoavelmente informativo de prioridades para trabalhar.

 

Com todos os dados coletados, não se esqueça de reconhecer suas limitações. E por último, mas não menos importante, sempre atente para a multicolinearidade ao analisar dados de fontes relacionadas.

 

Engenharia de dados

 

É um tipo de clichê de data science, mas a realidade é que muito do fluxo de trabalho de dados é gasto na terceirização, na limpeza e no armazenamento dos dados brutos exigidos para a análise upstream mais perspicaz.

 

Comparativamente, pouco tempo é realmente gasto na implementação de algoritmos a partir do zero. De fato, a maioria das ferramentas estatísticas vem com seu funcionamento interno envolvido em pacotes R e módulos Python.

 

O processo “extrair-transformar-carregar” (ETL) é crítico para o sucesso de qualquer equipe de ciência de dados. Organizações maiores terão engenheiros de dados dedicados para atender aos seus complexos requisitos de infraestrutura de dados, mas as empresas mais jovens muitas vezes dependerão de seus cientistas de dados para possuírem suas próprias habilidades de engenharia de dados.

 

Programação

 

A ciência de dados é altamente interdisciplinar. Além das habilidades analíticas avançadas e do conhecimento específico do domínio, o papel também exige sólidas habilidades de programação.

 

Não há resposta perfeita para quais linguagens de programação um aspirante a cientista de dados deve aprender a usar. Dito isto, pelo menos o Python e / ou R irá atendê-lo muito bem. Qualquer um desses idiomas (ou ambos) é um excelente ponto de partida se você quiser trabalhar com dados.

 

Qualquer que seja a sua língua, procure se familiarizar com todas as suas características e o ecossistema circundante. Navegue pelos vários pacotes e módulos disponíveis. Conheça as APIs que você precisará usar para acessar as principais plataformas e serviços da sua empresa.

 

Bancos de dados são parte integrante do quebra-cabeças de qualquer fluxo de trabalho de dados. Certifique-se de dominar algum dialeto do SQL. A escolha exata não é muito importante, porque alternar entre eles é um processo gerenciável quando necessário.

 

Bancos de dados NoSQL (como o MongoDB) também podem valer a pena aprender, se sua empresa os utilizar. Tornar-se um usuário confiante na linha de comando ajudará muito a aumentar a produtividade do dia-a-dia. Até mesmo a familiaridade com o script bash simples fará com que você tenha um início forte quando se trata de automatizar tarefas repetitivas.

 

As ferramentas de gerenciamento de versão, como o Git, tornam a implantação e a manutenção do código muito mais simplificada. Agendadores de tarefas permitem que você automatize processos de rotina. As revisões regulares de código e os padrões de documentação acordados facilitarão a vida de sua equipe.

 

Em qualquer linha de especialização em tecnologia, geralmente não há necessidade de reinventar a roda. A engenharia de dados não é exceção. Frameworks como o Airflow tornam o agendamento e o monitoramento de processos ETL mais fáceis e robustos. Para armazenamento e processamento de dados distribuídos, há o Apache Spark e o Hadoop.

 

Não é essencial para um iniciante aprender isso em grande profundidade. No entanto, ter uma consciência do ecossistema circundante e das ferramentas disponíveis é sempre uma vantagem.

 

Comunique-se claramente

 

Uma comunicação eficaz traz consigo um valor comercial significativo. Com a ciência de dados, há quatro aspectos para um relatório eficaz.

 

  • Precisão: saber interpretar seus resultados, sendo claro sobre quaisquer limitações ou advertências que possam ser aplicadas. É importante não exagerar ou subestimar a relevância de qualquer resultado específico. Qualquer ambiguidade em seu relatório pode levar a interpretações errôneas dos resultados. Isso pode ter consequências negativas mais adiante.

 

  • Concisão: mantenha seu relatório o mais curto possível, mas não muito curto. Um bom formato pode fornecer algum contexto para a pergunta principal, incluir uma breve descrição dos dados disponíveis e fornecer uma visão geral dos resultados e gráficos do título. Detalhes extras podem (e devem) ser incluídos em um apêndice.

  • Acessibilidade: há uma necessidade constante de equilibrar a precisão técnica de um relatório com a realidade de que a maioria dos leitores será especialista em seus respectivos campos, e não necessariamente em ciência de dados. Não há uma resposta fácil e única para todos os casos aqui. Comunicação e feedback frequentes ajudarão a estabelecer um equilíbrio apropriado.

 

Gráficos

 

As poderosas visualizações de dados ajudarão você a comunicar resultados complexos para as partes interessadas de maneira eficaz. Um gráfico bem projetado pode revelar em um relance o que vários parágrafos de texto seriam necessários para explicar.

 

Há uma ampla variedade de ferramentas gratuitas e pagas de visualização e criação de painéis, incluindo Plotly, Tableau, Chartio, d3.js e muitas outras. Para modelos rápidos, às vezes você não consegue superar softwares de planilhas de boa qualidade, como o Excel ou o Planilhas Google. Eles farão o trabalho conforme necessário, embora não tenham a funcionalidade do software de visualização desenvolvido especificamente.

 

Ao construir painéis e gráficos, há vários princípios orientadores a serem considerados. O desafio principal é maximizar o valor da informação da visualização, sem sacrificar a legibilidade.

 

A ciência de dados requer um conjunto diversificado de habilidades

 

Existem quatro áreas de habilidades básicas nas quais você, como aspirante a cientista de dados, deve se concentrar no desenvolvimento. Eles são:

 

  • Estatísticas, incluindo tanto a teoria quanto a aplicação no mundo real.
  • Programação em Python ou R, bem como SQL e usando a linha de comando
  • Práticas recomendadas de engenharia de dados
  • Comunicar o seu trabalho de forma eficaz

 

Além disso, aprenda constantemente. A principal habilidade em um campo tão rápido é aprender a aprender e reaprender. Sem dúvida, novas estruturas, ferramentas e métodos surgirão nos próximos anos.

 

O conjunto de habilidades exato que você aprende agora pode precisar ser totalmente atualizado dentro de cinco a dez anos. Estando preparado, você pode ficar à frente do jogo por meio de reaprendizado contínuo.

 

Ninguém nunca sabe de tudo. Mas, se você dominar os fundamentos, você estará em posição de escolher o que você precisa saber. Isso é indiscutivelmente a chave para o sucesso em qualquer disciplina de rápido desenvolvimento. O data science é parte integrante das tecnologias emergentes. Quer mergulhar de cabeça nesse universo? Vem conhecer nosso curso!

 

7 conceitos de data science para aprender a lidar com dados
Avalie esse post
Você pode também gostar