Projeto DadonautaBR - O Início

well.sud (34)in #datascience • 7 years ago

Data estelar 97375

Projeto DadonautaBR a fronteira final. Estas são as viagens deste simplório navegador aspirante em sua missão de explorar novos modelos, pesquisar novas bibliotecas, navegar sobre obscuros datasets. Audaciosamente indo muito além do Teorema Central do Limite."

Bem vindo a um experimento. Meu nome é Wellington e esse é o primeiro de (espero que) muitos posts de uma série em que poderá acompanhar um iniciante começando um projeto de Ciência de Dados do zero. Sem datasets limpos e normalizados, sem um esquema de curso pré-estabelecido com todas as dúvidas que podem surgir no caminho e o processo para escolher as soluções. Sim, praticamente um Primitive Technology dos Dados com um décimo do expertise, mas semelhantemente sem recursos.

Mas porque você faria isso?

Depois de juntar coragem decidi fazer isso e compartilhar por 4 razões:

Descobrir o que preciso aprender tendo uma experiência real

Hoje não é difícil ter acesso a muita informação. Informação até demais. Ainda mais num campo tão rico e, relativamente novo para empresas brasileiras, como é o da Ciência de Dados e sua parentela (IA, Machine Learning, Deep Learning e etc).

Você vê todo aquele hype, os salários de 2 dígitos e a falta de profissionais conforme a “imprensa especializada” afirma. Logo de cara se fascina com o que se pode fazer.

Você quer ajudar a tratar o câncer!

Quer ter seu próprio Transformer!

Legal, por onde você começa? Obviamente no Google.

via GIPHY

Mas logo pipocam vários cursos, guias, experiências (inclusive de gente que diz que o emprego que você acabou de descobrir está com os dias contados). Vagas com nomes estranhos exigindo 1001 ferramentas. Não demorará muito até que esteja no Quora com perguntas mais ou menos assim:

Depois de fazer alguns cursos ainda não me sentia seguro sobre o que era mais importante então pensei: Porque não começar um projeto e ir descobrindo o que preciso saber assim que os problemas surgem? Claro que cada problema tem suas necessidades, mas a própria habilidade de resolver problemas é importante e só há uma maneira de desenvolvê-la: Criando problemas como esse para resolver.

Parar de procrastinar meu portfólio

Eu sabia que precisava de um portfólio. Assim como sei que preciso dormir mais e fazer um orçamento mensal, mas só saber não é o suficiente. E para quem deseja trabalhar com código e muitos outros trabalhos criativos a desculpa de “eu não tenho como demonstrar experiência” não cola mais. Se você não tem um portfólio ou github passou da hora.

Porém, como muitos nesse mundo timelines e boletos infinitos eu tenho uma bela coleção de projetos paralelos revolucionários enfeitando minhas listas de coisas a fazer um dia.
Então em um dos recorrentes momentos que meu navegador estava à deriva encontrei um workshop sobre Como se tornar um Cientista de Dados em 6 meses de Tetiana Ivanova. (Ahhh.. como as promessas de atalhos nos fascinam). E, apesar do título clickbait, realmente tinha várias dicas válidas. Uma em especial me chamou a atenção:

“Don’t Trust yourself with sticking to deadlines”

via GIPHY

No bom e velho português: Não confie em si mesmo para cumprir prazos. Costumamos adiar as coisas a menos até que se torne urgente. Em seu caso, Tetiana participou de grupos de estudos em que estabelecia com os colegas prazos para cumprir as tarefas. Além disso se comprometeu em dar uma palestra para 200 pessoas em um Meetup. O poder de um compromisso público e o risco de falhar publicamente é uma ótima forma de se vacinar contra a procrastinação. Cria-se uma estrutura em que você se compromete com alguém. Transformar o desenvolvimento desse projeto em artigos semanais é uma forma de compromisso público.

Contribuir com a comunidade

Não vou prometer técnicas avançadas com soluções brilhantes cheias de estilo aqui. Mas vou tentar em cada artigo expor meu raciocínio, minhas dúvidas e dilemas junto com as soluções que encontrei. Primeiro, para ajudar iniciantes como eu. E também, se possível para ouvir como pessoas mais experientes fariam diferente através de sugestões e críticas. É bem legal quando os comentários de um artigo se tornam até mais rico do que o próprio artigo. Além disso, espero ter um dataset arrumado e bonitão disponível ao final do projeto.

Assimilar melhor o que eu aprendo

Escrever sobre as ferramentas que estou usando de uma maneira razoavelmente inteligível e clara me força a reorganizar as ideias em minha cabeça e reavaliar o quanto eu sei. Além disso, quando surgem os problemas é mais fácil entender o que as ferramentas e técnicas resolvem e porque elas são usadas.

No final, compartilhar e ensinar podem ser maneiras de compreender e reter melhor o que aprendi.

Tá, mas enfim… qual é o projeto?

Chega de enrolação não é? Vamos à ideia do projeto, ou melhor, às perguntas.

O Governo do Estado de São Paulo tem em seu Portal de transparência de Dados as informações de salários de todos os funcionários estaduais desde 2012. Além disso mantêm documentos com a estruturas de cargos dos órgãos da Administração Direta e Indireta.
Que perguntas interessantes esses dados ajudariam a responder? Todo projeto de Ciência de dados deve começar com uma pergunta em mente. essas perguntas deveriam vir da área de negócios e estar alinhada à estratégia da empresa. Antes de falar dos dados e dos possíveis desafios seguem algumas perguntas que passaram na minha cabeça para começar o projeto:

Existe desigualdade de Cargos e salários na esfera pública em relação a gênero?
Com os dados atuais é possível traçar uma estimativa de gastos com folha de pagamento do Estado?
Qual a proporção de cargos comissionados? Existem órgãos ou áreas em que apresentam maior quantidade?

Algumas dessas perguntas podem ser respondidas com uma boa Análise Exploratória de Dados e com o uso Estatística descritiva usando boas ferramentas de Visualização. Outras vão precisar de modelagem para uma Análise Preditiva. São exemplos de algumas perguntas. Cada pergunta num projeto te orienta sobre que ferramentas e técnicas pode usar, te dará uma ideia dos desafios/riscos durante o processo e até como avaliar a qualidade do resultado. Então antes de continuar na minha série de artigos gostaria de ouvir do pessoal sugestões de outras perguntas interessantes a serem respondidas com esses dados. O que você acha que seria legal de tentar descobrir? Deixe seu comentário.

Além disso, críticas e sugestões são extremamente bem vindas. Minha cara está totalmente à tapa. Então por favorzinho, comente.

via GIPHY

PS: Como esse mundo é muito novo para algumas pessoas, assim como muita coisa foi e é pra mim apresento a vocês o Guia do Mochileiro dos Analytics. Uma definição/explicação própria que (talvez?) ajudará a entender alguns termos apresentados no texto e referências que usei no texto.

O Guia do Mochileiro dos Analytics

Análise Exploratória: É como quando você está conhecendo o Crush na primeira vez. Você não está fazendo planos de casar ainda. Mas faz algumas perguntas básicas para ver se dá para levar a coisa mais pra frente: Qual é sua média? Dá aquela olhada olhada nos quartis. Testa uma hipóteses para ver como ele reage. Tem muito jogo visual: boxplots, dispersões e etc. Saindo do campo da paquera pode pensar também como você pegando um quebra cabeça que nunca viu montado. Você tenta começar achando as bordas. Não vai te dar a imagem toda mas ajuda a saber por onde começar.

Análise Preditiva: O poder clarividente desse universo analítico! O olho de Agamoto, a Jóia do Tempo em suas mãos. Porém, funciona diferente de como o Doutor Estranho usou em Guerra infinita. Você olha milhares de comportamentos passados para prever o evento futuro. Pense em como você meio que já sabe quanto tempo vai durar a nova dieta que suas tia estão tentando. Então… é isso só que com milhares de ocorrências anteriores como base.

Clickbait: Você já o conhecia, só não por nome. São aqueles títulos de artigos ou vídeos que você sabe que não são o que dizem, mas clica mesmo assim. Coisas como “Coloquei meu celular para carregar numa cebola e veja o que aconteceu!”. E, assim como um Gremlin alimentado depois da meio noite, eles se tornam mais poderosos quando você está tentando terminar aquele trabalho atrasado de madrugada.

Dataset(s): Nada mais do que conjuntos de dados. Geralmente no formato de planilhas ou tabelas. São os datasets que você tortura trabalha para conseguir suas respostas. Eles são a matéria prima do trabalho de Ciência de Dados. Se você fosse um escultor os datasets seriam a pedra ou argila, se você fosse um carpinteiro eles seriam a madeira, se você fosse um Desenvolvedor eles seriam sua bebida favorita.

Deep Learning (Aprendizado Profundo): Filha da Machine Learning puxou a mãe em muita coisa, mas ela gosta de treinar pesado. Sua forma é diferente. Ela é capaz de usar vários algoritmos diferentes em camadas que se alimentam dos dados de treino que recebem e fornecem interpretações que alimentam as camadas seguintes. Para entender as diferenças entre ela e sua mãe consulte: https://hackernoon.com/difference-between-artificial-intelligence-machine-learning-and-deep-learning-1pcv3zeg

Estatística Descritiva: É a parte da estatística que se preocupa em organizar e resumir os dados sem assumir nada ainda. É dessa água que você bebe pra começar a análise exploratória

Hype: É qualquer assunto, pessoa ou produto que está no ápice da popularidade. “Na crista da onda morô?” Tecnologias emergentes sempre passam pelo Ciclo de Hype. Aquele momento que todo mundo acha que descobriu a cura específica para todos os males. Logo em seguida percebe-se que não não dá pra usar em todas as situações como os sapatênis e sandálias crocs e aí ela passa a amadurecer.

Inteligência Artificial (IA): É um campo de Estudo em que o objetivo é tentar imitar criar agentes inteligentes ou máquinas que imitam a inteligência humana tentando adotar a melhor ação possível diante de ambientes novos e situações. Machine Learning (aprendizado de máquina) é uma de suas filhas e Deep Learning (Aprendizado profundo) sua neta.

Machine Learning (Aprendizado de Máquina): Área filha da Inteligência artificial, essa lindona que chamaremos de ML é capaz de criar algoritmos que se adaptam a um conjunto de dados sem você precisar pondo a mão o tempo todo. Sua alimentação consiste numa dieta balanceada de Probabilidade e Estatísticas, Álgebra Linear, Matrizes e um pouco de Cálculo nos fins de semana porque ninguém é de ferro. Para manter a boa performance muitos dados de treino. Inevitavelmente falaremos mais de seus dotes.

Meetup: Site que te permite criar/participar grupos e comunidades com interesses comuns sediar eventos presenciais que são em sua grande maioria gratuitos. As comunidades de tecnologia dominam e é uma ferramenta bacana para fazer networking. Nunca foi tão fácil ser um nerd social e descolado.

Primitive Technology: Canal do Youtube de John Plan. Esse cara pode construir a nova atlântida só com mato, gravetos e argila. Canal obrigatório para sobreviver a um apocalipse zumbi indo para o meio do mato.

Quora: Site de perguntas e respostas. Como o Yahoo respostas? Pelo o amor de Zordon, não! O Quora ganhou popularidade por possuir respostas vindas de especialistas da área perguntada. Gerando mais credibilidade. Quora está para Yahoo Respostas como o Gyarados está para a Magikarp.

Teorema Central do Limite: Começaremos com a definição terráquea mais comum que diz que segundo esse teorema “as médias de amostras grandes e aleatórias são aproximadamente normais”. Mas o que é ser normal? Perguntaria seu filósofo/psicólogo/colega de humanas favorito. No mundo das estatísticas normal tem sua definição. Uma curva de distribuição normal é aquela que as chances de eventos acontecerem se aproximam da média de maneira mais ou menos uniforme. Formando o desenho de um sino. Olhe abaixo a probabilidade de dois dados somarem valores de 2 a doze:

Fonte

Quanto maior a quantidade de dados mais curvilínea fica essa Moçoila. Gauss o carinha que a percebeu em seus estudos de amostras na natureza. Por isso outro nome pode ser Distribuição Gaussiana. E que isso era extremamente comum para vários eventos naturais e sociais. Para entender mais porque essa saliência toda é a paixão dos cientistas de dados vai uma explicação mais completa: https://towardsdatascience.com/why-data-scientists-love-gaussian-6e7a7b726859

#bigdata #humor #howto #aprenda