Referência rápida de Pandas (python)


Índice

Instalação

Instalar o Python

Fazer o download do Python 3 em: https://www.python.org/downloads/

Na instalação, marcar:

O Python deve ser instalado na pasta: c:\Program Files\Python39

Para verificar a versão instalada, utilize:

python --version

Instalar o pandas

pip install pandas

Instalar o openpyxl (para trabalhar com xlsx)

pip install openpyxl

IDEs

Agora, você precisa instalar uma IDE para facilitar o desenvolvimento. Abaixo algumas opções:

VSCode (recomendo esse)

O VSCode é bastante funcional e rápido para desenvolver Python ou para utilizar Jupyter Notebooks.

O VSCode é um editor FREE, rápido, leve e com uma infinidade de extensões para diferentes linguagens de programação, o que faz com que ele seja uma ótima opção para diferentes usos, vale destacar também que ele ganhou com folga a primeira posição da pesquisa anual do Stack Overflow de 2021 (link) como a IDE mais utilizada por programadores.

Anaconda

O Anaconda inclui o Jupyter Notebook

Download: https://www.anaconda.com/products/individual

Para executar: Iniciar / Jupyter Notebook

Google Colaboratory

Ao invés de rodar local, você pode utilizar um ambiente online. A vantagem é que assim não precisa instalar nada.

Para acessar o Google Colaboratory utilize o link: https://research.google.com/colaboratory/


Básico

No VSCode, criar um arquivo com a extensão .ipynb, por exemplo: analise_telecom.ipynb

Para um exemplo de análise inicial, podemos utilizar a base “telecom_users.csv” no seguinte arquivo: https://www.kaggle.com/radmirzosimov/telecom-users-dataset

Salve esse arquivo na mesma pasta do arquivo analise_telecom.ipynb e então será possível executar os comandos abaixo:

import pandas as pd

# importar o arquivo csv
tabela = pd.read_csv('telecom_users.csv')

# imprimir os dados da tabela
print(tabela)

# imprime os dados das colunas e tipos
print(tabela.info())

# remove uma coluna
tabela = tabela.drop("Unnamed: 0", axis=1)
print(tabela.info())

# transformar coluna em número, nesse caso o tipo estava texto (object). A opção "coerce" faz com que o valor fique zero quando não for numérico
tabela["TotalCharges"] = pd.to_numeric(tabela["TotalCharges"], errors="coerce")
print(tabela.info())

# remove todas as colunas com todos os valores vazios
tabela = tabela.dropna(how="all", axis=1)
print(tabela)

Comentários