Instalar o Python
Fazer o download do Python 3 em: https://www.python.org/downloads/
Na instalação, marcar:
O Python deve ser instalado na pasta: c:\Program Files\Python39
Para verificar a versão instalada, utilize:
python --version
Instalar o pandas
pip install pandas
Instalar o openpyxl (para trabalhar com xlsx)
pip install openpyxl
Agora, você precisa instalar uma IDE para facilitar o desenvolvimento. Abaixo algumas opções:
O VSCode é bastante funcional e rápido para desenvolver Python ou para utilizar Jupyter Notebooks.
O VSCode é um editor FREE, rápido, leve e com uma infinidade de extensões para diferentes linguagens de programação, o que faz com que ele seja uma ótima opção para diferentes usos, vale destacar também que ele ganhou com folga a primeira posição da pesquisa anual do Stack Overflow de 2021 (link) como a IDE mais utilizada por programadores.
Basta instalar o VSCode: https://code.visualstudio.com/download
Depois da instalação do VSCode, vá em extensões e install a extensão do Python
Depois de adicionar a extensão, pressione: CTRL + SHIFT + P e digite:
python: select interpreter
então, selecione a versão do python que você instalou, por exemplo: Python 3.9.5
Para dicas e mais informações sobre como utilizar o VSCode, consulte: Referência VSCode
O Anaconda inclui o Jupyter Notebook
Download: https://www.anaconda.com/products/individual
Para executar: Iniciar / Jupyter Notebook
Ao invés de rodar local, você pode utilizar um ambiente online. A vantagem é que assim não precisa instalar nada.
Para acessar o Google Colaboratory utilize o link: https://research.google.com/colaboratory/
No VSCode, criar um arquivo com a extensão .ipynb, por exemplo: analise_telecom.ipynb
Para um exemplo de análise inicial, podemos utilizar a base “telecom_users.csv” no seguinte arquivo: https://www.kaggle.com/radmirzosimov/telecom-users-dataset
Salve esse arquivo na mesma pasta do arquivo analise_telecom.ipynb e então será possível executar os comandos abaixo:
import pandas as pd
# importar o arquivo csv
tabela = pd.read_csv('telecom_users.csv')
# imprimir os dados da tabela
print(tabela)
# imprime os dados das colunas e tipos
print(tabela.info())
# remove uma coluna
tabela = tabela.drop("Unnamed: 0", axis=1)
print(tabela.info())
# transformar coluna em número, nesse caso o tipo estava texto (object). A opção "coerce" faz com que o valor fique zero quando não for numérico
tabela["TotalCharges"] = pd.to_numeric(tabela["TotalCharges"], errors="coerce")
print(tabela.info())
# remove todas as colunas com todos os valores vazios
tabela = tabela.dropna(how="all", axis=1)
print(tabela)