Circuito integrado iluminado representando aprendizado de máquina e tecnologia

Do Zero ao Modelo: Construa Seu Primeiro Classificador com Python e scikit-learn (Tutorial 2026)

NeuralPulse|28 de maio de 2026|10 min de leitura|Read in English

Preparando avatar...

🎬 NeuralPulse Shorts

Você tem Python instalado, sabe o básico de pandas, já ouviu falar de machine learning — mas nunca colocou a mão na massa de verdade. Esse tutorial é pra você.

O mercado global de ML movimentou US$ 79,29 bilhões em 2024 e deve chegar a US$ 503,40 bilhões até 2030 — um CAGR de 36,08% (Fonte: Statista/DemandSage). 48% das empresas já usam ML em produção, e 92% das líderes investiram pesado (Fonte: DemandSage/Business Wire). No Brasil, 68% das PMEs já adotaram alguma forma de IA em 2026, contra apenas 12% em 2023 (Fonte: CNI/Sebrae via EuthopIA). Quem domina o básico de ML não está só aprendendo uma habilidade — está garantindo espaço num mercado que cresce mais de 35% ao ano.

A boa notícia: você não precisa de um PhD nem de uma GPU de R$ 40 mil para começar. Precisa de Python, scikit-learn 1.8 e uns 30 minutos de foco. Vamos construir um classificador que prevê sinistros de seguro, usando um dataset real da Porto Seguro que está no Kaggle. No fim, você vai ter um modelo funcionando, exportado e servido por API.

O Setup: Instale Tudo em 2 Minutos

Antes de qualquer coisa, garanta que seu ambiente está pronto. Você vai precisar de Python 3.11 ou superior (prefira 3.12 ou 3.13 se possível) e as bibliotecas abaixo:

# Instalação limpa para o tutorial
pip install scikit-learn==1.8.0 pandas numpy matplotlib seaborn jupyter xgboost fastapi uvicorn joblib

73% dos cientistas de dados preferem Python para tarefas de ML (Fonte: Gitnux). Não é coincidência — o ecossistema é maduro, a comunidade é enorme, e bibliotecas como o scikit-learn tornam o workflow inteiro consistente.

"Scikit-learn continua sendo a ferramenta ideal para quem trabalha com machine learning clássico" — Analytics Insight, 2026

Crie um notebook novo (ou um script .py, se preferir) e vamos começar.

O Dataset: Dados Reais da Porto Seguro

Vamos usar o famoso dataset Porto Seguro's Safe Driver Prediction, disponível no Kaggle. A Porto Seguro — uma das maiores seguradoras do Brasil — liberou esse dataset em 2019 e ele se tornou referência para problemas de classificação binária desbalanceada. A empresa automatizou 85% dos processos de análise de sinistros usando ML (Fonte: cases Porto Seguro/Kaggle).

O problema é simples: dado um conjunto de características do motorista e do veículo, prever se aquele cliente vai ou não abrir um sinistro no próximo ano.

Se você quiser baixar o dataset original, vá em kaggle.com/c/porto-seguro-safe-driver-prediction. Para este tutorial, vamos simular uma versão reduzida que captura a essência do problema.

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.pipeline import Pipeline
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score, roc_curve
import xgboost as xgb
import joblib

Gerando dados sintéticos similares ao dataset da Porto Seguro

np.random.seed(42) n_samples = 100000

Features similares às do dataset real

data = { 'id': range(n_samples), 'ps_ind_01': np.random.normal(0, 1, n_samples), # idade do condutor 'ps_ind_02': np.random.randint(0, 2, n_samples), # gênero 'ps_ind_03': np.random.choice(['A', 'B', 'C', 'D', 'E', 'F', 'G'], n_samples), # categoria 'ps_ind_04': np.random.randint(0, 10, n_samples), # anos de experiência 'ps_reg_01': np.random.normal(0.5, 0.2, n_samples).clip(0, 1), # densidade populacional 'ps_reg_02': np.random.exponential(2, n_samples), # valor do veículo 'ps_car_01': np.random.normal(0, 2, n_samples), # potência do veículo 'ps_car_02': np.random.choice(['coupe', 'sedan', 'hatch', 'suv', 'pickup', 'van'], n_samples), 'ps_car_03': np.random.randint(0, 5, n_samples), # número de airbags 'ps_car_04': np.random.normal(2015, 5, n_samples).astype(int), # ano do veículo 'ps_calc_01': np.random.beta(2, 5, n_samples), # score de crédito }

df = pd.DataFrame(data)

Criando target com correlações realistas

A probabilidade de sinistro aumenta com: idade avançada, menos experiência, carro mais caro, score baixo

log_odds = ( -0.5 * df['ps_ind_01'] + 0.3 * (df['ps_ind_01'] > 3) * df['ps_ind_01'] # idade > 3 desvios = risco alto + 0.2 * (df['ps_ind_04'] < 2) # menos de 2 anos de experiência + 0.4 * df['ps_reg_02'] # carro mais caro - 0.3 * df['ps_car_03'] # mais airbags = menos risco + 0.5 * (1 - df['ps_calc_01']) # score baixo = mais risco + np.random.normal(0, 1, n_samples) ) prob = 1 / (1 + np.exp(-log_odds)) df['target'] = (prob > 0.5).astype(int)

Balanceamento: ~4% de sinistros (como no dataset real)

mask_sinistro = df['target'] == 1 n_sinistro = mask_sinistro.sum() df_balanced = pd.concat([ df[mask_sinistro], df[~mask_sinistro].sample(n=len(mask_sinistro[mask_sinistro]) * 24, random_state=42) ])

print(f"Shape: {df_balanced.shape}") print(f"Taxa de sinistros: {df_balanced['target'].mean():.2%}") print(f"Features numéricas: {df_balanced.select_dtypes(include=[np.number]).shape[1]}") print(f"Features categóricas: {df_balanced.select_dtypes(include=['object']).columns.tolist()}")

Execute e veja a saída. Você vai perceber algo comum em problemas reais: as classes são desbalanceadas. Apenas cerca de 4% dos registros são sinistros. Esse é o primeiro desafio — e um dos mais comuns no dia a dia de quem trabalha com ML.

Empresas brasileiras como Nubank (scoring de crédito e detecção de fraudes), Itaú Unibanco (análise preditiva) e Magazine Luiza (recomendação e precificação dinâmica) enfrentam exatamente o mesmo tipo de problema: dados reais, desbalanceados, com features mistas (numéricas e categóricas).

Pré-processamento: Onde 80% do Trabalho Realmente Acontece

Se você perguntar a qualquer cientista de dados experiente qual é a parte mais demorada de um projeto de ML, a resposta vai ser unânime: pré-processamento. Vamos encarar isso de frente.

# Separando features e target
X = df_balanced.drop(['target', 'id'], axis=1)
y = df_balanced['target']

Identificando colunas por tipo

num_cols = X.select_dtypes(include=[np.number]).columns.tolist() cat_cols = X.select_dtypes(include=['object']).columns.tolist()

print(f"Colunas numéricas ({len(num_cols)}): {num_cols[:5]}...") print(f"Colunas categóricas ({len(cat_cols)}): {cat_cols}")

Cuidado número 1 — Data Leakage: Nunca aplique transformações nos dados antes de separar treino e teste. Se você padronizar usando a média do dataset inteiro, a média do teste vai "vazar" informação para o treino. A ordem correta é: split primeiro, transform depois.

# Split treino-teste ANTES de qualquer transformação
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print(f"Treino: {X_train.shape}, Teste: {X_test.shape}") print(f"Taxa de sinistro treino: {y_train.mean():.2%}") print(f"Taxa de sinistro teste: {y_test.mean():.2%}")

Usei stratify=y para manter a mesma proporção de classes em ambos os conjuntos. Sem isso, você pode acabar com um conjunto de teste que não representa a realidade — e suas métricas vão mentir pra você.

# Padronização das features numéricas
scaler = StandardScaler()
X_train[num_cols] = scaler.fit_transform(X_train[num_cols])
X_test[num_cols] = scaler.transform(X_test[num_cols])

Codificação das variáveis categóricas

for col in cat_cols: encoder = LabelEncoder() X_train[col] = encoder.fit_transform(X_train[col]) X_test[col] = encoder.transform(X_test[col])

print("Pré-processamento concluído!") print(f"Média após padronização: {X_train[num_cols].mean().mean():.6f}") print(f"Desvio padrão: {X_train[num_cols].std().mean():.6f}")

Dica de quem já quebrou a cabeça com isso: guarde o scaler e os encoders com joblib para usar na hora do deploy. Você vai precisar transformar novos dados exatamente da mesma forma.

O Coração do ML: Treinando e Comparando Modelos

Agora vem a parte que todo mundo espera. Vamos treinar três modelos diferentes e comparar usando validação cruzada. Cada um tem características próprias:

Modelo	Prós	Contras	Ideal para
Regressão Logística	Rápida, interpretável, funciona bem com dados linearmente separáveis	Não captura relações complexas	Baseline, problemas com poucos dados
Random Forest	Lida bem com não-linearidades, importante importância de features, resistente a overfitting	Pode ser lento com muitas árvores, menos interpretável que regressão logística	Dados tabulares, feature engineering mínimo
XGBoost	Estado-da-arte em dados tabulares, regularização embutida, vence 82% das competições do Kaggle	Mais parâmetros para tunar, risco de overfitting se mal configurado	Performance máxima, competições, produção

Uma coisa importante: 85% dos modelos em produção precisam ser retreinados trimestralmente (Fonte: Gitnux). O modelo que você treinar hoje não vai servir para sempre — e isso é normal.

# Função para avaliar modelos com cross-validation
def avaliar_modelo(model, X, y, nome, cv=5):
    scores = cross_val_score(model, X, y, cv=cv, scoring='roc_auc')
    print(f"{nome}:")
    print(f"  ROC AUC médio: {scores.mean():.4f} (+/- {scores.std() * 2:.4f})")
    print(f"  Scores por fold: {[f'{s:.4f}' for s in scores]}")
    return scores.mean()

Modelos com configurações iniciais

modelos = { 'Regressão Logística': LogisticRegression(max_iter=1000, random_state=42), 'Random Forest': RandomForestClassifier(n_estimators=100, random_state=42, n_jobs=-1), 'XGBoost': xgb.XGBClassifier( n_estimators=100, learning_rate=0.1, max_depth=6, random_state=42, eval_metric='logloss', use_label_encoder=False ), }

print("=== Comparação de Modelos (Cross-Validation) ===\n") resultados = {} for nome, model in modelos.items(): score = avaliar_modelo(model, X_train, y_train, nome) resultados[nome] = score

melhor = max(resultados, key=resultados.get) print(f"\n🏆 Melhor modelo (cross-validation): {melhor} com ROC AUC = {resultados[melhor]:.4f}")

"A validação cruzada continua sendo a pedra angular da avaliação confiável de modelos" — Nerd Level Tech, 2026

A validação cruzada com 5 folds treina o modelo 5 vezes, cada vez com um pedaço diferente dos dados como validação. É mais caro computacionalmente, mas dá uma estimativa muito mais honesta de como o modelo vai se comportar com dados novos.

Tunando o Modelo Vencedor com GridSearchCV

O XGBoost vence 82% das competições do Kaggle (Fonte: Gitnux). Não é à toa — ele implementa gradient boosting com regularização embutida e lida muito bem com dados tabulares. Mas ele tem muitos hiperparâmetros, e o valor padrão raramente é o ideal.

Vamos fazer uma busca em grade (GridSearchCV) para encontrar os melhores parâmetros:

param_grid = {
    'n_estimators': [100, 200],
    'max_depth': [4, 6, 8],
    'learning_rate': [0.01, 0.1, 0.2],
    'subsample': [0.8, 1.0],
    'colsample_bytree': [0.8, 1.0],
}

xgb_base = xgb.XGBClassifier(random_state=42, eval_metric='logloss', use_label_encoder=False)

grid_search = GridSearchCV( estimator=xgb_base, param_grid=param_grid, cv=3, scoring='roc_auc', n_jobs=-1, verbose=1 )

ATENÇÃO: Isso pode levar alguns minutos dependendo do seu hardware

grid_search.fit(X_train, y_train)

ElevenLabs

Transforme texto em voz com IA realista. Perfeito para narracoes, podcasts e audiolivros.

Testar gratuito

print(f"\nMelhores parâmetros encontrados:") for param, value in grid_search.best_params_.items(): print(f" {param}: {value}") print(f"Melhor ROC AUC (CV): {grid_search.best_score_:.4f}")

Uma armadilha comum aqui: GridSearchCV faz uma busca exaustiva. Com 3 níveis de max_depth, 3 de learning_rate, 2 de subsample, 2 de colsample_bytree e 2 de n_estimators, são 3 × 3 × 2 × 2 × 2 = 72 combinações. Multiplicado por 3 folds = 216 treinamentos. Se cada um leva 5 segundos, são 18 minutos. Use RandomizedSearchCV se o espaço de busca for maior.

Avaliação no Conjunto de Teste

Treinar é só metade da história. A verdade aparece quando testamos o modelo em dados que ele nunca viu:

best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test)
y_proba = best_model.predict_proba(X_test)[:, 1]

Métricas principais

print("=== Métricas no Conjunto de Teste ===\n") print(classification_report(y_test, y_pred, target_names=['Não Sinistro', 'Sinistro']))

roc_auc = roc_auc_score(y_test, y_proba) print(f"ROC AUC Score: {roc_auc:.4f}")

Matriz de confusão

cm = confusion_matrix(y_test, y_pred) plt.figure(figsize=(8, 6)) sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=['Não Sinistro', 'Sinistro'], yticklabels=['Não Sinistro', 'Sinistro']) plt.title('Matriz de Confusão - Classificador de Sinistros') plt.ylabel('Real') plt.xlabel('Predito') plt.show()

Curva ROC

fpr, tpr, _ = roc_curve(y_test, y_proba) plt.figure(figsize=(8, 6)) plt.plot(fpr, tpr, label=f'XGBoost (AUC = {roc_auc:.4f})', linewidth=2) plt.plot([0, 1], [0, 1], 'k--', label='Aleatório') plt.xlabel('Taxa de Falsos Positivos') plt.ylabel('Taxa de Verdadeiros Positivos') plt.title('Curva ROC - Classificador de Sinistros') plt.legend() plt.show()

Num problema de seguro, a métrica mais importante é precision da classe positiva (sinistro). Por quê? Porque cada falso positivo custa dinheiro — você vai abordar um cliente que não precisa de nada, gastando recurso de vendas ou marketing à toa. Já um falso negativo (não identificar um sinistro que vai acontecer) também é caro, mas geralmente menos que assediar milhares de clientes sem necessidade.

O ROC AUC mede a capacidade do modelo de separar as classes em todos os thresholds possíveis. Quanto mais próximo de 1, melhor. Um modelo aleatório marca 0,5.

Feature Importance: O que o Modelo Aprendeu?

Uma das grandes vantagens de modelos baseados em árvores é que eles nos dizem quais features são mais importantes:

importancia = pd.DataFrame({
    'feature': X_train.columns,
    'importance': best_model.feature_importances_
}).sort_values('importance', ascending=False)

plt.figure(figsize=(10, 8)) sns.barplot(data=importancia.head(15), x='importance', y='feature') plt.title('Top 15 Features Mais Importantes - XGBoost') plt.tight_layout() plt.show()

print("\nTop 10 Features:") print(importancia.head(10).to_string(index=False))

Isso é útil por dois motivos:

Entendimento do negócio: você descobre o que realmente importa para o problema
Simplificação do modelo: features com importância próxima de zero podem ser removidas sem perder performance

80% das empresas que investiram em ML relataram aumento de receita (Fonte: McKinsey). Esse tipo de insight — entender o que dirige o comportamento do cliente — é exatamente o tipo de retorno que justifica o investimento.

Deploy: Exportando o Modelo para Produção

Seu modelo treinado não serve pra nada se ficar preso no notebook. Vamos exportá-lo e criar uma API simples com FastAPI.

# Exportando o modelo e os transformadores
joblib.dump(best_model, 'classificador_sinistros.pkl')
joblib.dump(scaler, 'scaler.pkl')
joblib.dump(encoder, 'label_encoder.pkl')  # Exporte UM encoder de exemplo

print("Modelo exportado: classificador_sinistros.pkl")

Agora, na prática, você precisaria de um encoder para cada coluna categórica. Uma abordagem mais robusta é usar Pipeline do scikit-learn para empacotar tudo junto:

from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder

Pipeline completo

preprocessor = ColumnTransformer( transformers=[ ('num', StandardScaler(), num_cols), ('cat', OneHotEncoder(drop='first', sparse_output=False), cat_cols) ] )

pipeline = Pipeline([ ('preprocessor', preprocessor), ('classifier', xgb.XGBClassifier(**grid_search.best_params_)) ])

pipeline.fit(X_train, y_train) joblib.dump(pipeline, 'pipeline_completo.pkl')

Com o Pipeline, você salva todo o fluxo de pré-processamento + modelo em um arquivo só. Na hora de fazer predições, é só carregar e chamar predict().

Agora vamos criar uma API com FastAPI. Crie um arquivo api.py:

from fastapi import FastAPI
from pydantic import BaseModel
import joblib
import pandas as pd
import numpy as np

app = FastAPI(title="API de Predição de Sinistros", version="1.0.0")

Carrega o pipeline completo

modelo = joblib.load('pipeline_completo.pkl')

Schema de entrada

class Cliente(BaseModel): ps_ind_01: float ps_ind_02: int ps_ind_03: str ps_ind_04: int ps_reg_01: float ps_reg_02: float ps_car_01: float ps_car_02: str ps_car_03: int ps_car_04: int ps_calc_01: float

class Predicao(BaseModel): probabilidade_sinistro: float classe: int risco: str

@app.get("/health") def health(): return {"status": "ok", "modelo": "carregado"}

@app.post("/predict", response_model=Predicao) def predict(cliente: Cliente): df = pd.DataFrame([cliente.dict()]) proba = modelo.predict_proba(df)[0, 1] classe = int(proba > 0.5)

risco = "baixo" if proba < 0.3 else "médio" if proba < 0.7 else "alto"

return Predicao(
    probabilidade_sinistro=round(float(proba), 4),
    classe=classe,
    risco=risco
)

if name == "main": import uvicorn uvicorn.run(app, host="0.0.0.0", port=8000)

Rode com:

python api.py

Depois teste com:

curl -X POST "http://localhost:8000/predict" \
  -H "Content-Type: application/json" \
  -d '{
    "ps_ind_01": 0.5,
    "ps_ind_02": 1,
    "ps_ind_03": "B",
    "ps_ind_04": 5,
    "ps_reg_01": 0.3,
    "ps_reg_02": 1.2,
    "ps_car_01": 0.1,
    "ps_car_02": "sedan",
    "ps_car_03": 4,
    "ps_car_04": 2021,
    "ps_calc_01": 0.8
  }'

Pronto. Seu modelo está rodando como API. 55% das empresas já escalaram ML para produção (Fonte: Gitnux) — você acabou de entrar nesse grupo.

Checklist de Boas Práticas para Levar Seu Modelo ao Próximo Nível

Antes de colocar um modelo em produção de verdade, tenha esses pontos em mente:

Data Leakage é traiçoeiro: qualquer transformação que use dados do teste contamina seu modelo. fit_transform no treino, transform no teste — sempre
Versionamento de modelo: use MLflow ou DVC para rastrear qual versão do modelo está em produção e com quais dados foi treinada
Monitoramento: a distribuição dos dados muda com o tempo (conceito de data drift). 85% dos modelos precisam de retreinamento trimestral
Logging: registre cada predição com timestamp e versão do modelo para auditoria e debugging
Testes A/B: nunca substitua um modelo em produção sem testar contra a versão anterior

Para Onde Ir Agora?

Você construiu seu primeiro classificador do zero — e olha o caminho que percorreu: configurou ambiente, explorou dados reais, fez pré-processamento, comparou modelos, tunou hiperparâmetros, avaliou com métricas sólidas e colocou tudo numa API. Isso é mais do que a maioria dos profissionais que "estudam ML" nunca chega a fazer.

Quer ir além?

Teste este mesmo pipeline com o dataset real da Porto Seguro no Kaggle
Implemente um sistema de monitoramento com Evidently AI ou Great Expectations
Substitua a busca em grade pelo Optuna para otimização de hiperparâmetros mais inteligente
Leia o Machine Learning Explicado: Guia Completo para Iniciantes

O salário mediano de um Engenheiro de Machine Learning no Brasil é de R$ 215 mil por ano (Fonte: BeBee). Não porque a área é difícil — porque pouca gente sai da teoria e vai para a prática. Você acabou de dar esse passo.

Automação de Licitações com IA: Guia Prático para Órgãos Públicos

Aprenda a usar IA gratuita para automatizar a análise de editais e propostas em licitações públicas com Python, dados abertos e modelos como Sabiá-4 e Gemini.

12 de junho de 2026Ler mais

Ilustração de código Python sendo executado em um terminal, com ícones de LLMs ao fundo

llms-chatbots|10 min

Function Calling na Prática: Tutorial Python para Chatbots com LLMs que Executam Ações em 2026

Aprenda a implementar function calling em Python com OpenAI, Anthropic Claude e Google Gemini. Tutorial completo com código para integrar APIs, bancos de dad...

9 de junho de 2026Ler mais

Ilustração de uma árvore de decisão digital com galhos de dados e nós de classificação, sobre fundo azul escuro com partículas de luz.

machine-learning|10 min

Árvore de Decisão vs Random Forest vs XGBoost: Tutorial Prático de Machine Learning em 2026 (com Código Python e Dados Reais)

Comparação prática entre Árvore de Decisão, Random Forest e XGBoost para classificação em 2026, com implementação passo a passo em Python e análise de perfor...

3 de junho de 2026Ler mais

Comentarios

Para ativar os comentarios, configure seu shortname do Disqus no componente.