Aprendizado de Máquina I (Machine Learning)

August 11, 2025 December 5, 2025

IMPA Tech

undergraduate

Este curso é uma introdução prática e conceitual ao aprendizado de máquina. Vamos estudar os principais métodos supervisionados e não supervisionados, como regressão, árvores de decisão, random forests, boosting, PCA e agrupamentos. Os alunos aprenderão a avaliar modelos, evitar overfitting, reduzir dimensionalidade e tomar decisões baseadas em evidências estatísticas. As aulas combinam teoria com prática em Python, usando dados reais para resolver problemas do mundo real.

Neste curso, você vai aprender a usar modelos como regressão, árvores de decisão, random forests, e muito mais para resolver problemas reais com dados. Vamos falar sobre como avaliar modelos, evitar overfitting, escolher a melhor abordagem para cada situação e entender bem o que está por trás de cada algoritmo.
Além da parte teórica, você vai colocar a mão na massa com Python, trabalhar com dados de verdade, e aprender a interpretar e comunicar os resultados de forma clara. O objetivo é te dar as ferramentas e o raciocínio crítico para aplicar aprendizado de máquina de forma consciente e eficiente.

Livro-texto

Neste curso usaremos o livro: Introduction to Statistical Learning (with Python)

Tópicos do Curso:

Introdução ao Aprendizado Estatístico
- O que é aprendizado de máquina
- Tipos de aprendizado: supervisionado vs. não supervisionado
- Aplicações e conceitos fundamentais (ex.: erro de teste, overfitting)
Revisão de Estatística e Inferência
- Intervalos de confiança, testes de hipótese
- Correlação, variância, viés
Regressão Linear
- Modelo linear simples e múltiplo
- Interpretação dos coeficientes
- Diagnóstico e avaliação do modelo
Classificação
- Regressão logística
- K-vizinhos mais próximos (KNN)
- Métricas de performance: acurácia, sensibilidade, especificidade
Resampling Methods
- Validação cruzada
- Bootstrap
Seleção de Modelos e Regularização
- Subconjuntos, forward/backward stepwise selection
- Ridge e Lasso
Modelos não lineares
- Polinômios e splines
- Generalized Additive Models (GAM)
Árvores de Decisão e Métodos de Ensemble
- Árvores de regressão e classificação
- Random forests
- Boosting
Redução de Dimensionalidade
- Análise de Componentes Principais (PCA)
- Comparação com regressão PLS
Métodos não supervisionados

K-means
Agrupamento hierárquico
Métricas de qualidade de agrupamento

Deep Learning (introdução)

Redes neurais básicas
Backpropagation
Overfitting e regularização

Análise de Dados com Múltiplas Classes

Classificação com mais de duas classes
One-vs-rest, softmax

Habilidades

Ao fim deste curso o aluno será capaz de:
1. Compreensão Conceitual

Entender e aplicar os fundamentos do aprendizado supervisionado e não supervisionado.
Explicar o trade-off entre viés e variância.
Avaliar modelos com métricas apropriadas (erro de teste, acurácia, sensibilidade, etc.).

2. Modelagem Estatística

Aplicar e interpretar regressão linear e logística para problemas de predição.
Aplicar e interpretar árvores de decisão, random forests e boosting.
Entender o conceito de overfitting e propor o uso de técnicas para evita-lo.

3. Validação e Seleção de Modelos

Implementar validação cruzada e bootstrap para estimar desempenho de modelos.
Comparar modelos com base em critérios estatisticos.

4. Técnicas Avançadas

Aplicar PCA e outras técnicas de redução de dimensionalidade.
Realizar agrupamento com métodos como k-means e agrupamento hierárquico.
Aplicar e interpretar métricas de qualidade de agrupamento.

5. Implementação Prática

Utilizar Python e suas bibliotecas para implementar algoritmos de aprendizado de máquina.
Interpretar saídas de modelos e comunicar resultados de forma clara.
Trabalhar com conjuntos de dados reais, realizando pré-processamento, modelagem e avaliação.

6. Raciocínio Crítico

Escolher o modelo apropriado para diferentes tipos de problemas.
Diagnosticar problemas de modelagem (como multicolinearidade, variância alta, etc.).
Justificar decisões de modelagem com base em evidências estatísticas.