Aprendizado de Máquina I (Machine Learning)

August 11, 2025 December 5, 2025

IMPA Tech

undergraduate

Este curso é uma introdução prática e conceitual ao aprendizado de máquina. Vamos estudar os principais métodos supervisionados e não supervisionados, como regressão, árvores de decisão, random forests, boosting, PCA e agrupamentos. Os alunos aprenderão a avaliar modelos, evitar overfitting, reduzir dimensionalidade e tomar decisões baseadas em evidências estatísticas. As aulas combinam teoria com prática em Python, usando dados reais para resolver problemas do mundo real.

Neste curso, você vai aprender a usar modelos como regressão, árvores de decisão, random forests, e muito mais para resolver problemas reais com dados. Vamos falar sobre como avaliar modelos, evitar overfitting, escolher a melhor abordagem para cada situação e entender bem o que está por trás de cada algoritmo.
Além da parte teórica, você vai colocar a mão na massa com Python, trabalhar com dados de verdade, e aprender a interpretar e comunicar os resultados de forma clara. O objetivo é te dar as ferramentas e o raciocínio crítico para aplicar aprendizado de máquina de forma consciente e eficiente.

Livro-texto


Neste curso usaremos o livro: Introduction to Statistical Learning (with Python)

Tópicos do Curso:



  1. Introdução ao Aprendizado Estatístico
    • O que é aprendizado de máquina
    • Tipos de aprendizado: supervisionado vs. não supervisionado
    • Aplicações e conceitos fundamentais (ex.: erro de teste, overfitting)
  2. Revisão de Estatística e Inferência
    • Intervalos de confiança, testes de hipótese
    • Correlação, variância, viés
  3. Regressão Linear
    • Modelo linear simples e múltiplo
    • Interpretação dos coeficientes
    • Diagnóstico e avaliação do modelo
  4. Classificação
    • Regressão logística
    • K-vizinhos mais próximos (KNN)
    • Métricas de performance: acurácia, sensibilidade, especificidade
  5. Resampling Methods
    • Validação cruzada
    • Bootstrap
  6. Seleção de Modelos e Regularização
    • Subconjuntos, forward/backward stepwise selection
    • Ridge e Lasso
  7. Modelos não lineares
    • Polinômios e splines
    • Generalized Additive Models (GAM)
  8. Árvores de Decisão e Métodos de Ensemble
    • Árvores de regressão e classificação
    • Random forests
    • Boosting
  9. Redução de Dimensionalidade
    • Análise de Componentes Principais (PCA)
    • Comparação com regressão PLS
  10. Métodos não supervisionados
  • K-means
  • Agrupamento hierárquico
  • Métricas de qualidade de agrupamento
  1. Deep Learning (introdução)
  • Redes neurais básicas
  • Backpropagation
  • Overfitting e regularização
  1. Análise de Dados com Múltiplas Classes
  • Classificação com mais de duas classes
  • One-vs-rest, softmax


Habilidades


Ao fim deste curso o aluno será capaz de:
1. Compreensão Conceitual
  • Entender e aplicar os fundamentos do aprendizado supervisionado e não supervisionado.
  • Explicar o trade-off entre viés e variância.
  • Avaliar modelos com métricas apropriadas (erro de teste, acurácia, sensibilidade, etc.).
2. Modelagem Estatística
  • Aplicar e interpretar regressão linear e logística para problemas de predição.
  • Aplicar e interpretar árvores de decisão, random forests e boosting.
  • Entender o conceito de overfitting e propor o uso de técnicas para evita-lo.
3. Validação e Seleção de Modelos
  • Implementar validação cruzada e bootstrap para estimar desempenho de modelos.
  • Comparar modelos com base em critérios estatisticos.
4. Técnicas Avançadas
  • Aplicar PCA e outras técnicas de redução de dimensionalidade.
  • Realizar agrupamento com métodos como k-means e agrupamento hierárquico.
  • Aplicar e interpretar métricas de  qualidade de agrupamento. 
5. Implementação Prática
  • Utilizar Python e suas bibliotecas para implementar algoritmos de aprendizado de máquina.
  • Interpretar saídas de modelos e comunicar resultados de forma clara.
  • Trabalhar com conjuntos de dados reais, realizando pré-processamento, modelagem e avaliação.
6. Raciocínio Crítico
  • Escolher o modelo apropriado para diferentes tipos de problemas.
  • Diagnosticar problemas de modelagem (como multicolinearidade, variância alta, etc.).
  • Justificar decisões de modelagem com base em evidências estatísticas.