Skip to content

neemiasbsilva/MLLMs-Teoria-e-Pratica

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

23 Commits
 
 
 
 
 
 

Repository files navigation

Grandes Modelos de Linguagem Multimodais (MLLMs): Da Teoria à Prática

PyTorch Hugging Face LangGraph

Sobre o Evento (WebMedia 2025)

Realizado anualmente pela Sociedade Brasileira de Computação (SBC), o Simpósio Brasileiro de Sistemas Multimodais e Web (WebMedia) é o principal evento do tema no Brasil e uma excelente oportunidade de intercâmbios científico e técnico entre alunos, pesquisadores e profissionais das áreas de Multimídia, Hipermídia e Web.

Em 2025, especialmente, estaremos celebrando a 31ª edição do WebMedia, com organização da Pontifícia Universidade Católica do Rio de Janeiro (PUC-Rio) e do Instituto Militar de Engenharia (IME).


Este repositório contém os notebooks desenvolvidos como exemplos práticos para o minicurso "MLLMs: Teoria e Prática", apresentado durante o WebMedia 2025 na PUC-RIO.

O objetivo é fornecer guias práticos sobre como aplicar Modelos de Linguagem Multimodais (MLLMs) em diferentes tarefas, como classificação de sentimentos e fine-tuning.

Como Executar

Todos os notebooks foram desenvolvidos para execução direta na plataforma Google Colab. Basta clicar no emblema "Open in Colab" correspondente ao caso de uso que você deseja explorar.

Notebooks Práticos

1. Classificação de Sentimentos com DeepseekVL

Open In Colab

  • Arquivo: use-cases/Classify_Sentiment_DeepseekVL.ipynb
  • Descrição: Um tutorial sobre o uso de MLLMs para inferência de sentimentos em imagens. Aborda a configuração do ambiente, carregamento do modelo (DeepseekVL), inicialização do tokenizer, e testes de inferência (única e em batch).

Classificação de Sentimentos

2. Fine-tuning de MLLMs com ModernBERT

Open In Colab

  • Arquivo: use-cases/FineTuning_ModernBERT.ipynb
  • Descrição: Um guia para o processo de fine-tuning de MLLMs (usando o modelo ModernBERT) para a tarefa de classificação de sentimento. Cobre a criação de arquivos de configuração, preparação de dados, setup do modelo e a execução do treinamento.

3. Identificação de Objetos (Adaptação de Prompt)

Open In Colab

  • Arquivo: use-cases/IdentifyFeatures.ipynb
  • Descrição: Este notebook introduz uma simples adaptação da tarefa de classificação para a identificação de objetos. A diferença principal está na estruturação do prompt, que busca obter uma saída estruturada para facilitar o processamento.

Crédito: Imagem de Sebastian Raschka

4. RAG com LangGraph

Open In Colab

  • Arquivo: use-cases/agent_rag_langgraph.ipynb
  • Descrição: Um notebook demonstrando a implementação de um pipeline de RAG (Retrieval-Augmented Generation) utilizando a biblioteca LangGraph para orquestrar o fluxo de dados e estados.

Pipeline RAG com LangGraph


Paper e Citação

Caso faça uso deste trabalho, por favor cite o paper:

@misc{dasilva2026grandesmodeloslinguagemmultimodais,
      title={Grandes Modelos de Linguagem Multimodais (MLLMs): Da Teoria \`a Pr\'atica}, 
      author={Neemias da Silva and Júlio C. W. Scholz and John Harrison and Marina Borges and Paulo Ávila and Frances A Santos and Myriam Delgado and Rodrigo Minetto and Thiago H Silva},
      year={2026},
      eprint={2602.12302},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2602.12302}, 
}

About

Explore the fundamentals of MLLMs and emblematic models. This repository covers practical techniques for preprocessing, prompt engineering, and building multimodal pipelines using LangChain and LangGraph, alongside future trends and challenges in AI.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors