120 lines (88 loc) · 4.85 KB

Widely-used Transformer Models

Comprehensive collection of transformer and foundation models for audio, vision, multimodal, and NLP use cases.

Table of Contents

Audio Processing
Computer Vision
Multimodal
Natural Language Processing
Model Selection Guide

Audio Processing

Speech Recognition and Classification

Whisper - Multilingual speech recognition
Moonshine - Automatic speech recognition
Wav2Vec2 - Keyword spotting

Audio Generation and Synthesis

Moshi - Speech-to-speech generation
MusicGen - Text-to-audio generation
Bark - Text-to-speech synthesis

Computer Vision

Image Understanding

SAM - Automatic mask generation
DepthPro - Depth estimation
DINO v2 - Image classification

Object Detection and Recognition

SuperGlue Outdoor - Keypoint detection
SuperGlue - Keypoint matching
RT-DETRv2 - Object detection

Pose and Segmentation

VitPose - Pose estimation
OneFormer - Universal segmentation
VideoMAE - Video classification

Multimodal

Audio-Text Integration

Qwen2-Audio - Audio and text to text
LayoutLMv3 - Document understanding

Image-Text Processing

Qwen-VL - Image and text to text
BLIP-2 - Image captioning
GOT-OCR2 - OCR document understanding

Advanced Multimodal

TAPAS - Table question answering
Emu3 - Unified multimodal understanding
MiniCPM-o - Omni multimodal model from OpenBMB
Llava-OneVision - Vision to text
Llava - Visual question answering
Kosmos-2 - Visual referring expression

Natural Language Processing

Text Understanding

ModernBERT - Masked word completion
Gemma - Named entity recognition
Mixtral - Question answering

Text Generation and Processing

BART - Summarization
T5 - Translation
Llama - Text generation
Qwen - Text classification
Megatron-LM - Large-scale transformer training framework by NVIDIA

Model Selection Guide

Task Type	Recommended Models	Typical Use Case
Speech Recognition	Whisper, Moonshine	Multilingual transcription
Image Understanding	SAM, DINO v2	Visual analysis
Multimodal Tasks	Qwen-VL, Llava, MiniCPM-o	Cross-modal reasoning
Text Processing	BART, T5, Qwen	Language tasks
Audio Generation	MusicGen, Bark	Audio synthesis

Related Resources

STT Models - Speech-to-text recognition
TTS Models - Text-to-speech synthesis
Text-to-Image - Image generation
GenAI APIs - API access to models

Best Practices

Model Selection

Choose task-specific models first.
Check resource constraints early.
Verify licensing for your deployment.
Prefer models with active maintenance.

Performance Optimization

Use quantization for lower cost inference.
Batch requests for better throughput.
Cache repeated prompts and embeddings.
Use GPU acceleration when available.