diff --git a/.github/workflows/ci.yaml b/.github/workflows/ci.yaml
index 912ddaf5..05ce1621 100644
--- a/.github/workflows/ci.yaml
+++ b/.github/workflows/ci.yaml
@@ -27,6 +27,7 @@ jobs:
 
       - name: Install dependencies
         run: |
+          sudo apt install libjpeg-dev
           pip install "torch>=2.2.2"
           pip install pybind11
           FLASH_ATTENTION_SKIP_CUDA_BUILD=TRUE FLASH_ATTENTION_FORCE_BUILD=TRUE MAMBA_SKIP_CUDA_BUILD=TRUE MAMBA_FORCE_BUILD=TRUE CAUSAL_CONV1D_FORCE_BUILD=TRUE CAUSAL_CONV1D_SKIP_CUDA_BUILD=TRUE pip install --no-build-isolation -e ".[CORE,OPTIONAL,DEV,DOCS]"
diff --git a/.github/workflows/docs.yaml b/.github/workflows/docs.yaml
index 93191972..e8cb56d8 100644
--- a/.github/workflows/docs.yaml
+++ b/.github/workflows/docs.yaml
@@ -29,6 +29,7 @@ jobs:
           restore-keys: |
             mkdocs-material-
       - run: |
+          sudo apt install libjpeg-dev
           pip install "torch>=2.2.2"
           pip install pybind11
           FLASH_ATTENTION_SKIP_CUDA_BUILD=TRUE FLASH_ATTENTION_FORCE_BUILD=TRUE MAMBA_SKIP_CUDA_BUILD=TRUE \
@@ -56,6 +57,7 @@ jobs:
           restore-keys: |
             mkdocs-material-
       - run: |
+          sudo apt install libjpeg-dev
           pip install "torch>=2.2.2"
           pip install pybind11
           FLASH_ATTENTION_SKIP_CUDA_BUILD=TRUE FLASH_ATTENTION_FORCE_BUILD=TRUE MAMBA_SKIP_CUDA_BUILD=TRUE \
diff --git a/fast_llm/data/data/gpt/data.py b/fast_llm/data/data/gpt/data.py
index c6fece9d..7c4a1a11 100644
--- a/fast_llm/data/data/gpt/data.py
+++ b/fast_llm/data/data/gpt/data.py
@@ -32,6 +32,8 @@ class GPTBatch:
     token_ids: torch.Tensor
     loss_masking_spans: list[torch.Tensor] | None = None
     sequence_lengths: list[torch.Tensor] | None = None
+    images: list[torch.Tensor] | None = None
+    image_positions: list[torch.Tensor] | None = None
     chosen_spans: list[torch.Tensor] | None = None
     rejected_spans: list[torch.Tensor] | None = None
 
@@ -49,12 +51,28 @@ def gpt_data_collate_fn(batch: list[GPTSample], sampling_parameters: GPTSampling
         stacked_rejected_spans = [torch.from_numpy(sample.rejected_span) for sample in batch]
     if not sampling_parameters.cross_document_attention:
         sequence_lengths = [torch.tensor(sample.sequence_lengths) for sample in batch]
+    has_images = False
+    batch_images = []
+    for sample in batch:
+        if sample.images is not None:
+            batch_images.append([torch.from_numpy(image) for image in sample.images])
+            has_images = True
+        else:
+            batch_images.append([])
+    batch_image_positions = []
+    for sample in batch:
+        if sample.image_positions is not None:
+            batch_image_positions.append(torch.from_numpy(sample.image_positions))
+        else:
+            batch_image_positions.append([])
     return GPTBatch(
         token_ids=torch.from_numpy(stacked_ids),
         loss_masking_spans=stacked_spans,
         sequence_lengths=sequence_lengths,
         chosen_spans=stacked_chosen_spans,
         rejected_spans=stacked_rejected_spans,
+        images=batch_images if has_images else None,
+        image_positions=batch_image_positions if has_images else None,
     )
 
 
diff --git a/fast_llm/data/dataset/gpt/config.py b/fast_llm/data/dataset/gpt/config.py
index ae87e0e7..250bfcb0 100644
--- a/fast_llm/data/dataset/gpt/config.py
+++ b/fast_llm/data/dataset/gpt/config.py
@@ -75,6 +75,10 @@ class GPTSamplingParameters(SamplingParameters):
     use_loss_masking_spans: bool = False
     use_preference_loss_spans: bool = False
     cross_document_attention: bool = True
+    patch_size: int | None = None
+    max_image_size: int | None = None
+    image_break_token: int | None = None
+    image_end_token: int | None = None
     # How many extra tokens to add to the sequence length.
     # This is used to provide labels even for the last tokens in the sequence.
     extra_tokens: int = 1
@@ -142,11 +146,18 @@ class GPTMemmapDatasetConfig(GPTIndexedDatasetConfig):
         desc="Expected number of tokens in the dataset.",
         hint=FieldHint.optional,
     )
+    num_pixels: int | None = Field(
+        default=None,
+        desc="Expected number of pixels in the dataset.",
+        hint=FieldHint.optional,
+    )
 
     def build(self) -> "GPTMemmapDataset":
         from fast_llm.data.dataset.gpt.memmap import GPTMemmapDataset
 
-        return GPTMemmapDataset(str(self.path).replace("/", "__"), self.path, self.num_documents, self.num_tokens)
+        return GPTMemmapDataset(
+            str(self.path).replace("/", "__"), self.path, self.num_documents, self.num_tokens, self.num_pixels
+        )
 
 
 @config_class(dynamic_type={GPTSampledDatasetConfig: "concatenated"})
diff --git a/fast_llm/data/dataset/gpt/indexed.py b/fast_llm/data/dataset/gpt/indexed.py
index 688ea6a7..2c7aefc8 100644
--- a/fast_llm/data/dataset/gpt/indexed.py
+++ b/fast_llm/data/dataset/gpt/indexed.py
@@ -34,6 +34,14 @@ def sample(self, sampling: GPTSamplingData) -> "GPTSampledIndexedDataset":
             else GPTSampledIndexedDataset(self, sampling)
         )
 
+    @property
+    @abc.abstractmethod
+    def has_images(self) -> bool:
+        """
+        Whether the dataset contains images.
+        This is used to determine whether to use image-related fields in the sampled data.
+        """
+
 
 class GPTDatasetSlice[IndexedDatasetType: GPTIndexedDataset](DatasetSlice[IndexedDatasetType], GPTIndexedDataset):
     """
@@ -44,11 +52,16 @@ class GPTDatasetSlice[IndexedDatasetType: GPTIndexedDataset](DatasetSlice[Indexe
 
     def get_document_sizes(self) -> np.ndarray:
         # TODO: This can be really big.
-        return self._dataset.get_document_sizes()[self._begin : self._end]
+        doc_sizes, im_sizes = self._dataset.get_document_sizes()
+        return doc_sizes[self._begin : self._end], im_sizes[self._begin : self._end] if im_sizes else []
 
     def get_document_size(self, index: int) -> int:
         return self._dataset.get_document_size(self._begin + index)
 
+    @property
+    def has_images(self) -> bool:
+        return self._dataset.has_images
+
 
 class GPTConcatenatedDataset[IndexedDatasetType: GPTIndexedDataset](
     ConcatenatedDataset[IndexedDatasetType], GPTIndexedDataset
diff --git a/fast_llm/data/dataset/gpt/memmap.py b/fast_llm/data/dataset/gpt/memmap.py
index f39fd56f..c7a99f10 100644
--- a/fast_llm/data/dataset/gpt/memmap.py
+++ b/fast_llm/data/dataset/gpt/memmap.py
@@ -1,8 +1,10 @@
+import io
 import pathlib
 import struct
 import typing
 
 import numpy as np
+import PIL.Image
 
 from fast_llm.data.dataset.gpt.indexed import GPTIndexedDataset
 from fast_llm.data.dataset.gpt.sampled import GPTSample
@@ -26,25 +28,37 @@ def __init__(
         prefix: pathlib.Path | str,
         num_documents: int | None = None,
         num_tokens: int | None = None,
+        num_pixels: int | None = None,
     ):
-        self._init(name, prefix, num_documents, num_tokens)
+        self._init(name, prefix, num_documents, num_tokens, num_pixels)
 
-    def _init(self, name: str, prefix: pathlib.Path | str, num_documents: int | None, num_tokens: int | None) -> None:
+    def _init(
+        self,
+        name: str,
+        prefix: pathlib.Path | str,
+        num_documents: int | None,
+        num_tokens: int | None,
+        num_pixels: int | None,
+    ) -> None:
         super().__init__()
         self._name = name
         self._prefix = pathlib.Path(prefix)
         self._has_spans = 0
+        self._has_images = 0
         self._has_preference_spans = False
 
         with self._prefix.with_suffix(".idx").open("rb") as stream:
             Assert.eq(stream.read(9), MEMMAP_INDEX_HEADER, msg=f"File: {stream.name}")
             self._version = struct.unpack("<Q", stream.read(8))[0]
-            assert self._version in [1, 2, 3], f"Unsupported version for gpt_memmap dataset: {self._version}."
+            assert self._version in [1, 2, 3, 4], f"Unsupported version for gpt_memmap dataset: {self._version}."
             if self._version >= 2:
                 self._has_spans = struct.unpack("<B", stream.read(1))[0]
             if self._version >= 3:
                 self._has_preference_spans = struct.unpack("<B", stream.read(1))[0]
 
+            if self._version >= 4:
+                self._has_images = struct.unpack("<B", stream.read(1))[0]
+
             self._dtype = MEMMAP_DTYPES[struct.unpack("<B", stream.read(1))[0]].numpy
             self._num_documents = struct.unpack("<Q", stream.read(8))[0]
             _ = struct.unpack("<Q", stream.read(8))[0]
@@ -69,6 +83,7 @@ def _init(self, name: str, prefix: pathlib.Path | str, num_documents: int | None
             offset=offset + self._document_sizes.nbytes,
         )
 
+        offset += self._document_sizes.nbytes + self._pointers.nbytes
         # read spans
         self._spans = None
         if self._has_spans and self._version >= 2:
@@ -77,9 +92,8 @@ def _init(self, name: str, prefix: pathlib.Path | str, num_documents: int | None
                 self._index_bin_buffer,
                 dtype=np.int32,
                 count=self._num_documents,
-                offset=offset + self._document_sizes.nbytes + self._pointers.nbytes,
+                offset=offset,
             )
-            span_offset = offset + self._document_sizes.nbytes + self._pointers.nbytes + self._num_spans.nbytes
             self._num_spans_cumsum = np.r_[0, np.cumsum(self._num_spans[:-1], dtype=np.int64)]
             for idx in range(self._num_documents):
                 self._spans.append(
@@ -87,30 +101,29 @@ def _init(self, name: str, prefix: pathlib.Path | str, num_documents: int | None
                         self._index_bin_buffer,
                         dtype=np.int32,
                         count=self._num_spans[idx] * 2,
-                        offset=span_offset + self._num_spans_cumsum[idx] * 2 * np.dtype(np.int32).itemsize,
+                        offset=offset
+                        + self._num_spans.nbytes
+                        + self._num_spans_cumsum[idx] * 2 * np.dtype(np.int32).itemsize,
                     ).reshape(-1, 2)
                 )
-
+            offset += self._num_spans.nbytes + self._num_spans.sum() * 2 * np.dtype(np.int32).itemsize
         # read preference spans
         self._chosen_spans = None
         self._rejected_spans = None
         if self._has_preference_spans and self._version >= 3:
             self._chosen_spans = []
             self._rejected_spans = []
-            chosen_span_offset = offset + self._document_sizes.nbytes + self._pointers.nbytes
             for idx in range(self._num_documents):
                 self._chosen_spans.append(
                     np.frombuffer(
                         self._index_bin_buffer,
                         dtype=np.int32,
                         count=2,
-                        offset=chosen_span_offset + idx * 2 * np.dtype(np.int32).itemsize,
+                        offset=offset + idx * 2 * np.dtype(np.int32).itemsize,
                     )
                 )
 
-            rejected_span_offset = (
-                offset + self._document_sizes.nbytes + self._pointers.nbytes + np.array(self._chosen_spans).nbytes
-            )
+            rejected_span_offset = offset + np.array(self._chosen_spans).nbytes
             for idx in range(self._num_documents):
                 self._rejected_spans.append(
                     np.frombuffer(
@@ -120,16 +133,53 @@ def _init(self, name: str, prefix: pathlib.Path | str, num_documents: int | None
                         offset=rejected_span_offset + idx * 2 * np.dtype(np.int32).itemsize,
                     )
                 )
+            offset += np.array(self._chosen_spans).nbytes + np.array(self._rejected_spans).nbytes
+
+        self._num_pixels = 0
+        self._image_sizes = None
+        self._image_positions = None
+        if self._has_images and self._version >= 4:
+            self._n_images = np.frombuffer(
+                self._index_bin_buffer, dtype=np.int32, count=self._num_documents, offset=offset
+            )
+            self._image_sizes = []
+            self._image_positions = []
+            images_seen = 0
+            num_total_images = self._n_images.sum()
+            for n_images in self._n_images:
+                self._image_sizes.append(
+                    np.frombuffer(
+                        self._index_bin_buffer,
+                        dtype=np.int32,
+                        count=n_images * 2,
+                        offset=offset + self._n_images.nbytes + 2 * images_seen * np.dtype(np.int32).itemsize,
+                    ).reshape(-1, 2)
+                )
+                self._num_pixels += self._image_sizes[-1].prod(axis=1, initial=3).sum()
+                self._image_positions.append(
+                    np.frombuffer(
+                        self._index_bin_buffer,
+                        dtype=np.int32,
+                        count=n_images,
+                        offset=offset
+                        + self._n_images.nbytes
+                        + 2 * num_total_images * np.dtype(np.int32).itemsize
+                        + +images_seen * np.dtype(np.int32).itemsize,
+                    )
+                )
+                images_seen += n_images
 
         self._bin_buffer_mmap = np.memmap(self._prefix.with_suffix(".bin"), mode="r", order="C")
         self._bin_buffer = memoryview(self._bin_buffer_mmap)
 
-        self._num_tokens = div(self._bin_buffer_mmap.size, np.dtype(self._dtype).itemsize)
+        self._num_tokens = div(self._bin_buffer_mmap.size - self._num_pixels, np.dtype(self._dtype).itemsize)
+        if num_pixels is not None:
+            assert self._num_pixels == num_pixels
         if num_tokens is not None:
             assert self._num_tokens == num_tokens
 
     def __getstate__(self) -> tuple[str, pathlib.Path, int | None, int | None]:
-        return (self._name, self._prefix, self._num_documents, self._num_tokens)
+        return (self._name, self._prefix, self._num_documents, self._num_tokens, self._num_pixels)
 
     def __setstate__(self, state: tuple[str, pathlib.Path, int | None, int | None]):
         self._init(*state)
@@ -156,6 +206,24 @@ def get(
             count=self._document_sizes[idx] - offset if length is None else length,
             offset=self._pointers[idx] + offset * np.dtype(self._dtype).itemsize,
         )
+        images = None
+        image_positions = None
+        if self._has_images:
+            image_positions = self._image_positions[idx]
+
+            # Truncations with images are not yet supported, so we get all images from the document
+            pixels = np.frombuffer(
+                self._bin_buffer,
+                dtype=np.dtype(np.uint8),
+                count=self._image_sizes[idx].prod(initial=3, axis=1).sum(),
+                offset=self._pointers[idx] + self._document_sizes[idx] * np.dtype(self._dtype).itemsize,
+            )
+            images = []
+            start = 0
+            for image_size in self._image_sizes[idx]:
+                n_pixels = image_size.prod(initial=3)
+                images.append(pixels[start : start + n_pixels].reshape(3, image_size[0], image_size[1]))
+                start += n_pixels
         sample_spans = None
         if use_loss_masking_spans and self._spans is not None:
             sample_spans = self._spans[idx]
@@ -202,6 +270,8 @@ def get(
 
         return GPTSample(
             token_ids=token_ids,
+            images=images,
+            image_positions=image_positions,
             loss_masking_spans=sample_spans,
             chosen_span=chosen_span,
             rejected_span=rejected_span,
@@ -218,23 +288,31 @@ def __len__(self) -> int:
     def num_tokens(self) -> int:
         return self._num_tokens
 
-    def get_document_sizes(self) -> np.ndarray:
+    @property
+    def has_images(self) -> bool:
+        return self._has_images
+
+    def get_document_sizes(self) -> tuple[np.ndarray, np.ndarray]:
         """
         The size of each document in the dataset.
         The resulting array could be very large, so this method should be called cautiously,
         and derived classes should try to avoid holding the whole array im memory.
         """
-        return self._document_sizes
+        return self._document_sizes, self._image_sizes
 
     def get_document_size(self, index: int) -> int:
-        return self._document_sizes[index].item()
+        return self._document_sizes[index].item(), self._image_sizes[index] if self._has_images else []
 
     @classmethod
     def write_dataset(cls, prefix: pathlib.Path | str, documents: typing.Iterable[GPTSample]):
         # Initialize metadata
         dtype = None
         num_documents = 0
-        lengths = []
+        doc_lengths = []
+        n_images = []
+        image_sizes = []
+        im_positions = []
+        total_images = 0
         pointers = []
         offset = 0
         # number of spans for each document
@@ -259,10 +337,28 @@ def write_dataset(cls, prefix: pathlib.Path | str, documents: typing.Iterable[GP
 
                 # Write document to binary file
                 bin_stream.write(document.token_ids.tobytes(order="C"))
+                total_im_size = 0
+                if document.images:
+                    n_images.append(len(document.images))
+                    total_images += len(document.images)
+                    for image in document.images:
+                        # assume 3 channels (RGB) for all images
+                        with PIL.Image.open(io.BytesIO(image["bytes"])) as img:
+                            if img.mode != "RGB":
+                                # Convert all images to RGB
+                                img = img.convert("RGB")
+                            pixels = np.array(img).transpose(2, 0, 1)  # HWC to CHW
+                            assert pixels.dtype == np.uint8, f"Expected uint8 pixels, got {pixels.dtype}."
+                        image_sizes.append(np.array(pixels.shape[1:]))
+                        bin_stream.write(pixels.tobytes(order="C"))
+                        total_im_size += pixels.size
+                    im_positions.extend(document.image_positions)
+                else:
+                    n_images.append(0)
 
                 # Update metadata
                 doc_length = len(document.token_ids)
-                lengths.append(doc_length)
+                doc_lengths.append(doc_length)
                 pointers.append(offset)
                 if document.loss_masking_spans is not None:
                     num_spans.append(len(document.loss_masking_spans))
@@ -271,11 +367,11 @@ def write_dataset(cls, prefix: pathlib.Path | str, documents: typing.Iterable[GP
                     chosen_spans.append(document.chosen_span)
                 if document.rejected_span is not None:
                     rejected_spans.append(document.rejected_span)
-                offset += doc_length * np.dtype(dtype).itemsize
+                offset += doc_length * np.dtype(dtype).itemsize + total_im_size * np.dtype(np.uint8).itemsize
                 num_documents += 1
 
         # Finalize metadata arrays
-        lengths = np.array(lengths, dtype=np.int32)
+        doc_lengths = np.array(doc_lengths, dtype=np.int32)
         pointers = np.array(pointers, dtype=np.int64)
         num_spans = np.array(num_spans, dtype=np.int32)
         if len(spans) > 0:
@@ -285,25 +381,37 @@ def write_dataset(cls, prefix: pathlib.Path | str, documents: typing.Iterable[GP
         chosen_spans = np.array(chosen_spans, dtype=np.int32).reshape(-1, 2)
         rejected_spans = np.array(rejected_spans, dtype=np.int32).reshape(-1, 2)
 
+        if total_images:
+            n_images = np.array(n_images, dtype=np.int32)
+            image_sizes = np.stack(image_sizes, dtype=np.int32)
+            im_positions = np.array(im_positions, dtype=np.int32)
+        else:
+            n_images = np.array([])
+            image_sizes = np.array([])
+            im_positions = np.array([])
+
         # Write the index file (.idx)
         with prefix.with_suffix(".idx").open("wb") as idx_stream:
             idx_stream.write(MEMMAP_INDEX_HEADER)
             # Indicates the version
-            # Version 2 optionally adds loss-masking spans
+            # Version 2 onwards optionally add loss-masking spans
             # Version 3 optionally adds chosen/rejected spans
-            idx_stream.write(struct.pack("<Q", 3))
+            # Version 4 onwards optionally add images
+            idx_stream.write(struct.pack("<Q", 4))
             # Flag to indicate whether loss-masking spans are present
             idx_stream.write(struct.pack("<B", 1 if spans.size > 0 else 0))
             # Flag to indicate whether preference loss-masking spans are present
             idx_stream.write(struct.pack("<B", 1 if chosen_spans.size > 0 and rejected_spans.size > 0 else 0))
+            # Flag to indicate whether images are present
+            idx_stream.write(struct.pack("<B", 1 if total_images > 0 else 0))
             # Data type
             idx_stream.write(struct.pack("<B", MEMMAP_DTYPES_INV[DataType.from_numpy(dtype.type)]))
             # "Number of sequences", same as documents in our case
             idx_stream.write(struct.pack("<Q", num_documents))
             # "Number of documents", needs a +1 for some reason
             idx_stream.write(struct.pack("<Q", num_documents + 1))
-            # Sequence (document) lengths
-            idx_stream.write(lengths.tobytes(order="C"))
+            # Sequence (document) doc_lengths
+            idx_stream.write(doc_lengths.tobytes(order="C"))
             # Sequence (document) begin offsets in the bin file
             idx_stream.write(pointers.tobytes(order="C"))
             # Number of spans per document
@@ -314,5 +422,11 @@ def write_dataset(cls, prefix: pathlib.Path | str, documents: typing.Iterable[GP
             idx_stream.write(chosen_spans.tobytes(order="C"))
             # Rejected indices for each document
             idx_stream.write(rejected_spans.tobytes(order="C"))
+            # Number of images per document
+            idx_stream.write(n_images.tobytes(order="C"))
+            # n_pixels * 3 per image
+            idx_stream.write(image_sizes.tobytes(order="C"))
+            # Position of each image in the document
+            idx_stream.write(im_positions.tobytes(order="C"))
             # Document indices, unused but needed for compatibility with Megatron-LM
             idx_stream.write(np.arange(num_documents + 1, dtype=np.int64).tobytes(order="C"))
diff --git a/fast_llm/data/dataset/gpt/sampled.py b/fast_llm/data/dataset/gpt/sampled.py
index 8bb5f737..8641ee70 100644
--- a/fast_llm/data/dataset/gpt/sampled.py
+++ b/fast_llm/data/dataset/gpt/sampled.py
@@ -14,7 +14,8 @@
 from fast_llm.data.dataset.gpt.indexed import GPTIndexedDataset
 from fast_llm.engine.config_utils.data_type import DataType, get_unsigned_integer_type
 from fast_llm.engine.config_utils.run import log_main_rank
-from fast_llm.utils import Assert
+from fast_llm.layers.vision_encoder.preprocessing import get_num_image_tokens, get_resize_dims
+from fast_llm.utils import Assert, div
 
 try:
     from fast_llm.csrc.data import build_padded_token_cumsum, build_sample_idx  # noqa
@@ -29,6 +30,8 @@
 @dataclasses.dataclass
 class GPTSample:
     token_ids: np.ndarray
+    images: np.ndarray | None = None
+    image_positions: np.ndarray | None = None
     loss_masking_spans: np.ndarray | None = None
     chosen_span: np.ndarray | None = None
     rejected_span: np.ndarray | None = None
@@ -92,6 +95,11 @@ def __init__(
         self._truncate_documents = sampling.truncate_documents
         self._device = torch.device("cuda" if self._config.gpu else "cpu")
 
+        if self._indexed_dataset.has_images and self._truncate_documents:
+            raise RuntimeError(
+                "Truncating documents with images is not yet supported. Please turn off truncation to use images."
+            )
+
         if sampling.cache_directory is None:
             self._document_shuffling = MemmapArray()
             self._token_cumsum_shuffled = MemmapArray()
@@ -133,9 +141,33 @@ def _sample(self) -> None:
         Create a `GPTSampledDataset` with the requested parameters.
         """
         # Get the document sizes, the main information needed for sampling.
-        document_sizes = torch.from_numpy(self._indexed_dataset.get_document_sizes()).to(self._device)
+        document_sizes, image_sizes = self._indexed_dataset.get_document_sizes()
+        document_sizes = torch.from_numpy(document_sizes).to(self._device)
+        if image_sizes:
+            image_token_sizes = []
+            for i, sizes in enumerate(image_sizes):
+                image_token_sizes.append(
+                    sum(
+                        get_num_image_tokens(
+                            *get_resize_dims(
+                                *size,
+                                self._parameters.max_image_size,
+                                self._parameters.max_image_size,
+                                self._parameters.patch_size,
+                            ),
+                            self._parameters.patch_size,
+                            image_break=self._parameters.image_break_token is not None,
+                            image_end=self._parameters.image_end_token is not None,
+                        )
+                        for size in sizes
+                    )
+                )
+            image_token_sizes = torch.tensor(image_token_sizes).to(self._device)
+        else:
+            image_token_sizes = torch.zeros_like(document_sizes)
+
         documents_per_epoch = document_sizes.numel()
-        tokens_per_epoch = document_sizes.sum().item()
+        tokens_per_epoch = document_sizes.sum().item() + image_token_sizes.sum().item()
 
         # Calculate basic stats.
         if not self._truncate_documents:
@@ -143,14 +175,14 @@ def _sample(self) -> None:
                 "The C++ extension for dataset sampling is missing."
                 " Please make sure Fast-LLM is installed correctly."
             )
-            long_docs_filter = document_sizes > self._parameters.sequence_length + 1
-            ignored_documents = sum(long_docs_filter)
+            long_docs_filter = document_sizes + image_token_sizes > self._parameters.sequence_length + 1
+            ignored_documents = long_docs_filter.sum()
             if ignored_documents:
                 log_main_rank(
                     f" > {ignored_documents}/{documents_per_epoch} documents are longer than {self._parameters.sequence_length+1} tokens and will be ignored.",
                     log_fn=logger.warning,
                 )
-            tokens_per_epoch = document_sizes[~long_docs_filter].sum().item()
+            tokens_per_epoch = (document_sizes[~long_docs_filter] + image_token_sizes[~long_docs_filter]).sum().item()
             if tokens_per_epoch == 0:
                 raise RuntimeError(
                     f" > No documents shorter than {self._parameters.sequence_length+1} tokens found in dataset {self._indexed_dataset.name}."
@@ -193,7 +225,10 @@ def _sample(self) -> None:
             "num_samples": self._parameters.num_samples,
             "unshuffled_epochs": unshuffled_epochs,
             "sequence_length": self._parameters.sequence_length,
+            "patch_size": self._parameters.patch_size,
             "truncate_documents": self._truncate_documents,
+            "image_break_token": self._parameters.image_break_token,
+            "image_end_token": self._parameters.image_end_token,
             "config": self._config.to_dict(),
         }
         if self._truncate_documents:
@@ -201,9 +236,10 @@ def _sample(self) -> None:
 
         if self._yaml_path is not None and self._yaml_path.is_file():
             loaded_yaml_data = yaml.safe_load(self._yaml_path.open("r"))
+            yaml_data["unshuffled_tokens"] = loaded_yaml_data.get("unshuffled_tokens", 0)
             self._load_yaml_data(yaml_data)
-            if not self._truncate_documents and not self._parameters.use_preference_loss_spans:
-                del loaded_yaml_data["unshuffled_tokens"]
+            # if not self._truncate_documents and not self._parameters.use_preference_loss_spans:
+            #     del loaded_yaml_data["unshuffled_tokens"]
 
             if loaded_yaml_data != yaml_data:
                 raise RuntimeError(
@@ -293,7 +329,7 @@ def _sample(self) -> None:
         # Equivalent to `torch.hstack((0, document_sizes[all_document_index].cumsum()[::TOKEN_CUMSUM_RATE]))`
         if unshuffled_epochs > 0:
             token_cumsum_unshuffled, unshuffled_tokens = self._get_token_cumsum(
-                document_sizes,
+                document_sizes + image_token_sizes,
                 offset=0,
                 # TODO: Allowing for max 100% extra tokens for padding, is that enough?
                 dtype=get_unsigned_integer_type((2 - self._truncate_documents) * tokens_per_epoch * num_epochs),
@@ -316,6 +352,9 @@ def _sample(self) -> None:
                     document_shuffling.to(
                         dtype=torch.int64 if document_shuffling.dtype == torch.int64 else torch.int32
                     )
+                ]
+                + image_token_sizes[
+                    document_shuffling.to(torch.int64 if document_shuffling.dtype == torch.int64 else torch.int32)
                 ],
                 offset=self._unshuffled_tokens,
                 # TODO: Allowing for max 100% extra tokens for padding, is that enough?
@@ -441,6 +480,10 @@ def __getitem__(self, index: int) -> typing.Any:
 
         token_ids = []
         loss_masking_spans = []
+        images = []
+        image_positions = []
+        image_tokens_added = 0
+        text_tokens_added = 0
         while token_count < token_end:
             # Find the document index in the dataset.
             if document_sampling_index < self._unshuffled_documents:
@@ -448,7 +491,28 @@ def __getitem__(self, index: int) -> typing.Any:
             else:
                 document_index = self._document_shuffling[document_sampling_index - self._unshuffled_documents].item()
 
-            document_size = self._indexed_dataset.get_document_size(document_index)
+            text_size, image_lengths = self._indexed_dataset.get_document_size(document_index)
+
+            resized_image_lengths = [
+                get_resize_dims(
+                    *image_length,
+                    self._parameters.max_image_size,
+                    self._parameters.max_image_size,
+                    self._parameters.patch_size,
+                )
+                for image_length in image_lengths
+            ]
+            image_sizes = [
+                get_num_image_tokens(
+                    *image_length,
+                    self._parameters.patch_size,
+                    image_break=self._parameters.image_break_token is not None,
+                    image_end=self._parameters.image_end_token is not None,
+                )
+                for image_length in resized_image_lengths
+            ]
+            image_tokens = sum(image_sizes)
+            document_size = text_size + image_tokens
 
             if not self._truncate_documents:
                 if document_size > self._parameters.sequence_length + 1:
@@ -467,27 +531,103 @@ def __getitem__(self, index: int) -> typing.Any:
                     else:
                         # Move on to the next sample.
                         token_count += padding_size
+                        continue
+                elif document_size + tokens_in_sample == self._parameters.sequence_length + 1:
+                    if token_count + document_size == token_start:
+                        token_count += document_size
+                        document_sampling_index += 1
+                        continue
 
             # Determine if the document belongs to the requested sample.
             if token_count + document_size >= token_start:
                 # Determine which part of the document belong to the sample, and add it to the list.
                 token_start_index_in_document = max(token_start - token_count, 0)
-                token_end_index_in_document = min(token_end - token_count, document_size)
+                token_end_index_in_document = min(token_end - token_count, text_size)
                 sample = self._indexed_dataset.get(
                     document_index,
                     offset=token_start_index_in_document,
                     length=token_end_index_in_document - token_start_index_in_document,
                     use_loss_masking_spans=self._parameters.use_loss_masking_spans,
                 )
-                token_ids.append(sample.token_ids)
+                start_pos = 0
+                has_images = sample.image_positions is not None
+                if has_images:
+                    sample_token_ids = []
+                    for idx, im_position in enumerate(sample.image_positions):
+                        # add placeholder masked tokens for images
+                        # if image_break_token is set, it is appended after every row
+                        # if image_end_token is set, it is appended at the end of the image instead  of image_break_token
+                        text_part = sample.token_ids[start_pos:im_position]
+                        if self._parameters.image_break_token is not None:
+                            height, width = resized_image_lengths[idx]
+                            num_patches_h = div(height, self._parameters.patch_size)
+                            num_patches_w = div(width, self._parameters.patch_size)
+                            image_token_array = np.full((image_sizes[idx],), -100, dtype=np.int64)
+                            # account for break tokens after each row
+                            for row in range(num_patches_h - 1):
+                                position = (row + 1) * num_patches_w + row
+                                image_token_array[position] = self._parameters.image_break_token
+                            # handle the last row separately
+                            last_row_position = num_patches_h * num_patches_w + num_patches_h - 1
+                            if self._parameters.image_end_token is not None:
+                                image_token_array[last_row_position] = self._parameters.image_end_token
+                            else:
+                                image_token_array[last_row_position] = self._parameters.image_break_token
+                        else:
+                            image_token_array = np.full((image_sizes[idx],), -100, dtype=np.int64)
+                            if self._parameters.image_end_token is not None:
+                                image_token_array[-1] = self._parameters.image_end_token
+                        sample_token_ids.append(np.concatenate([text_part, image_token_array], dtype=np.int64))
+                        text_tokens_added += len(text_part)
+                        image_positions.append(text_tokens_added + image_tokens_added)
+                        image_tokens_added += image_sizes[idx]
+                        start_pos = im_position
+                    # Add the last text segment after the last image
+                    sample_token_ids.append(sample.token_ids[start_pos:])
+                    text_tokens_added += len(sample_token_ids[-1])
+                    token_ids.append(np.concatenate(sample_token_ids))
+                else:
+                    token_ids.append(sample.token_ids[start_pos:])
+                    text_tokens_added += len(token_ids[-1])
+                if sample.images:
+                    images.append(sample.images)
+                else:
+                    images.append([])
                 if self._parameters.use_loss_masking_spans:
                     for loss_masking_span in sample.loss_masking_spans:
+                        prev_image_tokens = 0
+                        image_idx = 0
+                        image_position = (
+                            sample.image_positions[image_idx]
+                            if has_images and image_idx < len(sample.image_positions)
+                            else float("inf")
+                        )
+                        while image_position < loss_masking_span[0]:
+                            prev_image_tokens += image_sizes[image_idx]
+                            image_idx += 1
+                            image_position = (
+                                sample.image_positions[image_idx]
+                                if has_images and image_idx < len(sample.image_positions)
+                                else float("inf")
+                            )
+                        span_image_tokens = 0
+                        while image_position <= loss_masking_span[1]:
+                            span_image_tokens += image_sizes[image_idx]
+                            image_idx += 1
+                            image_position = (
+                                sample.image_positions[image_idx]
+                                if has_images and image_idx < len(sample.image_positions)
+                                else float("inf")
+                            )
+                        loss_masking_span[0] += prev_image_tokens
+                        loss_masking_span[1] += prev_image_tokens + span_image_tokens
+                        prev_image_tokens += span_image_tokens
                         span = np.clip(
                             loss_masking_span + token_count - token_start,
                             0,
                             self._parameters.sequence_length + self._parameters.extra_tokens,
                         )
-                        if span[1] > span[0]:
+                        if span[1] >= span[0]:
                             loss_masking_spans.append(span)
 
             # Go to the next document.
@@ -505,9 +645,17 @@ def __getitem__(self, index: int) -> typing.Any:
             if self._parameters.use_loss_masking_spans
             else None
         )
+        images = [im for img_list in images for im in img_list] if images else None
+        image_positions = np.array(image_positions) if image_positions else None
         Assert.eq(len(token_ids), self._parameters.sequence_length + self._parameters.extra_tokens)
 
-        return GPTSample(token_ids=token_ids, loss_masking_spans=loss_masking_spans, sequence_lengths=sequence_lengths)
+        return GPTSample(
+            token_ids=token_ids,
+            loss_masking_spans=loss_masking_spans,
+            sequence_lengths=sequence_lengths,
+            images=images,
+            image_positions=image_positions,
+        )
 
     @property
     def name(self) -> str:
@@ -592,7 +740,7 @@ def _sample(self) -> None:
         Create a `GPTSampledDataset` with the requested parameters.
         """
         logger.info(f" > Sampling dataset {self._indexed_dataset.name} ...")
-        document_sizes = self._indexed_dataset.get_document_sizes()
+        document_sizes, _ = self._indexed_dataset.get_document_sizes()
         num_documents = len(document_sizes)
         num_tokens = document_sizes.sum()
         np_rng = np.random.RandomState(seed=self._config.seed)
diff --git a/fast_llm/data/preparator/gpt_memmap/config.py b/fast_llm/data/preparator/gpt_memmap/config.py
index b1b84a0d..5139bcc7 100644
--- a/fast_llm/data/preparator/gpt_memmap/config.py
+++ b/fast_llm/data/preparator/gpt_memmap/config.py
@@ -65,6 +65,12 @@ class GPTHuggingfaceDatasetConfig(Config):
     rejected_text: None | str = Field(
         default=None, desc="Field containing rejected text for preference optimization", hint=FieldHint.optional
     )
+    image_positions: None | str = Field(
+        default=None, desc="Field containing image positions within a document", hint=FieldHint.optional
+    )
+    images: None | str = Field(
+        default=None, desc="Field containing images relevant to a document", hint=FieldHint.optional
+    )
     data_type: DataType | None = Field(
         default=None,
         desc="Data type of the dataset field."
@@ -161,6 +167,11 @@ class GPTMemmapDatasetPreparatorConfig(DatasetPreparatorConfig):
         desc="Configuration for the tokenizer.",
         hint=FieldHint.feature,
     )
+    image_patch_size: int = Field(
+        default=16,
+        desc="Patch size for images. This is used solely for computing the number of tokens in an image to get an even split.",
+        hint=FieldHint.optional,
+    )
     splits: dict[str, float] | None = Field(
         default=None,
         desc="Split the output dataset into multiple ones (ex, train/valid/test) with the specified ratios."
diff --git a/fast_llm/data/preparator/gpt_memmap/prepare.py b/fast_llm/data/preparator/gpt_memmap/prepare.py
index 0cba3aa1..43849857 100644
--- a/fast_llm/data/preparator/gpt_memmap/prepare.py
+++ b/fast_llm/data/preparator/gpt_memmap/prepare.py
@@ -1,3 +1,5 @@
+import io
+import itertools
 import json
 import logging
 import multiprocessing
@@ -8,6 +10,7 @@
 import datasets
 import huggingface_hub
 import numpy as np
+import PIL.Image
 import requests
 import torch.distributed
 import tqdm
@@ -38,40 +41,48 @@ class GPTMemmapDatasetPreparator[ConfigType: GPTMemmapDatasetPreparatorConfig](D
     _tokenizer: Tokenizer
     _data_type: DataType
 
-    def _tokenize_batch(self, batch: dict[str, list[typing.Any]]) -> dict[str, list[typing.Any]]:
-        input_ids = [
-            np.array(self._tokenizer.tokenize(text), dtype=self._data_type.numpy)
-            for text in batch[self._config.dataset.field]
-        ]
-        num_tokens = [len(x) for x in input_ids]
-        return {
-            "input_ids": input_ids,
-            "num_tokens": num_tokens,
-        }
+    def _process_batch(self, batch: dict[str, list[typing.Any]]) -> dict[str, list[typing.Any]]:
+        pass
 
-    def _tokenize_batch_with_spans(self, batch: dict[str, list[typing.Any]]) -> dict[str, list[typing.Any]]:
-        input_ids, token_spans = map(
+    def _tokenize_batch(self, batch: dict[str, list[typing.Any]]) -> dict[str, list[typing.Any]]:
+        input_ids, token_spans, image_token_positions = map(
             list,
             zip(
                 *[
                     (
                         np.array(input_ids, dtype=self._data_type.numpy),
                         np.array(token_spans, dtype=np.int32).reshape(-1, 2),
+                        np.array(image_token_positions, dtype=np.int32),
                     )
-                    for input_ids, token_spans in [
-                        self._tokenizer.tokenize_with_spans(text, char_spans)
-                        for text, char_spans in zip(
-                            batch[self._config.dataset.field], batch[self._config.dataset.loss_masking_spans]
+                    for input_ids, token_spans, image_token_positions in [
+                        self._tokenizer.tokenize(
+                            text,
+                            loss_mask_spans,
+                            im_char_positions,
+                        )
+                        for text, loss_mask_spans, im_char_positions in zip(
+                            batch[self._config.dataset.field],
+                            batch.get(self._config.dataset.loss_masking_spans, itertools.repeat(None)),
+                            batch.get(self._config.dataset.image_positions, itertools.repeat(None)),
                         )
                     ]
                 ]
             ),
         )
         num_tokens = [len(x) for x in input_ids]
+        num_pixels = [0] * len(input_ids)
+        for idx, images in enumerate(batch.get("images", [])):
+            for bytes_im in images:
+                with PIL.Image.open(io.BytesIO(bytes_im["bytes"])) as im:
+                    width, height = im.size
+                    num_pixels[idx] += width * height * 3
+
         return {
             "input_ids": input_ids,
+            "image_positions": image_token_positions,
             "token_spans": token_spans,
             "num_tokens": num_tokens,
+            "num_pixels": num_pixels,
         }
 
     def _tokenize_preference_batch_with_spans(self, batch: dict[str, list[typing.Any]]) -> dict[str, list[typing.Any]]:
@@ -144,27 +155,19 @@ def _save_shard(self, args: tuple[int, datasets.Dataset]) -> GPTMemmapDatasetCon
         shard_output_path = self._config.output_path / prefix
 
         def _document_generator():
-            if "token_spans" in shard_dataset.column_names and self._config.dataset.loss_masking_spans is not None:
-                for item in tqdm.tqdm(shard_dataset, desc=f"Saving shard {shard_idx}", unit="docs"):
-                    yield GPTSample(
-                        np.array(item["input_ids"], dtype=self._data_type.numpy),
-                        np.array(item["token_spans"], dtype=np.int32).reshape(-1, 2),
-                    )
-            elif (
-                "chosen_token_spans" in shard_dataset.column_names
-                and "rejected_token_spans" in shard_dataset.column_names
-                and self._config.dataset.chosen_text is not None
-                and self._config.dataset.rejected_text is not None
-            ):
-                for item in tqdm.tqdm(shard_dataset, desc=f"Saving shard {shard_idx}", unit="docs"):
-                    yield GPTSample(
-                        token_ids=np.array(item["input_ids"], dtype=self._data_type.numpy),
-                        chosen_span=np.array(item["chosen_token_spans"], dtype=np.int32).reshape(-1, 2),
-                        rejected_span=np.array(item["rejected_token_spans"], dtype=np.int32).reshape(-1, 2),
-                    )
-            else:
-                for item in tqdm.tqdm(shard_dataset, desc=f"Saving shard {shard_idx}", unit="docs"):
-                    yield GPTSample(np.array(item["input_ids"], dtype=self._data_type.numpy))
+            for item in tqdm.tqdm(shard_dataset, desc=f"Saving shard {shard_idx}", unit="docs"):
+                yield GPTSample(
+                    np.array(item["input_ids"], dtype=self._data_type.numpy),
+                    item["images"] if self._config.dataset.images else None,
+                    item["image_positions"] if self._config.dataset.image_positions else None,
+                    (
+                        np.array(item["token_spans"], dtype=np.int32).reshape(-1, 2)
+                        if self._config.dataset.loss_masking_spans
+                        else None
+                    ),
+                    item.get("chosen_token_spans", None),
+                    item.get("rejected_token_spans", None),
+                )
 
         GPTMemmapDataset.write_dataset(prefix=shard_output_path, documents=_document_generator())
 
@@ -174,6 +177,7 @@ def _document_generator():
                 "path": prefix,
                 "num_documents": len(shard_dataset),  # Use the length of the shard dataset directly
                 "num_tokens": sum(len(doc["input_ids"]) for doc in shard_dataset),
+                "num_pixels": sum(doc["num_pixels"] for doc in shard_dataset),
             }
         )
 
@@ -290,6 +294,9 @@ def run(self) -> None:
         )
         if self._config.dataset.field not in dataset.column_names:
             raise ValueError(f"Dataset does not have field '{self._config.dataset.field}'.")
+        # decoding bytes to images is slow and should be done only when needed
+        if self._config.dataset.images is not None:
+            dataset = dataset.cast_column("images", datasets.Sequence(datasets.Image(decode=False)))
         if self._config.dataset.loss_masking_spans is not None and (
             self._config.dataset.chosen_text is not None or self._config.dataset.rejected_text is not None
         ):
@@ -298,11 +305,7 @@ def run(self) -> None:
             raise ValueError(f"Both chosen and rejected loss masking spans must be specified if one is specified.")
 
         # route tokenize function
-        if self._config.dataset.loss_masking_spans is not None:
-            if self._config.dataset.loss_masking_spans not in dataset.column_names:
-                raise ValueError(f"Dataset does not have spans field '{self._config.dataset.loss_masking_spans}'.")
-            tokenize_fn = self._tokenize_batch_with_spans
-        elif self._config.dataset.chosen_text is not None and self._config.dataset.rejected_text is not None:
+        if self._config.dataset.chosen_text is not None and self._config.dataset.rejected_text is not None:
             if self._config.dataset.chosen_text not in dataset.column_names:
                 raise ValueError(f"Dataset does not have chosen spans field '{self._config.dataset.chosen_text}'.")
             if self._config.dataset.rejected_text not in dataset.column_names:
@@ -321,6 +324,13 @@ def run(self) -> None:
 
         # Calculate total number of tokens
         total_tokens = sum(tqdm.tqdm(tokenized_dataset["num_tokens"], desc="Counting tokens", unit="tokens"))
+        total_pixels = (
+            sum(tqdm.tqdm(tokenized_dataset["num_pixels"], desc="Counting pixels", unit="pixels"))
+            if self._config.dataset.images
+            else 0
+        )
+        # Add the token-equivalent bytes of pixels to determine shard size
+        total_tokens += total_pixels // np.dtype(self._data_type.numpy).itemsize
 
         # Split dataset into shards based on number of tokens
         num_shards = int(np.ceil(total_tokens / self._config.tokens_per_shard))
@@ -349,7 +359,7 @@ def generate_config_yaml_for_sharded_dst(self, dataset_configs: list[GPTMemmapDa
             # Create the config file(s) on rank 0
             if self._config.splits:
                 for split_name, split_config in self._split_and_blend_dataset_configs(
-                    dataset_configs, self._config.splits, self._config.output_path
+                    dataset_configs, self._config.splits, self._config.output_path, self._config.image_patch_size
                 ).items():
                     self._save_dataset_config(
                         split_config, self._config.output_path / f"fast_llm_config_{split_name}.yaml"
@@ -389,7 +399,11 @@ def _blend_dataset_configs(cls, dataset_configs: list[GPTMemmapDatasetConfig]) -
 
     @classmethod
     def _split_and_blend_dataset_configs(
-        cls, dataset_configs: list[GPTMemmapDatasetConfig], splits: dict[str, int | float], output_path: pathlib.Path
+        cls,
+        dataset_configs: list[GPTMemmapDatasetConfig],
+        splits: dict[str, int | float],
+        output_path: pathlib.Path,
+        image_patch_size: int,
     ) -> dict[str, GPTSampledDatasetConfig]:
         split_cumsum = padded_cumsum(normalize_probabilities(list(splits.values()), return_array=True)).tolist()
         dataset_sizes = [dataset_config.num_tokens for dataset_config in dataset_configs]
@@ -419,10 +433,20 @@ def _split_and_blend_dataset_configs(
                     # Part of the dataset belongs to the split.
                     # TODO: Somehow getting a segfault when merging two lines below (numpy bug?).
                     dataset = dataset_config.to_copy({"path": output_path / dataset_config.path}).build()
-                    sizes_cumsum = dataset.get_document_sizes().cumsum()
-                    Assert.eq(sizes_cumsum[-1], dataset_config.num_tokens)
-                    begin_index = _get_nearest_split(sizes_cumsum, split_begin_in_dataset * dataset_config.num_tokens)
-                    end_index = _get_nearest_split(sizes_cumsum, split_end_in_dataset * dataset_config.num_tokens)
+                    text_sizes, image_sizes = dataset.get_document_sizes()
+                    tokens_cumsum = text_sizes.cumsum()
+                    Assert.eq(tokens_cumsum[-1], dataset_config.num_tokens)
+                    if image_sizes:
+                        num_pixels_cumsum = np.cumsum([x.prod(axis=1).sum() for x in image_sizes])
+                        # We use the patch sizes only for the purposes of even splitting and blending weights.
+                        # We can always use a different patch size for training without any significant impact
+                        # Unless the patch size used at training time is significantly different from the one used here
+                        image_tokens_cumsum = num_pixels_cumsum // (image_patch_size**2)
+                        tokens_cumsum += image_tokens_cumsum
+                        num_pixels_cumsum = num_pixels_cumsum * 3
+                    Assert.eq(num_pixels_cumsum[-1], dataset_config.num_pixels)
+                    begin_index = _get_nearest_split(tokens_cumsum, split_begin_in_dataset * tokens_cumsum[-1])
+                    end_index = _get_nearest_split(tokens_cumsum, split_end_in_dataset * tokens_cumsum[-1])
                     if end_index > begin_index:
                         datasets_in_split.append(
                             GPTDatasetSliceConfig.from_dict(
@@ -435,8 +459,8 @@ def _split_and_blend_dataset_configs(
                             )
                         )
                         dataset_tokens_in_split.append(
-                            sizes_cumsum[end_index - 1].item()
-                            - (sizes_cumsum[begin_index - 1].item() if begin_index > 0 else 0)
+                            tokens_cumsum[end_index - 1].item()
+                            - (tokens_cumsum[begin_index - 1].item() if begin_index > 0 else 0)
                         )
 
                 # [else] None of the dataset belongs to the split.
diff --git a/fast_llm/data/tokenizer.py b/fast_llm/data/tokenizer.py
index 988e23e7..7268ba3c 100644
--- a/fast_llm/data/tokenizer.py
+++ b/fast_llm/data/tokenizer.py
@@ -35,44 +35,74 @@ def vocab(self) -> dict[str, int]:
     def inv_vocab(self) -> dict[int, str]:
         return self._inv_vocab
 
-    def tokenize(self, text: str, begin=True, end=True) -> list[int]:
+    def _tokenize(self, text: str, begin=True, end=True) -> list[int]:
         return (
             ([self.bod_id] if begin else [])
             + self.tokenizer.encode(text, add_special_tokens=False)
             + ([self.eod_id] if end else [])
         )
 
-    def tokenize_with_spans(
-        self, text: str, char_spans: list[tuple[int, int]]
-    ) -> tuple[list[int], list[tuple[int, int]]]:
+    def tokenize(
+        self, text: str, char_spans=None, image_positions=None
+    ) -> tuple[list[int], list[tuple[int, int]], list[int]]:
         """
-        Perform span-aware tokenization and return the tokenized input_ids along with token spans.
+        Tokenize the input text and return the tokenized input_ids, token spans, and image token positions.
+        This version simplifies logic by merging all relevant positions, sorting, and tokenizing between them.
         """
-        input_ids = []
+        if not image_positions:
+            image_positions = []
+        if not char_spans:
+            char_spans = []
+
+        # Collect all positions with their type
+        positions = []
+        for pos in image_positions:
+            positions.append((pos, "image"))
+        for start, end in char_spans:
+            positions.append((start, "span_start"))
+            positions.append((end + 1, "span_end"))
+        # Sort positions by character index. We assume that image and span positions are individually sorted and spans do not overlap
+        positions = sorted(positions, key=lambda x: x[0])
+
+        token_ids = []
         token_spans = []
+        image_token_positions = []
         char_pos = 0
-        beginning_of_text = True
-        
-        for start, end in char_spans:
-            if char_pos < start:
-                curr_text = text[char_pos:start]
-                tokenized_text = self.tokenize(curr_text, begin=beginning_of_text, end=False)
-                beginning_of_text = False
-                input_ids.extend(tokenized_text)
-            curr_text = text[start : end + 1]
-            if end >= len(text) - 1:
-                tokenized_text = self.tokenize(curr_text, begin=beginning_of_text, end=True)
-            else:
-                tokenized_text = self.tokenize(curr_text, begin=beginning_of_text, end=False)
-            beginning_of_text = False
-            token_spans.append((len(input_ids), len(input_ids) + len(tokenized_text) - 1))
-            input_ids.extend(tokenized_text)
-            char_pos = end + 1
+        current_span_start = None
+
+        for position in positions:
+            # We only tokenize if there is at least one character, else we might potentially add begin/end multiple times
+            if char_pos < position[0]:
+                tokenized_text = self._tokenize(
+                    text[char_pos : position[0]], begin=(char_pos == 0), end=position[0] > len(text) - 1
+                )
+                token_ids.extend(tokenized_text)
+            char_pos = position[0]
+            # beginning_of_text = False
+            if position[1] == "image":
+                if position[0] == 0:
+                    # image should be after the bos token
+                    image_token_positions.append(1)
+                else:
+                    image_token_positions.append(len(token_ids))
+            elif position[1] == "span_start":
+                assert (
+                    current_span_start is None
+                ), "Starting a new span before current has ended, please check for overlapping spans"
+                current_span_start = len(token_ids)
+            elif position[1] == "span_end":
+                assert (
+                    current_span_start is not None
+                ), "Closing a span that has not started, please check for overlapping spans"
+                # spans are inclusive, so we take the index of the last token in the span
+                token_spans.append((current_span_start, len(token_ids) - 1))
+                current_span_start = None
+        # Handle any remaining text after the last position and add EOS token
         if char_pos < len(text):
-            curr_text = text[char_pos:]
-            tokenized_text = self.tokenize(curr_text, begin=beginning_of_text, end=True)
-            input_ids.extend(tokenized_text)
-        return input_ids, token_spans
+            tokenized_text = self._tokenize(text[char_pos:], begin=(char_pos == 0), end=True)
+            token_ids.extend(tokenized_text)
+
+        return token_ids, token_spans, image_token_positions
 
     def detokenize(self, token_ids: int | list[int] | np.ndarray | torch.Tensor) -> str:
         return self.tokenizer.decode(token_ids)
diff --git a/fast_llm/engine/multi_stage/stage.py b/fast_llm/engine/multi_stage/stage.py
index a2a9d9d3..0b8bb94f 100644
--- a/fast_llm/engine/multi_stage/stage.py
+++ b/fast_llm/engine/multi_stage/stage.py
@@ -137,7 +137,7 @@ def backward(
         assert self._mode.support_backward
         input_, output = grad_context
         output.backward(output_grad)
-        return input_.grad
+        return input_.grad if input_.grad is not None else torch.zeros_like(input_)
 
     def restore_parameters(self) -> None:
         assert self._is_setup
diff --git a/fast_llm/engine/schedule/config.py b/fast_llm/engine/schedule/config.py
index 141490ac..f5c1bc13 100644
--- a/fast_llm/engine/schedule/config.py
+++ b/fast_llm/engine/schedule/config.py
@@ -49,6 +49,12 @@ class BatchConfig(Config):
         desc="Pointer to a distributed configuration, required to know the data-parallel split of the batch.",
         hint=FieldHint.setup,
     )
+    # Image inputs
+    max_image_size: int | None = Field(
+        default=None,
+        desc="Maximum image height and width",
+        hint=FieldHint.optional,
+    )
 
     def setup(self, distributed_config: DistributedConfig) -> None:
         self._distributed = distributed_config
diff --git a/fast_llm/functional/config.py b/fast_llm/functional/config.py
index 22f23174..480fa067 100644
--- a/fast_llm/functional/config.py
+++ b/fast_llm/functional/config.py
@@ -40,6 +40,7 @@ class ActivationType(enum.StrEnum):
     """
 
     gelu = "gelu"
+    gelu_pytorch_tanh = "gelu_pytorch_tanh"
     silu = "silu"
     relu = "relu"
     squared_relu = "squared_relu"
@@ -67,7 +68,8 @@ def _set_activation_fn_map() -> None:
     global _ACTIVATION_FN_MAP
 
     _ACTIVATION_FN_MAP = {
-        ActivationType.gelu: lambda x: torch.nn.functional.gelu(x, approximate="tanh"),
+        ActivationType.gelu: torch.nn.functional.gelu,
+        ActivationType.gelu_pytorch_tanh: lambda x: torch.nn.functional.gelu(x, approximate="tanh"),
         ActivationType.silu: torch.nn.functional.silu,
         ActivationType.relu: torch.nn.functional.relu,
         ActivationType.squared_relu: lambda x: torch.pow(torch.nn.functional.relu(x), 2),
@@ -78,7 +80,8 @@ def _set_activation_fn_map() -> None:
 _ACTIVATION_FN_MAP: dict[ActivationType, typing.Callable[["torch.Tensor"], "torch.Tensor"]] = {}
 
 _ACTIVATION_HF_NAMES = {
-    ActivationType.gelu: "gelu_pytorch_tanh",
+    ActivationType.gelu: "gelu",
+    ActivationType.gelu_pytorch_tanh: "gelu_pytorch_tanh",
     ActivationType.silu: "silu",
     ActivationType.relu: "relu",
     ActivationType.squared_relu: "relu2",
@@ -86,6 +89,7 @@ def _set_activation_fn_map() -> None:
 }
 _ACTIVATION_HF_NAMES_INV = {value: key for key, value in _ACTIVATION_HF_NAMES.items()}
 
+
 MAX_DROPLESS_BLOCK_SIZE_ROW = 128
 
 
diff --git a/fast_llm/functional/cross_entropy.py b/fast_llm/functional/cross_entropy.py
index 513510ec..53b5979e 100644
--- a/fast_llm/functional/cross_entropy.py
+++ b/fast_llm/functional/cross_entropy.py
@@ -145,7 +145,7 @@ def _fused_cross_entropy_forward_backward(
 
     per_sample_loss = sum_exp_logits.log() - predicted_logits
     if loss_mask is not None:
-        per_sample_loss = per_sample_loss * loss_mask
+        per_sample_loss = per_sample_loss[loss_mask]
 
     loss = per_sample_loss.mean()
     if target_format != TargetFormat.labels and group is not None:
diff --git a/fast_llm/functional/triton/mlp.py b/fast_llm/functional/triton/mlp.py
index ee3ba304..0fb71bd5 100644
--- a/fast_llm/functional/triton/mlp.py
+++ b/fast_llm/functional/triton/mlp.py
@@ -50,7 +50,7 @@ def triton_mlp_activation_forward_kernel(
 
     input_ = tl.load(input_ptr, mask=mask).to(tl.float32)
 
-    if activation_type == _TritonActivationType.gelu:
+    if activation_type == _TritonActivationType.gelu_pytorch_tanh:
         tanh_input = 0.79788456 * input_ * (1 + 0.044715 * input_ * input_)
         tanh = 1 - 2 / (1 + tl.exp(2 * tanh_input))
         out = input_ * 0.5 * (1.0 + tanh)
@@ -100,7 +100,7 @@ def triton_mlp_activation_backward_kernel(
     input_ = tl.load(input_ptr, mask=mask).to(tl.float32)
     output_grad = tl.load(grad_output_ptr + output_offsets, mask=mask).to(tl.float32)
 
-    if activation_type == _TritonActivationType.gelu:
+    if activation_type == _TritonActivationType.gelu_pytorch_tanh:
         tanh_input = 0.79788456 * input_ * (1 + 0.044715 * input_ * input_)
         tanh = 1 - 2 / (1 + tl.exp(2 * tanh_input))
         grad = 0.5 * input_ * ((1 - tanh * tanh) * (0.79788456 + 0.1070322243 * input_ * input_)) + 0.5 * (1 + tanh)
diff --git a/fast_llm/layers/language_model/config.py b/fast_llm/layers/language_model/config.py
index 6e6a8ae5..6bf39938 100644
--- a/fast_llm/layers/language_model/config.py
+++ b/fast_llm/layers/language_model/config.py
@@ -6,6 +6,7 @@
 from fast_llm.engine.distributed.config import DistributedDimNames
 from fast_llm.functional.config import CrossEntropyImpl
 from fast_llm.layers.transformer.config import TransformerConfig
+from fast_llm.layers.vision_encoder.config import VisionEncoderConfig
 from fast_llm.utils import Assert
 
 
@@ -33,6 +34,7 @@ class LanguageModelKwargs:
     position_ids = "position_ids"
     # TODO: These are generic
     labels = "labels"
+    tokens = "tokens"
     phase = "phase"
     chosen_spans = "chosen_spans"
     rejected_spans = "rejected_spans"
@@ -45,6 +47,10 @@ class LanguageModelBaseConfig(BaseModelConfig):
         desc="Configuration for the transformer architecture.",
         hint=FieldHint.architecture,
     )
+    vision_encoder: VisionEncoderConfig = Field(
+        desc="Configuration for the vision encoder that transforms images into embeddings.",
+        hint=FieldHint.optional,
+    )
     max_position_embeddings: int = Field(
         default=2048,
         desc="Number of absolute position embeddings, if applicable.",
@@ -206,6 +212,8 @@ def setup_tensor_space(self, tensor_space: TensorSpace) -> None:
         # TODO: Need both?
         tensor_space.add_tensor_dim(TensorDim(LanguageModelDimNames.vocab, self.vocab_size))
         tensor_space.add_tensor_dim(TensorDim(LanguageModelDimNames.vocab_tp, self.vocab_size, tensor))
+        if self.vision_encoder.enabled:
+            self.vision_encoder.setup_tensor_space(tensor_space)
 
     @property
     def num_absolute_position_embeddings(self) -> int:
diff --git a/fast_llm/layers/language_model/embedding.py b/fast_llm/layers/language_model/embedding.py
index e0386d8d..168c72b7 100644
--- a/fast_llm/layers/language_model/embedding.py
+++ b/fast_llm/layers/language_model/embedding.py
@@ -101,7 +101,10 @@ def _forward(self, input_: torch.Tensor, position_ids: torch.Tensor | None) -> t
                 input_ = split(input_, group=group, dim=0)
                 if self._use_absolute_position_embeddings:
                     position_ids = split(position_ids, group=group, dim=0)
-            embeddings = torch.embedding(self.word_embeddings_weight, input_)
+            # mask padded tokens
+            input_mask = input_ >= 0
+            masked_input = input_ * input_mask
+            embeddings = torch.embedding(self.word_embeddings_weight, masked_input) * input_mask.unsqueeze(2)
             if self._use_absolute_position_embeddings:
                 embeddings = embeddings + torch.nn.functional.embedding(position_ids, self.position_embeddings_weight)
         with set_generator(
diff --git a/fast_llm/layers/multi_modal/embedding.py b/fast_llm/layers/multi_modal/embedding.py
new file mode 100644
index 00000000..948b2acf
--- /dev/null
+++ b/fast_llm/layers/multi_modal/embedding.py
@@ -0,0 +1,182 @@
+import typing
+
+import torch
+
+from fast_llm.core.distributed import set_generator
+from fast_llm.core.ops import reduce_forward, split
+from fast_llm.engine.config_utils.tensor_space import TensorSpace
+from fast_llm.layers.language_model.config import LanguageModelBaseConfig, LanguageModelKwargs
+from fast_llm.layers.language_model.embedding import LanguageModelEmbedding
+from fast_llm.layers.transformer.config import TransformerKwargs
+from fast_llm.layers.vision_encoder.config import VisionEncoderKwargs
+from fast_llm.layers.vision_encoder.preprocessing import get_num_patches
+from fast_llm.tensor import TensorMeta
+from fast_llm.utils import Assert, div
+
+
+class MultiModalEmbedding(LanguageModelEmbedding):
+    """
+    Multi-modal embedding layer to combine embeddings from text, image and more modalities.
+    """
+
+    def __init__(
+        self,
+        config: LanguageModelBaseConfig,
+        tensor_space: TensorSpace,
+    ):
+        super().__init__(config, tensor_space)
+
+    # @torch.compile
+    def _forward(
+        self,
+        input_: torch.Tensor,
+        tokens: torch.Tensor,
+        position_ids: torch.Tensor | None,
+        image_positions: list[torch.Tensor] | None,
+        image_sizes: list[list[tuple[int, int]]] | None,
+    ) -> torch.Tensor:
+        """
+        Forward pass for the multi-modal embedding layer.
+        Args:
+            input_: The input tensor (image embeddings).
+            tokens: The tokenized text input.
+            position_ids: The position ids for the text input.
+            image_positions: The positions of the image tokens in the input.
+            image_sizes: The sizes of the images in the input.
+        Returns:
+            The combined embeddings for text and images.
+        """
+        Assert.eq(position_ids is not None, self._use_absolute_position_embeddings)
+        group = self._tensor_space.distributed.tensor_group
+        if self._sequence_parallel:
+            micro_seqlen = input_.size(0)
+            patch_start_offset = self._distributed_config.tensor_rank * micro_seqlen
+            patch_end_offset = (self._distributed_config.tensor_rank + 1) * micro_seqlen
+        else:
+            patch_start_offset = 0
+            patch_end_offset = input_.size(0)
+        if self._parallel_embeddings:
+            token_mask = (tokens >= self._vocab_start_index) * (tokens < self._vocab_end_index)
+            masked_tokens = (tokens - self._vocab_start_index) * token_mask
+            embeddings = torch.embedding(self.word_embeddings_weight, masked_tokens) * token_mask.unsqueeze(2)  # noqa
+            # Cloning since we will modify the embeddings in-place
+            embeddings = embeddings.clone()
+            # the embeddings tensor are full-sized, but we might get a split of the patch embeddings
+            # We need to determine the offset in the embeddings tensor for each sample
+            # and also account for the special image tokens if applicable
+            for sample_idx, (positions, sizes) in enumerate(zip(image_positions, image_sizes)):
+                image_embedding_offset = 0
+                for position, size in zip(positions, sizes):
+                    num_patches = get_num_patches(*size, self._config.vision_encoder.patch_size)
+                    if image_embedding_offset + num_patches < patch_start_offset:
+                        continue
+                    if self._config.vision_encoder.image_break_token is not None:
+                        patch_height = div(size[0], self._config.vision_encoder.patch_size)
+                        patch_width = div(size[1], self._config.vision_encoder.patch_size)
+                        for row in range(patch_height):
+                            row_start_src = image_embedding_offset + row * patch_width
+                            row_start_dst = position + row * (patch_width + 1)
+                            if row_start_src > patch_end_offset:
+                                break
+                            if row_start_src + patch_width <= patch_start_offset:
+                                continue
+
+                            input_start_index = max(row_start_src, patch_start_offset) - patch_start_offset
+                            input_end_index = min(row_start_src + patch_width, patch_end_offset) - patch_start_offset
+                            embeddings_start_index = row_start_dst - max(patch_start_offset - row_start_src, 0)
+                            embeddings_end_index = (
+                                row_start_dst + patch_width - max(row_start_src + patch_width - patch_end_offset, 0)
+                            )
+                            # row_end_src = min(row_start_src + patch_width, patch_end_offset)
+                            if self._sequence_parallel:
+                                embeddings[embeddings_start_index:embeddings_end_index, sample_idx] = input_[
+                                    input_start_index:input_end_index, sample_idx
+                                ]
+                            else:
+                                embeddings[sample_idx, embeddings_start_index:embeddings_end_index] = input_[
+                                    sample_idx, input_start_index:input_end_index
+                                ]
+                    else:
+                        input_start_index = max(image_embedding_offset, patch_start_offset) - patch_start_offset
+                        input_end_index = (
+                            min(image_embedding_offset + num_patches, patch_end_offset) - patch_start_offset
+                        )
+                        embedding_start_index = position - max(patch_start_offset - image_embedding_offset, 0)
+                        embedding_end_index = (
+                            position + num_patches - max(image_embedding_offset + num_patches - patch_end_offset, 0)
+                        )
+                        embeddings[sample_idx, embedding_start_index:embedding_end_index] = input_[
+                            input_start_index:input_end_index, sample_idx
+                        ]
+                        # embeddings[sample_idx, position : position + num_patches] = input_[
+                        #     sample_idx, image_embedding_offset : image_embedding_offset + num_patches
+                        # ]
+                    image_embedding_offset += num_patches
+                    if image_embedding_offset > patch_end_offset:
+                        break
+            embeddings = reduce_forward(embeddings, group)
+            if self._use_absolute_position_embeddings:
+                embeddings = embeddings + torch.nn.functional.embedding(position_ids, self.position_embeddings_weight)
+            if self._sequence_parallel:
+                embeddings = split(embeddings, group=group, dim=0)
+        else:
+            if self._sequence_parallel:
+                tokens = split(tokens, group=group, dim=0)
+                if self._use_absolute_position_embeddings:
+                    position_ids = split(position_ids, group=group, dim=0)
+            # mask padded tokens
+            token_mask = tokens >= 0
+            masked_tokens = tokens * token_mask
+            embeddings = torch.embedding(self.word_embeddings_weight, masked_tokens) * token_mask.unsqueeze(2)
+            embeddings = embeddings.clone()
+            for sample_idx, (positions, sizes) in enumerate(zip(image_positions, image_sizes)):
+                image_embedding_offset = 0
+                for position, size in zip(positions, sizes):
+                    num_patches = get_num_patches(*size, self._config.vision_encoder.patch_size)
+                    if self._config.vision_encoder.image_break_token is not None:
+                        patch_height = div(size[0], self._config.vision_encoder.patch_size)
+                        patch_width = div(size[1], self._config.vision_encoder.patch_size)
+
+                        for row in range(patch_height):
+                            row_start_src = image_embedding_offset + row * patch_width
+                            row_start_dst = position + row * (patch_width + 1)
+
+                            embeddings[sample_idx, row_start_dst : row_start_dst + patch_width] = input_[
+                                sample_idx, row_start_src : row_start_src + patch_width
+                            ]
+                    else:
+                        embeddings[sample_idx, position : position + num_patches] = input_[
+                            sample_idx, image_embedding_offset : image_embedding_offset + num_patches
+                        ]
+                    # Move to the next image in the input tensor
+                    image_embedding_offset += num_patches
+
+            if self._use_absolute_position_embeddings:
+                embeddings = embeddings + torch.nn.functional.embedding(position_ids, self.position_embeddings_weight)
+        with set_generator(
+            self._tensor_space.distributed.tp_generator
+            if self._sequence_parallel
+            else self._tensor_space.distributed.pp_generator
+        ):
+            embeddings = torch.dropout(embeddings, self._dropout_p, self.training)
+        return embeddings.to(dtype=self._residual_dtype)
+
+    def forward(
+        self,
+        input_: torch.Tensor,
+        kwargs: dict[str, typing.Any],
+        losses: dict[str, typing.Any] | None = None,
+        metrics: dict | None = None,
+    ) -> torch.Tensor:
+        if isinstance(input_, TensorMeta):
+            return TensorMeta.from_dims(
+                kwargs[TransformerKwargs.hidden_dims],
+                tensor_name="Embedding output",
+                dtype=self._residual_dtype,
+            )
+        position_ids = kwargs.get(LanguageModelKwargs.position_ids)
+        image_sizes = kwargs.get(VisionEncoderKwargs.image_sizes)
+        image_positions = kwargs.get(VisionEncoderKwargs.image_positions)
+        tokens = kwargs.get(LanguageModelKwargs.tokens)
+
+        return self._forward(input_, tokens, position_ids, image_positions, image_sizes)
diff --git a/fast_llm/layers/transformer/attention.py b/fast_llm/layers/transformer/attention.py
index 0517c49c..1041c157 100644
--- a/fast_llm/layers/transformer/attention.py
+++ b/fast_llm/layers/transformer/attention.py
@@ -9,12 +9,7 @@
 from fast_llm.functional.rotary import apply_rotary_embeddings
 from fast_llm.functional.triton.rotary import triton_rotary_autograd_
 from fast_llm.layers.common.linear import InputParallelLinear, OutputParallelLinear
-from fast_llm.layers.transformer.config import (
-    TransformerConfig,
-    TransformerDimNames,
-    TransformerKwargs,
-    TransformerSubLayerName,
-)
+from fast_llm.layers.transformer.config import TransformerConfig, TransformerKwargs, TransformerSubLayerName
 from fast_llm.logging import log_distributed_grad, log_distributed_tensor
 from fast_llm.tensor import TensorMeta, init_normal_, init_zeros_
 from fast_llm.utils import Assert, get_lr_scale
@@ -57,24 +52,6 @@ class Attention(torch.nn.Module):
     A self-attention layer.
     """
 
-    _QUERY_DIMS = (
-        TransformerDimNames.batch,
-        TransformerDimNames.sequence_q,
-        TransformerDimNames.composite_heads,
-        TransformerDimNames.kv_channels,
-    )
-    _KV_DIMS = (
-        TransformerDimNames.batch,
-        TransformerDimNames.sequence_q,
-        TransformerDimNames.group_heads,
-        TransformerDimNames.kv_channels,
-    )
-    _CONTEXT_DIMS = (
-        TransformerDimNames.batch,
-        TransformerDimNames.sequence_q,
-        TransformerDimNames.composite_dense,
-    )
-
     def __init__(
         self,
         config: TransformerConfig,
@@ -82,12 +59,16 @@ def __init__(
         layer_index,
     ):
         super().__init__()
+        self._transformer_dim_names = config._transformer_dim_names
+        self._transformer_kwargs = config._transformer_kwargs
         self._config = config
         self._tensor_space = tensor_space
-        Assert.in_range_incl(layer_index, 1, max(self._config.num_layers, 1))
+        # TODO Soham: fix assert
+        # Assert.in_range_incl(layer_index, 1, max(self._config.num_layers, 1))
         self._layer_index = layer_index
         self._sequence_parallel = self._tensor_space.distributed_config.sequence_tensor_parallel
         self._debug_transformer = self._config.debug_transformer
+        self._causal = self._config.causal
         self._use_flash_attention = self._config.do_use_flash_attention(self._tensor_space.distributed_config)
 
         init_method_qkv = init_normal_(
@@ -101,14 +82,14 @@ def __init__(
             max_val=self._config.init_method_max_attn_proj,
         )
 
-        self._kv_channels = self._tensor_space.get_tensor_dim(TransformerDimNames.kv_channels).size
-        self._head_groups = self._tensor_space.get_tensor_dim(TransformerDimNames.head_groups).global_size
-        self._local_head_groups = self._tensor_space.get_tensor_dim(TransformerDimNames.head_groups).size
-        self._local_heads_per_group = self._tensor_space.get_tensor_dim(TransformerDimNames.group_heads).size
+        self._kv_channels = self._tensor_space.get_tensor_dim(self._transformer_dim_names.kv_channels).size
+        self._head_groups = self._tensor_space.get_tensor_dim(self._transformer_dim_names.head_groups).global_size
+        self._local_head_groups = self._tensor_space.get_tensor_dim(self._transformer_dim_names.head_groups).size
+        self._local_heads_per_group = self._tensor_space.get_tensor_dim(self._transformer_dim_names.group_heads).size
         self._local_heads = self._local_head_groups * self._local_heads_per_group
         self._softmax_scale = self._kv_channels ** (-self._config.attention_softmax_scale_power)
 
-        hidden_dim = self._tensor_space.get_tensor_dim(TransformerDimNames.hidden)
+        hidden_dim = self._tensor_space.get_tensor_dim(self._transformer_dim_names.hidden)
 
         layer_lr_scale = config.per_layer_lr_scale[layer_index] if config.per_layer_lr_scale else None
         attention_lr_scale = get_lr_scale(self._config.attention_lr_scale, layer_lr_scale)
@@ -116,7 +97,7 @@ def __init__(
         # TODO: Merge the query and key-value computations? (harder with sequence parallel.)
         self.query = OutputParallelLinear(
             hidden_dim,
-            self._tensor_space.get_tensor_dim(TransformerDimNames.composite_query),
+            self._tensor_space.get_tensor_dim(self._transformer_dim_names.composite_query),
             bias=self._config.add_attn_qkv_bias,
             weight_init_method=init_method_qkv,
             bias_init_method=init_method_qkv if self._config.random_bias_init else init_zeros_,
@@ -125,7 +106,7 @@ def __init__(
         )
         self.key_value = OutputParallelLinear(
             hidden_dim,
-            self._tensor_space.get_tensor_dim(TransformerDimNames.composite_key_value),
+            self._tensor_space.get_tensor_dim(self._transformer_dim_names.composite_key_value),
             bias=self._config.add_attn_qkv_bias,
             weight_init_method=init_method_qkv,
             bias_init_method=init_method_qkv if self._config.random_bias_init else init_zeros_,
@@ -136,7 +117,7 @@ def __init__(
 
         # Output.
         self.dense = InputParallelLinear(
-            self._tensor_space.get_tensor_dim(TransformerDimNames.composite_dense),
+            self._tensor_space.get_tensor_dim(self._transformer_dim_names.composite_dense),
             hidden_dim,
             bias=self._config.add_attn_dense_bias,
             weight_init_method=init_method_std_attn_proj,
@@ -202,7 +183,7 @@ def _attn_fused(
     def _get_meta(
         self, input_: torch.Tensor, name: str, dim_names: tuple[str, ...], kwargs: dict[str, typing.Any]
     ) -> TensorMeta:
-        hidden_dims = {dim.name: dim for dim in kwargs[TransformerKwargs.hidden_dims]}
+        hidden_dims = {dim.name: dim for dim in kwargs[self._transformer_kwargs.hidden_dims]}
         return TensorMeta.from_dims(
             tuple(
                 hidden_dims[dim_name] if dim_name in hidden_dims else self._tensor_space.get_tensor_dim(dim_name)
@@ -212,6 +193,32 @@ def _get_meta(
             dtype=input_.dtype,
         )
 
+    @property
+    def _query_dims(self):
+        return (
+            self._transformer_dim_names.batch,
+            self._transformer_dim_names.sequence_q,
+            self._transformer_dim_names.composite_heads,
+            self._transformer_dim_names.kv_channels,
+        )
+
+    @property
+    def _kv_dims(self):
+        return (
+            self._transformer_dim_names.batch,
+            self._transformer_dim_names.sequence_q,
+            self._transformer_dim_names.group_heads,
+            self._transformer_dim_names.kv_channels,
+        )
+
+    @property
+    def _context_dims(self):
+        return (
+            self._transformer_dim_names.batch,
+            self._transformer_dim_names.sequence_q,
+            self._transformer_dim_names.composite_dense,
+        )
+
     def _debug_log(
         self, tensor: torch.Tensor, name: str, dim_names: tuple[str, ...], kwargs: dict[str, typing.Any]
     ) -> None:
@@ -310,12 +317,12 @@ def forward(self, input_: torch.Tensor, kwargs: dict[str, typing.Any]) -> tuple[
 
         # TODO: Move the rest to function.
 
-        if (past_key_values := kwargs.get(TransformerKwargs.past_key_values)) is not None:
+        if (past_key_values := kwargs.get(self._transformer_kwargs.past_key_values)) is not None:
             assert sequence_first
             # Clear the lists so tensors can be de-allocated
             key_value = torch.cat((past_key_values.pop(0), key_value), dim=0)
 
-        if (presents := kwargs.get(TransformerKwargs.presents)) is not None:
+        if (presents := kwargs.get(self._transformer_kwargs.presents)) is not None:
             # Return the presents as a leaf tensors so the gradients from later micro-sequences
             # don't propagate to this one.
             presents.append(present := key_value.detach().requires_grad_())
@@ -342,23 +349,23 @@ def forward(self, input_: torch.Tensor, kwargs: dict[str, typing.Any]) -> tuple[
 
         if self._config.rotary.enabled:
             if self._debug_transformer:
-                self._debug_log(query, "query_rotary_input", self._QUERY_DIMS, kwargs)
+                self._debug_log(query, "query_rotary_input", self._query_dims, kwargs)
                 self._debug_log(
                     key,
                     "key_rotary_input",
-                    self._KV_DIMS,
+                    self._kv_dims,
                     kwargs,
                 )
             rotary_fn = triton_rotary_autograd_ if self._config.rotary.triton else apply_rotary_embeddings
-            query = rotary_fn(query, kwargs[TransformerKwargs.rotary_freq_q])
-            key = rotary_fn(key, kwargs[TransformerKwargs.rotary_freq_k])
+            query = rotary_fn(query, kwargs[self._transformer_kwargs.rotary_freq_q])
+            key = rotary_fn(key, kwargs[self._transformer_kwargs.rotary_freq_k])
 
         window_size = self._decide_window_size()
 
         if self._use_flash_attention:
             assert _flash_available
             with set_generator(self._tensor_space.distributed.tp_generator):
-                if (cu_seqlens_q := kwargs.get(TransformerKwargs.cu_seqlens_q, None)) is not None:
+                if (cu_seqlens_q := kwargs.get(self._transformer_kwargs.cu_seqlens_q, None)) is not None:
                     out_dims = query.size()
                     query = query.view(-1, query.size(-2), query.size(-1))
                     key = key.view(-1, key.size(-2), key.size(-1))
@@ -368,12 +375,12 @@ def forward(self, input_: torch.Tensor, kwargs: dict[str, typing.Any]) -> tuple[
                         key,
                         value,
                         cu_seqlens_q=cu_seqlens_q,
-                        cu_seqlens_k=kwargs.get(TransformerKwargs.cu_seqlens_k),
-                        max_seqlen_q=kwargs.get(TransformerKwargs.max_seqlen_q),
-                        max_seqlen_k=kwargs.get(TransformerKwargs.max_seqlen_k),
+                        cu_seqlens_k=kwargs.get(self._transformer_kwargs.cu_seqlens_k),
+                        max_seqlen_q=kwargs.get(self._transformer_kwargs.max_seqlen_q),
+                        max_seqlen_k=kwargs.get(self._transformer_kwargs.max_seqlen_k),
                         dropout_p=self._config.attention_dropout if self.training else 0.0,
                         window_size=(-1, -1) if window_size is None else (window_size - 1, 0),
-                        causal=True,
+                        causal=self._causal,
                         softmax_scale=self._softmax_scale,
                     ).view(*out_dims)
                 else:
@@ -383,7 +390,7 @@ def forward(self, input_: torch.Tensor, kwargs: dict[str, typing.Any]) -> tuple[
                         value,
                         window_size=(-1, -1) if window_size is None else (window_size - 1, 0),
                         dropout_p=self._config.attention_dropout if self.training else 0.0,
-                        causal=True,
+                        causal=self._causal,
                         softmax_scale=self._softmax_scale,
                     )
             input_ = input_.flatten(-2)
@@ -393,25 +400,25 @@ def forward(self, input_: torch.Tensor, kwargs: dict[str, typing.Any]) -> tuple[
                 query.flatten(-2),
                 key.flatten(-2),
                 value.flatten(-2),
-                kwargs[TransformerKwargs.attention_mask],
-                kwargs[TransformerKwargs.attention_mask_value],
+                kwargs[self._transformer_kwargs.attention_mask],
+                kwargs[self._transformer_kwargs.attention_mask_value],
             )
 
         if self._debug_transformer:
-            self._debug_log(query, "query", self._QUERY_DIMS, kwargs)
+            self._debug_log(query, "query", self._query_dims, kwargs)
             self._debug_log(
                 key,
                 "key",
-                self._KV_DIMS,
+                self._kv_dims,
                 kwargs,
             )
             self._debug_log(
                 value,
                 "value",
-                self._KV_DIMS,
+                self._kv_dims,
                 kwargs,
             )
-            self._debug_log(input_, "context", self._CONTEXT_DIMS, kwargs)
+            self._debug_log(input_, "context", self._context_dims, kwargs)
 
         if sequence_first:
             # TODO: Optimize (is contiguous avoidable? Transpose dense output?)
diff --git a/fast_llm/layers/transformer/config.py b/fast_llm/layers/transformer/config.py
index 9cc9510b..7345acfa 100644
--- a/fast_llm/layers/transformer/config.py
+++ b/fast_llm/layers/transformer/config.py
@@ -28,59 +28,86 @@ class RoutingType(str, enum.Enum):
     sinkhorn = "sinkhorn"
 
 
-class TransformerDimNames:
-    # A set of common tensor dim names packed into a namespace.
-    # Input dimensions (variable)
-    # TODO: Does batch belong here?
-    batch = "batch"
-    # TODO: Distinguish micro-sequence?
-    sequence_q = "sequence_q"
-    sequence_q_tp = "sequence_q_tp"
-    sequence_k = "sequence_k"
-    hidden = "hidden"
-    # Self-attention dimensions
-    head_groups = "head_groups"
-    group_heads = "group_heads"
-    key_and_value = "key_value"
-    kv_channels = "kv_channels"
-    composite_heads = "composite_heads"
-    composite_query = "composite_query"
-    composite_key_value = "composite_key_value"
-    composite_dense = "composite_dense"
-    # MLP dimensions
-    mlp = "mlp"
-    gate_and_up = "gate_and_up"
-    composite_gated_mlp = "composite_gated_mlp"
-    experts = "experts"
-    top_experts = "top_experts"
-    shared_experts = "shared_experts"
-    unshared_experts = "unshared_experts"
-    composite_expert_mlp = "composite_expert_mlp"
-    composite_gated_expert_mlp = "composite_gated_expert_mlp"
-    composite_shared_expert_mlp = "composite_shared_expert_mlp"
-    composite_gated_shared_expert_mlp = "composite_gated_shared_expert_mlp"
-
-
-class TransformerKwargs:
-    rotary_freq_q = "rotary_freq_q"
-    rotary_freq_k = "rotary_freq_k"
-    attention_mask = "attention_mask"
-    attention_mask_value = "attention_mask_value"
-    sequence_lengths = "sequence_lengths"
-    cu_seqlens_q = "cu_seqlens_q"
-    cu_seqlens_k = "cu_seqlens_k"
-    max_seqlen_q = "max_seqlen_q"
-    max_seqlen_k = "max_seqlen_k"
-    # TODO: Review these
-    presents = "presents"
-    past_key_values = "past_key_values"
-    sequence_first = "sequence_first"
-    hidden_dims = "hidden_dims"
-    sequence_q_dim = "sequence_q_dim"
-    sequence_k_dim = "sequence_k_dim"
-    sequence_length = "sequence_length"
-    # TODO: Move
-    grad_output = "grad_output"
+class BaseTransformerDimNames:
+    _kwargs_attributes = {
+        "batch": "batch",
+        "sequence_q": "sequence_q",
+        "sequence_q_tp": "sequence_q_tp",
+        "sequence_k": "sequence_k",
+        "hidden": "hidden",
+        "head_groups": "head_groups",
+        "group_heads": "group_heads",
+        "key_and_value": "key_value",
+        "kv_channels": "kv_channels",
+        "composite_heads": "composite_heads",
+        "composite_query": "composite_query",
+        "composite_key_value": "composite_key_value",
+        "composite_dense": "composite_dense",
+        "mlp": "mlp",
+        "gate_and_up": "gate_and_up",
+        "composite_gated_mlp": "composite_gated_mlp",
+        "experts": "experts",
+        "top_experts": "top_experts",
+        "shared_experts": "shared_experts",
+        "unshared_experts": "unshared_experts",
+        "composite_expert_mlp": "composite_expert_mlp",
+        "composite_gated_expert_mlp": "composite_gated_expert_mlp",
+        "composite_shared_expert_mlp": "composite_shared_expert_mlp",
+        "composite_gated_shared_expert_mlp": "composite_gated_shared_expert_mlp",
+    }
+
+    def __init_subclass__(cls, prefix="", **kwargs):
+        super().__init_subclass__(**kwargs)
+        cls._prefix = prefix
+        for attr, value in BaseTransformerDimNames._kwargs_attributes.items():
+            setattr(cls, attr, f"{cls._prefix}_{value}")
+
+
+class TransformerDimNames(BaseTransformerDimNames, prefix=""):
+    pass
+
+
+class VisionTransformerDimNames(BaseTransformerDimNames, prefix="image_encoder"):
+    pass
+
+
+class BaseTransformerKwargs:
+    _kwargs_attributes = {
+        "rotary_freq_q": "rotary_freq_q",
+        "rotary_freq_k": "rotary_freq_k",
+        "attention_mask": "attention_mask",
+        "attention_mask_value": "attention_mask_value",
+        "sequence_lengths": "sequence_lengths",
+        "cu_seqlens_q": "cu_seqlens_q",
+        "cu_seqlens_k": "cu_seqlens_k",
+        "max_seqlen_q": "max_seqlen_q",
+        "max_seqlen_k": "max_seqlen_k",
+        "presents": "presents",
+        "past_key_values": "past_key_values",
+        "sequence_first": "sequence_first",
+        "hidden_dims": "hidden_dims",
+        "sequence_q_dim": "sequence_q_dim",
+        "sequence_k_dim": "sequence_k_dim",
+        "sequence_length": "sequence_length",
+        "micro_batch_size": "micro_batch_size",
+        "grad_output": "grad_output",
+    }
+
+    _prefix = ""
+
+    def __init_subclass__(cls, prefix="", **kwargs):
+        super().__init_subclass__(**kwargs)
+        cls._prefix = prefix
+        for attr, value in BaseTransformerKwargs._kwargs_attributes.items():
+            setattr(cls, value, f"{cls._prefix}_{value}" if cls._prefix else value)
+
+
+class TransformerKwargs(BaseTransformerKwargs, prefix=""):
+    pass
+
+
+class VisionTransformerKwargs(BaseTransformerKwargs, prefix="image_encoder"):
+    patch_position_ids = "patch_position_ids"
 
 
 class TransformerLossNames:
@@ -93,6 +120,7 @@ class RotaryEmbeddingType(str, enum.Enum):
     default = "default"
     llama3 = "llama3"
     yarn = "yarn"
+    rope_2d = "rope_2d"
 
 
 @config_class(registry=True)
@@ -157,6 +185,20 @@ def _validate(self) -> None:
         if self.triton and not TritonConfig.TRITON_ENABLED:
             warnings.warn("Triton is disabled, but the triton rotary kernel will be used anyway.")
 
+    @property
+    def _transformer_dim_names(self) -> TransformerDimNames:
+        if self.type == RotaryEmbeddingType.rope_2d:
+            return VisionTransformerDimNames
+        else:
+            return TransformerDimNames
+
+    @property
+    def _transformer_kwargs(self) -> TransformerKwargs:
+        if self.type == RotaryEmbeddingType.rope_2d:
+            return VisionTransformerKwargs
+        else:
+            return TransformerKwargs
+
 
 for name in RotaryEmbeddingType:
     # We need this because we are using the reserved field name `type`.
@@ -256,9 +298,19 @@ def _validate(self) -> None:
     TransformerPeftConfig.register_subclass(name.value, TransformerPeftConfig)
 
 
-@config_class()
+class TransformerType(str, enum.Enum):
+    lm_decoder = "lm_decoder"
+    image_encoder = "image_encoder"
+
+
+@config_class(registry=True)
 class TransformerConfig(LLMBlockConfig):
     _abstract = False
+    type: TransformerType = Field(
+        default=TransformerType.lm_decoder,
+        desc="Type of the transformer. Choices: lm_decoder, image_encoder.",
+        hint=FieldHint.architecture,
+    )
     normalization: NormalizationConfig = Field(
         desc="Configuration for the normalization layers architecture.",
         hint=FieldHint.architecture,
@@ -535,6 +587,11 @@ class TransformerConfig(LLMBlockConfig):
         " Reduces memory usage, but increases fragmentation and requires CPU synchronisation. Not recommended.",
         hint=FieldHint.expert,
     )
+    causal: bool = Field(
+        default=True,
+        desc="Use causal attention. Turn this off only for bidirectional attention e.g., in Vision Transformer.",
+        hint=FieldHint.feature,
+    )
 
     def _validate(self) -> None:
         with self._set_implicit_default():
@@ -654,59 +711,69 @@ def setup_tensor_space(self, tensor_space: TensorSpace) -> None:
         tensor = tensor_space.distributed_config.get_distributed_dim(DistributedDimNames.tensor)
 
         # Hidden dimension
-        tensor_space.add_tensor_dim(TensorDim(TransformerDimNames.hidden, self.hidden_size))
+        tensor_space.add_tensor_dim(TensorDim(self._transformer_dim_names.hidden, self.hidden_size))
 
         # Self-attention dimensions
         tensor_space.add_tensor_dim(
             head_groups := TensorDim(
-                TransformerDimNames.head_groups, self.head_groups, tensor if self.head_groups > 1 else None
+                self._transformer_dim_names.head_groups, self.head_groups, tensor if self.head_groups > 1 else None
             )
         )
         tensor_space.add_tensor_dim(
             group_heads := TensorDim(
-                TransformerDimNames.group_heads,
+                self._transformer_dim_names.group_heads,
                 div(self.num_attention_heads, self.head_groups),
                 None if self.head_groups > 1 else tensor,
             )
         )
-        tensor_space.add_tensor_dim(key_and_value := TensorDim(TransformerDimNames.key_and_value, 2))
-        tensor_space.add_tensor_dim(kv_channels := TensorDim(TransformerDimNames.kv_channels, self.kv_channels))
+        tensor_space.add_tensor_dim(key_and_value := TensorDim(self._transformer_dim_names.key_and_value, 2))
         tensor_space.add_tensor_dim(
-            CompositeTensorDim(TransformerDimNames.composite_heads, (head_groups, group_heads))
+            kv_channels := TensorDim(self._transformer_dim_names.kv_channels, self.kv_channels)
         )
         tensor_space.add_tensor_dim(
-            CompositeTensorDim(TransformerDimNames.composite_query, (head_groups, group_heads, kv_channels))
+            CompositeTensorDim(self._transformer_dim_names.composite_heads, (head_groups, group_heads))
         )
         tensor_space.add_tensor_dim(
-            CompositeTensorDim(TransformerDimNames.composite_key_value, (key_and_value, head_groups, kv_channels))
+            CompositeTensorDim(self._transformer_dim_names.composite_query, (head_groups, group_heads, kv_channels))
+        )
+        tensor_space.add_tensor_dim(
+            CompositeTensorDim(
+                self._transformer_dim_names.composite_key_value, (key_and_value, head_groups, kv_channels)
+            )
         )
         tensor_space.add_tensor_dim(
-            CompositeTensorDim(TransformerDimNames.composite_dense, (head_groups, group_heads, kv_channels))
+            CompositeTensorDim(self._transformer_dim_names.composite_dense, (head_groups, group_heads, kv_channels))
         )
 
         # MLP dimensions
-        tensor_space.add_tensor_dim(mlp := TensorDim(TransformerDimNames.mlp, self.ffn_hidden_size, tensor))
-        tensor_space.add_tensor_dim(gate_and_up := TensorDim(TransformerDimNames.gate_and_up, 2 if self.gated else 1))
-        tensor_space.add_tensor_dim(CompositeTensorDim(TransformerDimNames.composite_gated_mlp, (gate_and_up, mlp)))
-        tensor_space.add_tensor_dim(experts := TensorDim(TransformerDimNames.experts, self.num_experts))
-        tensor_space.add_tensor_dim(CompositeTensorDim(TransformerDimNames.composite_expert_mlp, (experts, mlp)))
+        tensor_space.add_tensor_dim(mlp := TensorDim(self._transformer_dim_names.mlp, self.ffn_hidden_size, tensor))
         tensor_space.add_tensor_dim(
-            CompositeTensorDim(TransformerDimNames.composite_gated_expert_mlp, (experts, gate_and_up, mlp))
+            gate_and_up := TensorDim(self._transformer_dim_names.gate_and_up, 2 if self.gated else 1)
         )
-        tensor_space.add_tensor_dim(TensorDim(TransformerDimNames.top_experts, self.num_experts_per_token))
-        tensor_space.add_tensor_dim(TensorDim(TransformerDimNames.unshared_experts, self.num_unshared_experts))
+        tensor_space.add_tensor_dim(
+            CompositeTensorDim(self._transformer_dim_names.composite_gated_mlp, (gate_and_up, mlp))
+        )
+        tensor_space.add_tensor_dim(experts := TensorDim(self._transformer_dim_names.experts, self.num_experts))
+        tensor_space.add_tensor_dim(
+            CompositeTensorDim(self._transformer_dim_names.composite_expert_mlp, (experts, mlp))
+        )
+        tensor_space.add_tensor_dim(
+            CompositeTensorDim(self._transformer_dim_names.composite_gated_expert_mlp, (experts, gate_and_up, mlp))
+        )
+        tensor_space.add_tensor_dim(TensorDim(self._transformer_dim_names.top_experts, self.num_experts_per_token))
+        tensor_space.add_tensor_dim(TensorDim(self._transformer_dim_names.unshared_experts, self.num_unshared_experts))
 
         # shared_experts
         if self.num_shared_experts:
             tensor_space.add_tensor_dim(
-                shared_experts := TensorDim(TransformerDimNames.shared_experts, self.num_shared_experts)
+                shared_experts := TensorDim(self._transformer_dim_names.shared_experts, self.num_shared_experts)
             )
             tensor_space.add_tensor_dim(
-                CompositeTensorDim(TransformerDimNames.composite_shared_expert_mlp, (shared_experts, mlp))
+                CompositeTensorDim(self._transformer_dim_names.composite_shared_expert_mlp, (shared_experts, mlp))
             )
             tensor_space.add_tensor_dim(
                 CompositeTensorDim(
-                    TransformerDimNames.composite_gated_shared_expert_mlp, (shared_experts, gate_and_up, mlp)
+                    self._transformer_dim_names.composite_gated_shared_expert_mlp, (shared_experts, gate_and_up, mlp)
                 )
             )
 
@@ -721,3 +788,23 @@ def do_use_flash_attention(self, distributed_config: DistributedConfig) -> bool:
             Assert.is_(self.window_size, None)
 
         return use_flash_attention
+
+    @property
+    def _transformer_kwargs(self) -> TransformerKwargs:
+        if self.type == TransformerType.image_encoder:
+            return VisionTransformerKwargs
+        else:
+            return TransformerKwargs
+
+    @property
+    def _transformer_dim_names(self) -> TransformerDimNames:
+        if self.type == TransformerType.image_encoder:
+            return VisionTransformerDimNames
+        else:
+            return TransformerDimNames
+
+
+for name in TransformerType:
+    # We need this because we are using the reserved field name `type`.
+    # TODO: Implement proper dynamic typing.
+    TransformerConfig.register_subclass(name.value, TransformerConfig)
diff --git a/fast_llm/layers/transformer/mlp.py b/fast_llm/layers/transformer/mlp.py
index c4d8afdc..e9adcddc 100644
--- a/fast_llm/layers/transformer/mlp.py
+++ b/fast_llm/layers/transformer/mlp.py
@@ -8,7 +8,7 @@
 from fast_llm.functional.config import TritonConfig
 from fast_llm.functional.triton.mlp import mlp_autograd, torch_mlp_activation, triton_mlp_activation_autograd
 from fast_llm.layers.common.linear import LinearBase
-from fast_llm.layers.transformer.config import TransformerConfig, TransformerDimNames, TransformerSubLayerName
+from fast_llm.layers.transformer.config import TransformerConfig, TransformerSubLayerName
 from fast_llm.tensor import init_normal_, init_zeros_
 from fast_llm.utils import Assert, get_lr_scale
 
@@ -19,6 +19,9 @@ def __init__(self, config: TransformerConfig, tensor_space: TensorSpace, name: s
         self._name = name
         self._layer_index = layer_index
 
+        self._transformer_dim_names = config._transformer_dim_names
+        self._transformer_kwargs = config._transformer_kwargs
+
         init_method_1 = init_normal_(
             std=config.init_method_std_mlp_1,
             min_val=config.init_method_min_mlp_1,
@@ -30,8 +33,8 @@ def __init__(self, config: TransformerConfig, tensor_space: TensorSpace, name: s
             max_val=config.init_method_max_mlp_2,
         )
 
-        hidden_dim = tensor_space.get_tensor_dim(TransformerDimNames.hidden)
-        self._intermediate_dim = tensor_space.get_tensor_dim(TransformerDimNames.composite_expert_mlp)
+        hidden_dim = tensor_space.get_tensor_dim(self._transformer_dim_names.hidden)
+        self._intermediate_dim = tensor_space.get_tensor_dim(self._transformer_dim_names.composite_expert_mlp)
         self._sequence_parallel = tensor_space.distributed_config.sequence_tensor_parallel
         self._recompute_level = config.mlp_recompute_level
 
@@ -46,7 +49,7 @@ def __init__(self, config: TransformerConfig, tensor_space: TensorSpace, name: s
         # So both layers' weights have shape (num_experts [* gate_up] * ffn, hidden_size)
         self.layer_1 = LinearBase(
             hidden_dim,
-            tensor_space.get_tensor_dim(TransformerDimNames.composite_gated_expert_mlp),
+            tensor_space.get_tensor_dim(self._transformer_dim_names.composite_gated_expert_mlp),
             bias=config.add_mlp_bias,
             weight_init_method=init_method_1,
             bias_init_method=init_method_1 if config.random_bias_init else init_zeros_,
diff --git a/fast_llm/layers/transformer/preprocessing.py b/fast_llm/layers/transformer/preprocessing.py
index bedab9f6..9b79aa1b 100644
--- a/fast_llm/layers/transformer/preprocessing.py
+++ b/fast_llm/layers/transformer/preprocessing.py
@@ -7,13 +7,8 @@
 from fast_llm.engine.base_model.config import Preprocessor
 from fast_llm.engine.config_utils.tensor_space import DefaultDimNames, TensorDim, TensorSpace
 from fast_llm.functional.rotary import convert_rotary_complex_to_real
-from fast_llm.layers.transformer.config import (
-    RotaryConfig,
-    RotaryEmbeddingType,
-    TransformerConfig,
-    TransformerDimNames,
-    TransformerKwargs,
-)
+from fast_llm.layers.transformer.config import RotaryConfig, RotaryEmbeddingType, TransformerConfig, TransformerKwargs
+from fast_llm.layers.vision_encoder.config import VisionEncoderKwargs
 from fast_llm.tensor import TensorMeta
 
 logger = logging.getLogger(__name__)
@@ -130,64 +125,115 @@ def get_rotary_frequencies(
     return frequencies
 
 
+def get_2d_rotary_frequencies(
+    config: RotaryConfig,
+    height,
+    width,
+    kv_channels,
+    *,
+    device="cuda",
+) -> torch.Tensor:
+    # Calculate complex frequencies by using alternating channels for width and height
+    height_positions = torch.arange(height, device=device, dtype=torch.float64)
+    width_positions = torch.arange(width, device=device, dtype=torch.float64)
+    frequencies = config.theta ** -torch.arange(0, 1, 2 / kv_channels, device=device, dtype=torch.float64)
+    angles_h = torch.outer(height_positions, frequencies[::2])
+    angles_w = torch.outer(width_positions, frequencies[1::2])
+    angles = torch.cat(
+        [
+            angles_h[:, None, :].repeat(1, width, 1),
+            angles_w[None, :, :].repeat(height, 1, 1),
+        ],
+        dim=-1,
+    ).reshape(-1, kv_channels // 2)
+
+    frequencies = torch.polar(torch.ones_like(angles), angles)[None, :, None, :].to(torch.complex64)
+    if not config.complex_format:
+        frequencies = convert_rotary_complex_to_real(
+            torch.view_as_real(frequencies).flatten(-2), kv_channels, 3
+        ).contiguous()
+
+    return frequencies
+
+
 class RotaryEmbeddingPreprocessor(Preprocessor):
     _scalar_dim: TensorDim
-    _kv_channels_dim: TensorDim
-    _rotary_embedding_frequencies: torch.Tensor
     _mask: torch.Tensor
     _mask_value: torch.Tensor
-    _tensor_cache_max_sequence_length: int = -1
 
     def __init__(
         self,
         config: RotaryConfig,
         tensor_space: TensorSpace,
     ):
+        self._transformer_dim_names = config._transformer_dim_names
+        self._transformer_kwargs = config._transformer_kwargs
         self._config = config
         assert self._config.enabled
         self._tensor_space = tensor_space
         self._distributed_config = self._tensor_space.distributed_config
         self._scalar_dim = self._tensor_space.get_tensor_dim(DefaultDimNames.scalar)
-        self._kv_channels_dim = self._tensor_space.get_tensor_dim(TransformerDimNames.kv_channels)
+        self._kv_channels_dim = self._tensor_space.get_tensor_dim(self._transformer_dim_names.kv_channels)
+        self._tensor_cache_max_sequence_length: int = -1
 
-    def _create_tensors(self, sequence_length: int) -> None:
+    def _create_tensors(self, sequence_length: int, num_patches: None | int = None) -> None:
         if sequence_length <= self._tensor_cache_max_sequence_length:
             return
         self._tensor_cache_max_sequence_length = sequence_length
 
-        self._rotary_embedding_frequencies = get_rotary_frequencies(
-            self._config,
-            sequence_length,
-            self._kv_channels_dim.global_size,
-            device=self._tensor_space.distributed.device,
-        )
+        if self._config.type == RotaryEmbeddingType.rope_2d:
+            self._rotary_embedding_frequencies = get_2d_rotary_frequencies(
+                self._config,
+                num_patches,
+                num_patches,
+                self._kv_channels_dim.global_size,
+                device=self._tensor_space.distributed.device,
+            )
+        else:
+            self._rotary_embedding_frequencies = get_rotary_frequencies(
+                self._config,
+                sequence_length,
+                self._kv_channels_dim.global_size,
+                device=self._tensor_space.distributed.device,
+            )
 
     def preprocess(self, batch, kwargs: dict[str, typing.Any]) -> None:
-        self._create_tensors(kwargs[TransformerKwargs.sequence_length])
+        if self._config.type == RotaryEmbeddingType.rope_2d:
+            max_num_patches = kwargs[VisionEncoderKwargs.max_image_size] // kwargs[VisionEncoderKwargs.patch_size]
+            self._create_tensors(kwargs[TransformerKwargs.sequence_length], max_num_patches)
+        else:
+            self._create_tensors(kwargs[TransformerKwargs.sequence_length])
         sequence_k = kwargs[TransformerKwargs.sequence_k_dim].size
-        kwargs[TransformerKwargs.rotary_freq_q] = self._rotary_embedding_frequencies[
-            :, sequence_k - kwargs[TransformerKwargs.sequence_q_dim].size : sequence_k
-        ]
-        kwargs[TransformerKwargs.rotary_freq_k] = self._rotary_embedding_frequencies[:, :sequence_k]
+        sequence_q = kwargs[TransformerKwargs.sequence_q_dim].size
+        if self._config.type == RotaryEmbeddingType.rope_2d:
+            position_ids = kwargs[self._transformer_kwargs.patch_position_ids]
+            # sequence data parallelism is not yet supported with images, so we can safely assume that sequence_q == sequence_k
+            kwargs[self._transformer_kwargs.rotary_freq_q] = self._rotary_embedding_frequencies[:, position_ids]
+            kwargs[self._transformer_kwargs.rotary_freq_k] = self._rotary_embedding_frequencies[:, position_ids]
+        else:
+            kwargs[self._transformer_kwargs.rotary_freq_q] = self._rotary_embedding_frequencies[
+                :, sequence_k - sequence_q : sequence_k
+            ]
+            kwargs[self._transformer_kwargs.rotary_freq_k] = self._rotary_embedding_frequencies[:, :sequence_k]
 
     def preprocess_meta(self, kwargs: dict[str, typing.Any]) -> None:
-        kwargs[TransformerKwargs.rotary_freq_q] = TensorMeta.from_dims(
+        kwargs[self._transformer_kwargs.rotary_freq_q] = TensorMeta.from_dims(
             (
                 self._scalar_dim,
                 kwargs[TransformerKwargs.sequence_q_dim],
                 self._scalar_dim,
                 self._kv_channels_dim,
             ),
-            tensor_name=TransformerKwargs.rotary_freq_q,
+            tensor_name=self._transformer_kwargs.rotary_freq_q,
         )
-        kwargs[TransformerKwargs.rotary_freq_k] = TensorMeta.from_dims(
+        kwargs[self._transformer_kwargs.rotary_freq_k] = TensorMeta.from_dims(
             (
                 self._scalar_dim,
                 kwargs[TransformerKwargs.sequence_q_dim],
                 self._scalar_dim,
                 self._kv_channels_dim,
             ),
-            tensor_name=TransformerKwargs.rotary_freq_k,
+            tensor_name=self._transformer_kwargs.rotary_freq_k,
         )
 
 
@@ -204,6 +250,8 @@ def __init__(
         config: TransformerConfig,
         tensor_space: TensorSpace,
     ):
+        self._transformer_dim_names = config._transformer_dim_names
+        self._transformer_kwargs = config._transformer_kwargs
         self._config = config
         self._tensor_space = tensor_space
         self._distributed_config = self._tensor_space.distributed_config
@@ -234,10 +282,10 @@ def preprocess(self, batch, kwargs: dict[str, typing.Any]) -> None:
         self._create_tensors(kwargs[TransformerKwargs.sequence_length])
         sequence_k = kwargs[TransformerKwargs.sequence_k_dim].size
         sequence_q = kwargs[TransformerKwargs.sequence_q_dim].size
-        kwargs[TransformerKwargs.attention_mask] = self._mask[
+        kwargs[self._transformer_kwargs.attention_mask] = self._mask[
             None, None, sequence_k - sequence_q : sequence_k, None, :sequence_k
         ]
-        if (sequence_lengths := kwargs.get(TransformerKwargs.sequence_lengths, None)) is not None:
+        if (sequence_lengths := kwargs.get(self._transformer_kwargs.sequence_lengths, None)) is not None:
             seq_ids = torch.stack(
                 [
                     torch.cat([torch.full((x,), i) for i, x in enumerate(sample_lens)])
@@ -245,14 +293,14 @@ def preprocess(self, batch, kwargs: dict[str, typing.Any]) -> None:
                 ]
             )
             document_mask = (seq_ids[:, None, :] == seq_ids[:, :, None]).to(self._tensor_space.distributed.device)
-            kwargs[TransformerKwargs.attention_mask] = (
-                kwargs[TransformerKwargs.attention_mask]
+            kwargs[self._transformer_kwargs.attention_mask] = (
+                kwargs[self._transformer_kwargs.attention_mask]
                 & document_mask[:, None, sequence_k - sequence_q : sequence_k, None, :sequence_k]
             )
-        kwargs[TransformerKwargs.attention_mask_value] = self._mask_value
+        kwargs[self._transformer_kwargs.attention_mask_value] = self._mask_value
 
     def preprocess_meta(self, kwargs: dict[str, typing.Any]) -> None:
-        kwargs[TransformerKwargs.attention_mask] = TensorMeta.from_dims(
+        kwargs[self._transformer_kwargs.attention_mask] = TensorMeta.from_dims(
             (
                 self._scalar_dim,
                 self._scalar_dim,
@@ -260,12 +308,12 @@ def preprocess_meta(self, kwargs: dict[str, typing.Any]) -> None:
                 self._scalar_dim,
                 kwargs[TransformerKwargs.sequence_k_dim],
             ),
-            tensor_name=TransformerKwargs.attention_mask,
+            tensor_name=self._transformer_kwargs.attention_mask,
             dtype=torch.bool,
         )
-        kwargs[TransformerKwargs.attention_mask_value] = TensorMeta.from_dims(
+        kwargs[self._transformer_kwargs.attention_mask_value] = TensorMeta.from_dims(
             (self._scalar_dim,),
-            tensor_name=TransformerKwargs.attention_mask_value,
+            tensor_name=self._transformer_kwargs.attention_mask_value,
             dtype=self._tensor_space.distributed_config.training_dtype.torch,
         )
 
@@ -276,6 +324,8 @@ def __init__(self, config: TransformerConfig, tensor_space: TensorSpace):
         self._tensor_space = tensor_space
         self._distributed_config = self._tensor_space.distributed_config
         assert self._config.do_use_flash_attention(self._distributed_config)
+        self._transformer_dim_names = config._transformer_dim_names
+        self._transformer_kwargs = config._transformer_kwargs
 
     def preprocess(self, batch, kwargs: dict[str, typing.Any]) -> None:
         """
@@ -326,17 +376,17 @@ def preprocess(self, batch, kwargs: dict[str, typing.Any]) -> None:
         else:
             seqlens_q = torch.cat(sequence_lengths)
             seqlens_k = torch.cat(sequence_lengths)
-        kwargs[TransformerKwargs.cu_seqlens_q] = torch.cat(
+        kwargs[self._transformer_kwargs.cu_seqlens_q] = torch.cat(
             (
                 torch.zeros(1, dtype=torch.int32, device=self._tensor_space.distributed.device),
                 torch.cumsum(seqlens_q, dim=0, dtype=torch.int32).to(self._tensor_space.distributed.device),
             )
         )
-        kwargs[TransformerKwargs.cu_seqlens_k] = torch.cat(
+        kwargs[self._transformer_kwargs.cu_seqlens_k] = torch.cat(
             (
                 torch.zeros(1, dtype=torch.int32, device=self._tensor_space.distributed.device),
                 torch.cumsum(seqlens_k, dim=0, dtype=torch.int32).to(self._tensor_space.distributed.device),
             )
         )
-        kwargs[TransformerKwargs.max_seqlen_q] = seqlens_q.max()
-        kwargs[TransformerKwargs.max_seqlen_k] = seqlens_k.max()
+        kwargs[self._transformer_kwargs.max_seqlen_q] = seqlens_q.max()
+        kwargs[self._transformer_kwargs.max_seqlen_k] = seqlens_k.max()
diff --git a/fast_llm/layers/transformer/transformer.py b/fast_llm/layers/transformer/transformer.py
index b51ba1e9..81b8eecb 100644
--- a/fast_llm/layers/transformer/transformer.py
+++ b/fast_llm/layers/transformer/transformer.py
@@ -9,7 +9,7 @@
 from fast_llm.engine.config_utils.run import log_pipeline_parallel_main_rank
 from fast_llm.engine.config_utils.tensor_space import TensorDim, TensorSpace
 from fast_llm.layers.transformer.attention import Attention
-from fast_llm.layers.transformer.config import TransformerConfig, TransformerDimNames, TransformerKwargs
+from fast_llm.layers.transformer.config import TransformerConfig
 from fast_llm.layers.transformer.mixture_of_experts import MixtureOfExpertMLP
 from fast_llm.layers.transformer.mlp import MLP
 from fast_llm.logging import log_distributed_grad, log_distributed_tensor, log_memory_usage
@@ -29,6 +29,8 @@ def __init__(
         self, config: TransformerConfig, tensor_space: TensorSpace, layer_index: int, return_input: bool = False
     ):
         super().__init__()
+        self._transformer_dim_names = config._transformer_dim_names
+        self._transformer_kwargs = config._transformer_kwargs
         self._config: TransformerConfig = config
         self._tensor_space: TensorSpace = tensor_space
         self._dropout_p: float = self._config.hidden_dropout
@@ -37,7 +39,8 @@ def __init__(
 
         self._layer_index = layer_index
         self._debug_mode = self._config.debug_transformer or self._config.debug_transformer_memory
-        hidden_dim = self._tensor_space.get_tensor_dim(TransformerDimNames.hidden)
+
+        hidden_dim = self._tensor_space.get_tensor_dim(self._transformer_dim_names.hidden)
         # Note, layer_lr_scale does not impact the norms
         # TODO: add a seperate norm_lr_scale
         self.norm_1 = self._config.normalization.get_layer(hidden_dim)
@@ -70,7 +73,7 @@ def name(self) -> str:
         return f"{self._name} {self._layer_index}"
 
     def _get_meta(self, tensor: torch.Tensor, name: str, kwargs: dict):
-        dims = kwargs[TransformerKwargs.hidden_dims]
+        dims = kwargs[self._transformer_kwargs.hidden_dims]
         if self._return_input:
             dims = (TensorDim("stacked_input_output", 2),) + dims
         return TensorMeta.from_dims(dims, tensor_name=f"{self.name} {name}", dtype=tensor.dtype)
@@ -148,3 +151,7 @@ def __init__(
 
     def _create_mixer(self):
         self.self_attn = Attention(self._config, self._tensor_space, self._layer_index)
+
+
+class VisionTransformerLayer(TransformerLayer):
+    _name: str = "Vision transformer layer"
diff --git a/fast_llm/layers/vision_encoder/adapter.py b/fast_llm/layers/vision_encoder/adapter.py
new file mode 100644
index 00000000..41ea065d
--- /dev/null
+++ b/fast_llm/layers/vision_encoder/adapter.py
@@ -0,0 +1,53 @@
+import typing
+
+import torch
+
+from fast_llm.engine.base_model.base_model import Layer
+from fast_llm.engine.config_utils.tensor_space import TensorSpace
+from fast_llm.functional.triton.mlp import torch_mlp_activation
+from fast_llm.layers.common.linear import Linear
+from fast_llm.layers.transformer.config import TransformerDimNames, TransformerKwargs
+from fast_llm.layers.vision_encoder.config import VisionEncoderConfig, VisionEncoderDimNames
+from fast_llm.tensor import TensorMeta, init_normal_
+
+
+class VisionAdapter(Layer):
+    """
+    Vision adapter layer for the LLM.
+    """
+
+    def __init__(self, config: VisionEncoderConfig, tensor_space: TensorSpace):
+        super().__init__()
+        input_dim = tensor_space.get_tensor_dim(VisionEncoderDimNames.out_channels)
+        self._activation_type = config.adapter_activation_type
+        self.layer_1 = Linear(
+            input_dim,
+            tensor_space.get_tensor_dim(VisionEncoderDimNames.adapter_size),
+            bias=True,
+            weight_init_method=init_normal_(),
+            bias_init_method=init_normal_(),
+        )
+        self.layer_2 = Linear(
+            tensor_space.get_tensor_dim(VisionEncoderDimNames.adapter_size),
+            tensor_space.get_tensor_dim(TransformerDimNames.hidden),
+            bias=True,
+            weight_init_method=init_normal_(),
+            bias_init_method=init_normal_(),
+        )
+
+    def forward(
+        self,
+        input_: torch.Tensor,
+        kwargs: dict[str, typing.Any],
+        losses: dict[str, typing.Any] | None = None,
+        metrics: dict[str, typing.Any] | None = None,
+    ) -> torch.Tensor:
+        if isinstance(input_, TensorMeta):
+            return TensorMeta.from_dims(
+                kwargs[TransformerKwargs.hidden_dims],
+                tensor_name="Vision adapter output",
+                dtype=input_.dtype,
+            )
+        return self.layer_2(
+            torch_mlp_activation(input_=self.layer_1(input_), gated=False, activation_type=self._activation_type)
+        )
diff --git a/fast_llm/layers/vision_encoder/config.py b/fast_llm/layers/vision_encoder/config.py
new file mode 100644
index 00000000..2ea7f611
--- /dev/null
+++ b/fast_llm/layers/vision_encoder/config.py
@@ -0,0 +1,169 @@
+import enum
+
+from fast_llm.config import Config, Field, FieldHint, check_field, config_class, skip_valid_if_none
+from fast_llm.engine.base_model.config import BaseModelConfig
+from fast_llm.engine.config_utils.tensor_space import TensorDim, TensorSpace
+from fast_llm.functional.config import ActivationType
+from fast_llm.layers.common.config import NormalizationConfig
+from fast_llm.layers.transformer.config import TransformerConfig
+from fast_llm.utils import Assert
+
+
+class VisionEncoderDimNames:
+    in_channels = "vision_in_channels"
+    out_channels = "vision_out_channels"
+    adapter_size = "vision_adapter_size"
+    patch_size = "vision_patch_size"
+    kv_channels = "vision_kv_channels"
+
+
+class VisionEncoderKwargs:
+    patch_size = "patch_size"
+    images = "images"
+    image_patches = "image_patches"
+    image_positions = "image_positions"
+    max_image_size = "max_image_size"
+    image_sizes = "image_sizes"
+    image_mean = "image_normalization_mean"
+    image_std = "image_normalization_std"
+    image_rescale_factor = "image_rescale_factor"
+    rope_theta = "vit_rope_theta"
+    rotary_inv_freq = "vit_rotary_inv_freq"
+    kv_channels = "vit_kv_channels"
+    max_image_tokens = "max_image_tokens"
+    patch_embeddings = "patch_embeddings"
+    hidden_dims = "vit_hidden_dims"
+    image_patches_meta = "vit_image_patches_meta"
+    out_channels = "vit_out_channels"
+
+
+@config_class()
+class ImageNormalizationConfig(Config):
+    mean_r: float = Field(
+        default=0.48145466,
+        desc="Mean value for the red channel in the image normalization process.",
+        hint=FieldHint.optional,
+    )
+    mean_g: float = Field(
+        default=0.4578275,
+        desc="Mean value for the green channel in the image normalization process.",
+        hint=FieldHint.optional,
+    )
+    mean_b: float = Field(
+        default=0.40821073,
+        desc="Mean value for the blue channel in the image normalization process.",
+        hint=FieldHint.optional,
+    )
+    std_r: float = Field(
+        default=0.26862954,
+        desc="Standard deviation value for the red channel in the image normalization process.",
+        hint=FieldHint.optional,
+    )
+    std_g: float = Field(
+        default=0.26130258,
+        desc="Standard deviation value for the green channel in the image normalization process.",
+        hint=FieldHint.optional,
+    )
+    std_b: float = Field(
+        default=0.27577711,
+        desc="Standard deviation value for the blue channel in the image normalization process.",
+        hint=FieldHint.optional,
+    )
+    rescale_factor: float = Field(
+        default=255.0,
+        desc="Rescale factor for the image normalization process.",
+        hint=FieldHint.optional,
+    )
+
+
+class VisionEncoderType(str, enum.Enum):
+    none = "none"
+    # TODO: better name? normalization, patch size, adapter can change based on implementation, no standard way currently.
+    pixtral = "pixtral"
+
+
+@config_class(registry=True)
+class VisionEncoderConfig(BaseModelConfig):
+    _abstract = False
+
+    type: VisionEncoderType = Field(
+        default=VisionEncoderType.none,
+        desc="Type of the vision encoder. Choices: none, pixtral.",
+        hint=FieldHint.architecture,
+    )
+    transformer: TransformerConfig = Field(
+        desc="Configuration for the vision transformer architecture.",
+        hint=FieldHint.core,
+    )
+    patch_size: int = Field(
+        default=16,
+        desc="Patch size for the image encoder.",
+        hint=FieldHint.core,
+    )
+    conv_bias: bool = Field(
+        default=False,
+        desc="Whether to use bias in the convolutional layer.",
+        hint=FieldHint.optional,
+    )
+    patch_norm: NormalizationConfig = Field(
+        desc="Configuration for the normalization layers applied to the image patches.",
+        hint=FieldHint.optional,
+    )
+    adapter_size: int = Field(
+        default=5120,
+        desc="Intermediate size for the adapter linear layers. Assuming 2 linear layers",
+        hint=FieldHint.core,
+    )
+    adapter_activation_type: ActivationType = Field(
+        default=ActivationType.gelu,
+        desc="The intermediate activation type for multi-modal adapter. Default: GeLU.",
+        hint=FieldHint.core,
+    )
+    adapter_bias: bool = Field(
+        default=True,
+        desc="Whether to use bias in the adapter linear layer.",
+        hint=FieldHint.optional,
+    )
+    image_normalization: ImageNormalizationConfig = Field(
+        desc="Configuration for the normalization layers applied to the image patches.",
+        hint=FieldHint.optional,
+    )
+    image_break_token: int | None = Field(
+        default=None,
+        desc="Token id to separate image rows. If None, no token id is applied.",
+        hint=FieldHint.optional,
+    )
+    image_end_token: int | None = Field(
+        default=None,
+        desc="Token id to indicate the end of an image. If None, no token id is applied.",
+        hint=FieldHint.optional,
+    )
+    adapter_lr_scale: float | None = Field(
+        default=None,
+        desc="Custom learning rate scale for the adapter weights.",
+        hint=FieldHint.feature,
+        valid=skip_valid_if_none(check_field(Assert.geq, 0)),
+    )
+    conv_lr_scale: float | None = Field(
+        default=None,
+        desc="Custom learning rate scale for the convolutional layer weights.",
+        hint=FieldHint.feature,
+        valid=skip_valid_if_none(check_field(Assert.geq, 0)),
+    )
+
+    def setup_tensor_space(self, tensor_space: TensorSpace):
+        tensor_space.add_tensor_dim(TensorDim(VisionEncoderDimNames.out_channels, self.transformer.hidden_size))
+        tensor_space.add_tensor_dim(TensorDim(VisionEncoderDimNames.adapter_size, self.adapter_size))
+        tensor_space.add_tensor_dim(TensorDim(VisionEncoderDimNames.patch_size, self.patch_size))
+        tensor_space.add_tensor_dim(TensorDim(VisionEncoderDimNames.in_channels, 3))
+        self.transformer.setup_tensor_space(tensor_space)
+
+    @property
+    def enabled(self) -> bool:
+        return self.type != VisionEncoderType.none
+
+
+for name in VisionEncoderType:
+    # We need this because we are using the reserved field name `type`.
+    # TODO: Implement proper dynamic typing.
+    VisionEncoderConfig.register_subclass(name.value, VisionEncoderConfig)
diff --git a/fast_llm/layers/vision_encoder/patch_conv.py b/fast_llm/layers/vision_encoder/patch_conv.py
new file mode 100644
index 00000000..3d1845dd
--- /dev/null
+++ b/fast_llm/layers/vision_encoder/patch_conv.py
@@ -0,0 +1,62 @@
+import typing
+
+import torch
+
+from fast_llm.core.ops import split
+from fast_llm.engine.base_model.base_model import Layer
+from fast_llm.engine.config_utils.tensor_space import TensorSpace
+from fast_llm.layers.transformer.config import TransformerKwargs, VisionTransformerKwargs
+from fast_llm.layers.vision_encoder.config import VisionEncoderConfig, VisionEncoderDimNames, VisionEncoderKwargs
+from fast_llm.tensor import ParameterMeta, TensorMeta, init_normal_
+
+
+class PatchConv(Layer):
+    def __init__(self, config: VisionEncoderConfig, tensor_space: TensorSpace):
+        super().__init__()
+        self._tensor_space = tensor_space
+        self._distributed_config = tensor_space.distributed_config
+        self._sequence_parallel = self._distributed_config.sequence_tensor_parallel
+        self._lr_scale = config.adapter_lr_scale
+        self.weight = ParameterMeta.from_dims(
+            (
+                self._tensor_space.get_tensor_dim(VisionEncoderDimNames.out_channels),
+                self._tensor_space.get_tensor_dim(VisionEncoderDimNames.in_channels),
+                self._tensor_space.get_tensor_dim(VisionEncoderDimNames.patch_size),
+                self._tensor_space.get_tensor_dim(VisionEncoderDimNames.patch_size),
+            ),
+            init_method=init_normal_(),
+            lr_scale=self._lr_scale,
+        )
+        if config.conv_bias:
+            self.bias = ParameterMeta.from_dims(
+                (self._tensor_space.get_tensor_dim(VisionEncoderDimNames.out_channels),),
+                init_method=init_normal_(),
+                lr_sclae=self._lr_scale,
+            )
+        else:
+            self.bias = None
+        self.norm = config.patch_norm.get_layer(tensor_space.get_tensor_dim(VisionEncoderDimNames.out_channels))
+        self.stride = config.patch_size
+
+    def forward(
+        self,
+        input_: torch.Tensor,
+        kwargs: dict[str, typing.Any],
+        losses: dict[str, typing.Any] | None = None,
+        metrics: dict | None = None,
+    ) -> torch.Tensor:
+        hidden_dims = kwargs[VisionTransformerKwargs.hidden_dims]
+        if isinstance(input_, TensorMeta):
+            return TensorMeta.from_dims(hidden_dims, tensor_name="patch conv output", dtype=input_.dtype)
+        micro_batch_size = kwargs[TransformerKwargs.micro_batch_size]
+        sequence_length = kwargs[TransformerKwargs.sequence_length]
+        out_channels = kwargs[VisionEncoderKwargs.out_channels]
+        reshape_dims = (micro_batch_size, sequence_length, out_channels)
+        group = self._tensor_space.distributed.tensor_group
+        input_ = torch.nn.functional.conv2d(input_, self.weight, self.bias, stride=self.stride)
+        patch_embeddings = self.norm(input_.flatten(1))
+        patch_embeddings = patch_embeddings.view(reshape_dims)
+        if self._sequence_parallel:
+            patch_embeddings = patch_embeddings.permute(1, 0, 2).contiguous()
+            patch_embeddings = split(patch_embeddings, group=group, dim=0)
+        return patch_embeddings
diff --git a/fast_llm/layers/vision_encoder/preprocessing.py b/fast_llm/layers/vision_encoder/preprocessing.py
new file mode 100644
index 00000000..ebd41b3d
--- /dev/null
+++ b/fast_llm/layers/vision_encoder/preprocessing.py
@@ -0,0 +1,260 @@
+import math
+import typing
+
+import torch
+import torchvision.transforms.v2.functional as F
+
+from fast_llm.engine.base_model.config import Preprocessor
+from fast_llm.engine.config_utils.tensor_space import TensorDim, TensorSpace
+from fast_llm.layers.language_model.config import LanguageModelKwargs
+from fast_llm.layers.transformer.config import TransformerKwargs, VisionTransformerDimNames, VisionTransformerKwargs
+from fast_llm.layers.vision_encoder.config import VisionEncoderConfig, VisionEncoderDimNames, VisionEncoderKwargs
+from fast_llm.tensor import TensorMeta
+from fast_llm.utils import div
+
+
+def get_num_patches(height: int, width: int, patch_size: int) -> tuple[int, int]:
+    """
+    Calculate the number of patches in height and width dimensions.
+    """
+    return div(height, patch_size) * div(width, patch_size)
+
+
+def get_num_image_tokens(height: int, width: int, patch_size: int, image_break: bool, image_end: bool) -> int:
+    """
+    Calculate the number of image tokens.
+    If image_break is True, we consider 1 additional token after every row of patches.
+    """
+    height_patches = div(height, patch_size)
+    width_patches = div(width, patch_size)
+    num_tokens = height_patches * width_patches
+    if image_break:
+        num_tokens += height_patches
+    elif image_end:
+        num_tokens += 1
+    return num_tokens
+
+
+def get_resize_dims(height: int, width: int, max_height: int, max_width: int, patch_size: int) -> tuple[int, int]:
+    """
+    Calculate the new dimensions for resizing an image while maintaining the aspect ratio.
+    If the image is larger than the max dimensions, it will be resized to fit within them.
+    If the image is smaller, it will be resized to the nearest multiple of the patch size.
+    """
+    ratio = max(height / max_height, width / max_width)
+    if ratio > 1:
+        # Resize to fit within max dimensions
+        height = int(height / ratio)
+        width = int(width / ratio)
+    return patch_size * math.ceil(height / patch_size), patch_size * math.ceil(width / patch_size)
+
+
+def resize(image: torch.Tensor, max_height: int, max_width: int, patch_size: int) -> tuple[int, int]:
+    target_height, target_width = get_resize_dims(
+        image.size(1), image.size(2), max_height, max_width, patch_size=patch_size
+    )
+    height, width = image.size(1), image.size(2)
+    while height > 2 * target_height or width > 2 * target_width:
+        # cap the resizing to half of the current size as a workaround for large images
+        # See pytorch issue: https://github.com/pytorch/pytorch/issues/103589
+        intermediate_max_width = max(target_width, width // 2)
+        intermediate_max_height = max(target_height, height // 2)
+        height, width = get_resize_dims(
+            height, width, intermediate_max_height, intermediate_max_width, patch_size=patch_size
+        )
+        image = F.resize(image, size=(height, width), interpolation=F.InterpolationMode.BICUBIC)
+
+    # TODO: options for interpolation mode?
+    return F.resize(image, size=(target_height, target_width), interpolation=F.InterpolationMode.BICUBIC)
+
+
+def normalize(image: torch.Tensor, mean: list[float], std: list[float]) -> torch.Tensor:
+    """
+    Normalize the image using the specified mean and standard deviation.
+    """
+    return F.normalize(image, mean=mean, std=std)
+
+
+def pad(image: torch.Tensor, max_height, max_width) -> torch.Tensor:
+    """
+    Pad images on the right and bottom with 0s untitl max_height and max_width
+    """
+    width_padding = max(0, max_height - image.size(1))
+    depth_padding = max(0, max_width - image.size(2))
+    return F.pad(image, (0, 0, depth_padding, width_padding), 0)
+
+
+def create_inv_freqs(rope_theta: int, kv_channels: int, max_image_size: int, patch_size: int) -> torch.Tensor:
+    freqs = 1.0 / (rope_theta ** (torch.arange(0, kv_channels, 2).float() / kv_channels))
+    max_patches_per_side = max_image_size // patch_size
+
+    h = torch.arange(max_patches_per_side)
+    w = torch.arange(max_patches_per_side)
+
+    freqs_h = torch.outer(h, freqs[::2]).float()
+    freqs_w = torch.outer(w, freqs[1::2]).float()
+    inv_freq = torch.cat(
+        [
+            freqs_h[:, None, :].repeat(1, max_patches_per_side, 1),
+            freqs_w[None, :, :].repeat(max_patches_per_side, 1, 1),
+        ],
+        dim=-1,
+    ).reshape(-1, kv_channels // 2)
+
+    return torch.cat((inv_freq, inv_freq), dim=-1)
+
+
+def position_ids_in_meshgrid(height, width, max_size, patch_size) -> torch.Tensor:
+    patch_height = height // patch_size
+    patch_width = width // patch_size
+    mesh = torch.meshgrid(torch.arange(patch_height), torch.arange(patch_width), indexing="ij")
+    h_grid, v_grid = torch.stack(mesh, dim=-1).reshape(-1, 2).chunk(2, -1)
+    ids = h_grid * max_size + v_grid
+    return ids[:, 0]
+
+
+class VisionPreprocessor(Preprocessor):
+    def __init__(self, config: VisionEncoderConfig, tensor_space: TensorSpace):
+        self._config = config
+        self._tensor_space = tensor_space
+        self._distributed_config = self._tensor_space.distributed_config
+
+    def preprocess_meta(self, kwargs: dict[str, typing.Any]) -> None:
+        kwargs[VisionEncoderKwargs.image_patches_meta] = TensorMeta.from_dims(
+            (
+                TensorDim(
+                    VisionTransformerDimNames.batch,
+                    kwargs[TransformerKwargs.micro_batch_size] * kwargs[TransformerKwargs.sequence_q_dim].size,
+                ),
+                TensorDim(VisionEncoderDimNames.in_channels, 3),
+                TensorDim(VisionEncoderDimNames.patch_size, kwargs[VisionEncoderKwargs.patch_size]),
+                TensorDim(VisionEncoderDimNames.patch_size, kwargs[VisionEncoderKwargs.patch_size]),
+            ),
+            dtype=self._distributed_config.training_dtype.torch,
+        )
+
+    def preprocess(self, tokens, kwargs: dict[str, typing.Any]) -> None:
+        images = kwargs.get(VisionEncoderKwargs.images)
+        max_image_size = kwargs.get(VisionEncoderKwargs.max_image_size)
+        im_width = kwargs.get(VisionEncoderKwargs.max_image_size)
+        patch_size = kwargs[VisionEncoderKwargs.patch_size]
+        image_positions = kwargs.get(VisionEncoderKwargs.image_positions)
+        image_sizes = [
+            [get_resize_dims(im.size(1), im.size(2), max_image_size, im_width, patch_size=patch_size) for im in ims]
+            for ims in images
+        ]
+        kwargs[VisionEncoderKwargs.image_sizes] = image_sizes
+        images = [
+            [
+                normalize(
+                    resize(image, max_image_size, im_width, patch_size).to(
+                        dtype=self._tensor_space.distributed_config.training_dtype.torch
+                    )
+                    / kwargs[VisionEncoderKwargs.image_rescale_factor],
+                    mean=kwargs[VisionEncoderKwargs.image_mean],
+                    std=kwargs[VisionEncoderKwargs.image_std],
+                )
+                for image in imgs
+            ]
+            for imgs in images
+        ]
+
+        labels = kwargs[LanguageModelKwargs.labels]
+        if (self._config.image_break_token is not None) or (self._config.image_end_token is not None):
+            # If image break or end token is present, we need to replace image token ids to -100 in labels
+            # TODO: avoid double cloning labels in case of loss masking spans?
+            labels = labels.clone()
+
+        patches = []
+        patch_position_ids = []
+        cu_seqlens = [0]
+        max_seqlen = -1
+        kwargs.get(TransformerKwargs.sequence_first)
+        for idx, (imgs, sizes, positions) in enumerate(zip(images, image_sizes, image_positions)):
+            # add an empty tensor for clean concatenation in case of no images
+            seq_patches = [
+                torch.tensor([]).to(
+                    dtype=self._tensor_space.distributed_config.training_dtype.torch,
+                    device=self._tensor_space.distributed.device,
+                )
+            ]
+            sample_cu_seqlen = 0
+            for image, size, position in zip(imgs, sizes, positions):
+                seqlen = get_num_patches(*size, patch_size)
+                num_tokens = get_num_image_tokens(
+                    *size,
+                    patch_size=patch_size,
+                    image_break=self._config.image_break_token is not None,
+                    image_end=self._config.image_end_token is not None,
+                )
+                # set labels for image patches to -100
+                labels[idx, max(position - 1, 0) : position + num_tokens - 1] = -100
+                if seqlen > max_seqlen:
+                    max_seqlen = seqlen
+                cu_seqlens.append(cu_seqlens[-1] + seqlen)
+                sample_cu_seqlen += seqlen
+                seq_patches.append(
+                    torch.cat(
+                        [
+                            torch.nn.functional.unfold(image, kernel_size=patch_size, stride=patch_size).T.reshape(
+                                -1, 3, patch_size, patch_size
+                            ),
+                        ]
+                    )
+                )
+            padding_size = kwargs[TransformerKwargs.sequence_length] - sample_cu_seqlen
+            if padding_size > max_seqlen:
+                max_seqlen = padding_size
+            cu_seqlens.append(kwargs[TransformerKwargs.sequence_length] * (idx + 1))
+            patches.append(
+                torch.cat(
+                    [
+                        *seq_patches,
+                        torch.zeros(padding_size, 3, patch_size, patch_size).to(
+                            dtype=self._tensor_space.distributed_config.training_dtype.torch,
+                            device=self._tensor_space.distributed.device,
+                        ),
+                    ]
+                )
+            )
+            if sizes:
+                position_ids = torch.cat(
+                    [position_ids_in_meshgrid(*size, max_image_size // patch_size, patch_size) for size in sizes]
+                ).to(device=self._tensor_space.distributed.device)
+            else:
+                position_ids = torch.tensor(
+                    [],
+                    dtype=torch.int64,
+                    device=self._tensor_space.distributed.device,
+                )
+            # We pad at the end instead of padding at the position in meshgrid because flash attention does not support custom attention masks
+            patch_position_ids.append(
+                torch.cat(
+                    [
+                        position_ids,
+                        torch.full((padding_size,), 0).to(device=self._tensor_space.distributed.device),
+                    ]
+                )
+            )
+            assert patches[-1].size(0) == kwargs[TransformerKwargs.sequence_length]
+        patches = torch.cat(patches)
+        patch_position_ids = torch.cat(patch_position_ids)
+        kwargs[VisionEncoderKwargs.image_patches] = patches
+        kwargs[VisionTransformerKwargs.patch_position_ids] = patch_position_ids
+        kwargs[VisionEncoderKwargs.rotary_inv_freq] = create_inv_freqs(
+            kwargs[VisionEncoderKwargs.rope_theta],
+            kwargs[VisionEncoderKwargs.kv_channels],
+            max_image_size,
+            patch_size,
+        ).to(device=self._tensor_space.distributed.device)
+        kwargs[VisionEncoderKwargs.max_image_tokens] = div(max_image_size * im_width, patch_size**2)
+        # sequence data parallel is not yet supported for images, so we use the same cu_seqlens for q and k
+        kwargs[VisionTransformerKwargs.cu_seqlens_q] = torch.tensor(
+            cu_seqlens, device=self._tensor_space.distributed.device, dtype=torch.int32
+        )
+        kwargs[VisionTransformerKwargs.cu_seqlens_k] = torch.tensor(
+            cu_seqlens, device=self._tensor_space.distributed.device, dtype=torch.int32
+        )
+        kwargs[VisionTransformerKwargs.max_seqlen_q] = max_seqlen
+        kwargs[VisionTransformerKwargs.max_seqlen_k] = max_seqlen
+        kwargs[LanguageModelKwargs.labels] = labels
diff --git a/fast_llm/models/gpt/config.py b/fast_llm/models/gpt/config.py
index d9085c67..47fd69de 100644
--- a/fast_llm/models/gpt/config.py
+++ b/fast_llm/models/gpt/config.py
@@ -57,6 +57,17 @@ class MTPLlamaGPTHuggingfaceCheckpointFormat(GPTHuggingfaceCheckpointFormat):
     trust_remote_code: typing.ClassVar[bool] = True
 
 
+class LlavaGPTHuggingfaceCheckpointFormat(GPTHuggingfaceCheckpointFormat):
+    name: typing.ClassVar[str] = "llava"
+    # Using default values for vision and text models. Can be overridden in the config
+    vision_name: typing.ClassVar[str] = "pixtral"
+    text_name: typing.ClassVar[str] = "mistral"
+
+
+class PixtralGPTHuggingfaceCheckpointFormat(GPTHuggingfaceCheckpointFormat):
+    name: typing.ClassVar[str] = "pixtral"
+
+
 @config_class()
 class GPTBatchConfig(BatchConfig):
     sequence_length: int = Field(
@@ -138,6 +149,8 @@ class GPTModelConfig(FastLLMModelConfig):
         MistralGPTHuggingfaceCheckpointFormat,
         MixtralGPTHuggingfaceCheckpointFormat,
         MTPLlamaGPTHuggingfaceCheckpointFormat,
+        LlavaGPTHuggingfaceCheckpointFormat,
+        PixtralGPTHuggingfaceCheckpointFormat,
     )
 
     @classmethod
@@ -152,6 +165,25 @@ def get_huggingface_model_for_causal_lm_class(cls) -> type["HuggingfaceGPTModelF
 
         return HuggingfaceGPTModelForCausalLM
 
+    @classmethod
+    def get_checkpoint_format(cls, format: type[CheckpointFormat]) -> type[CheckpointFormat]:
+        if isinstance(format, type) and issubclass(format, CheckpointFormat):
+            format_ = cls.get_checkpoint_format(format.name)
+            Assert.is_(format, format_)
+            return format_
+        elif isinstance(format, dict):
+            for format_ in cls.checkpoint_formats:
+                if format_.name == format["name"]:
+                    if (vision_name := format.get("vision_name")) is not None:
+                        format_.vision_name = vision_name
+                    if (text_name := format.get("text_name")) is not None:
+                        format_.text_name = text_name
+                    return format_
+        for format_ in cls.checkpoint_formats:
+            if format_.name == format:
+                return format_
+        raise ValueError(f"Checkpoint format {format} not supported for model {cls.model_name}")
+
 
 @config_class()
 class PretrainedGPTModelConfig(PretrainedFastLLMModelConfig):
diff --git a/fast_llm/models/gpt/conversion.py b/fast_llm/models/gpt/conversion.py
index bd733692..a7e624ff 100644
--- a/fast_llm/models/gpt/conversion.py
+++ b/fast_llm/models/gpt/conversion.py
@@ -6,8 +6,10 @@
 import torch
 from transformers.configuration_utils import PretrainedConfig
 
-from fast_llm.config import DEFAULT, MISSING
-from fast_llm.engine.checkpoint.config import CheckpointFormat
+from fast_llm import __version__
+from fast_llm.config import DEFAULT, MISSING, get_nested_dict_value, set_nested_dict_value
+from fast_llm.engine.base_model.config import BaseModelConfig
+from fast_llm.engine.checkpoint.config import CheckpointFormat, CheckpointLoadMetadataConfig
 from fast_llm.engine.checkpoint.external import (
     AutoStateDictCheckpointHandler,
     ConstantExportParamConverter,
@@ -22,18 +24,21 @@
     WeightConverter,
 )
 from fast_llm.engine.checkpoint.huggingface import CustomModelingExportMixin, HuggingfaceStateDictCheckpointHandler
-from fast_llm.engine.multi_stage.config import FastLLMModelConfig
+from fast_llm.engine.multi_stage.config import CheckpointMetadata, FastLLMModelConfig
 from fast_llm.functional.config import ActivationType
 from fast_llm.functional.rotary import convert_rotary_complex_to_real, convert_rotary_real_to_complex
 from fast_llm.layers.common.config import NormalizationType
-from fast_llm.layers.transformer.config import RotaryEmbeddingType, RoutingType, TransformerConfig
+from fast_llm.layers.transformer.config import RotaryEmbeddingType, RoutingType, TransformerConfig, TransformerType
+from fast_llm.layers.vision_encoder.config import VisionEncoderType
 from fast_llm.models.gpt.config import (
     GPTBaseModelConfig,
     GPTModelConfig,
     LlamaGPTHuggingfaceCheckpointFormat,
+    LlavaGPTHuggingfaceCheckpointFormat,
     MistralGPTHuggingfaceCheckpointFormat,
     MixtralGPTHuggingfaceCheckpointFormat,
     MTPLlamaGPTHuggingfaceCheckpointFormat,
+    PixtralGPTHuggingfaceCheckpointFormat,
     Qwen2GPTHuggingfaceCheckpointFormat,
     Starcoder2GPTHuggingfaceCheckpointFormat,
 )
@@ -110,7 +115,37 @@ def import_weight(
         return (merged_weight.t().contiguous(),)
 
 
-class CommonHuggingfaceCheckpointHandler(HuggingfaceStateDictCheckpointHandler):
+class WeightAndBiasConverterMixin:
+    def _get_weight_and_bias_converters(
+        self,
+        fast_llm_prefix: str | tuple[str, ...],
+        hf_prefix: str | tuple[str, ...],
+        use_bias: bool,
+        cls=WeightConverter,
+    ) -> list[WeightConverter]:
+        if isinstance(fast_llm_prefix, str):
+            fast_llm_prefix = (fast_llm_prefix,)
+        if isinstance(hf_prefix, str):
+            hf_prefix = (hf_prefix,)
+        converters = [
+            cls(
+                tuple(f"{prefix}.weight" for prefix in fast_llm_prefix),
+                tuple(f"{prefix}.weight" for prefix in hf_prefix),
+                self._model.config.base_model,
+            )
+        ]
+        if use_bias:
+            converters.append(
+                cls(
+                    tuple(f"{prefix}.bias" for prefix in fast_llm_prefix),
+                    tuple(f"{prefix}.bias" for prefix in hf_prefix),
+                    self._model.config.base_model,
+                )
+            )
+        return converters
+
+
+class CommonHuggingfaceCheckpointHandler(WeightAndBiasConverterMixin, HuggingfaceStateDictCheckpointHandler):
     _model: GPTModel
     _model_class: typing.ClassVar[FastLLMModelConfig] = GPTModelConfig
     """
@@ -166,17 +201,59 @@ def _get_mlp_converters(self, fast_llm_prefix: str, hf_prefix: str) -> list[Weig
 
     def _create_weight_converters(
         self,
+        hf_base_prefix: str = "",
+        offset: int = 0,
     ) -> list[WeightConverter]:
         converters = []
         num_layers = self._model.config.base_model.transformer.num_layers
 
         # Embeddings
-        converters.append(WeightConverter("layers.0.word_embeddings_weight", "model.embed_tokens.weight"))
+        converters.append(
+            WeightConverter(f"layers.{offset}.word_embeddings_weight", f"{hf_base_prefix}model.embed_tokens.weight")
+        )
 
-        converters += self._create_lm_head_converters()
+        converters += self._create_lm_head_converters(hf_base_prefix, offset=offset)
 
         for i in range(num_layers):
-            converters += self._create_transformer_layer_converters(f"layers.{i+1}", f"model.layers.{i}")
+            converters += self._create_transformer_layer_converters(
+                f"layers.{i+offset+1}", f"{hf_base_prefix}model.layers.{i}"
+            )
+
+        return converters
+
+    def _create_lm_head_converters(self, hf_base_prefix: str = "", offset: int = 0) -> list[WeightConverter]:
+        num_layers = self._model.config.base_model.transformer.num_layers
+        prediction_heads = self._model.config.base_model.prediction_heads
+        norm_bias: bool = self._model.config.base_model.transformer.normalization.type == NormalizationType.layer_norm
+        converters = []
+
+        # Next-token prediction head
+        # Final norm
+        converters += self._get_weight_and_bias_converters(
+            f"layers.{num_layers + offset + 1}.final_norm", f"{hf_base_prefix}model.norm", norm_bias
+        )
+        # Output weights
+        if self._model.config.base_model.tie_word_embeddings:
+            converters.append(IgnoreImportWeightConverter((), f"{hf_base_prefix}lm_head.weight"))
+        else:
+            converters.append(
+                WeightConverter(f"layers.{num_layers + offset + 1}.output_weights", f"{hf_base_prefix}lm_head.weight")
+            )
+
+        # MTP-heads > 0 are thrown away
+        for i in range(1, prediction_heads):
+            logger.warning(
+                f"The model weights for the multi-token prediction head {i} are discarded during conversion."
+            )
+            mtp_transformer_layer_index = num_layers + offset - 1 + 2 * i
+            # MTP transformer layer
+            converters += self._create_transformer_layer_converters(
+                f"layers.{mtp_transformer_layer_index + 1}", "", ignore_export=True
+            )
+            # MTP output norm
+            converters += self._get_weight_and_bias_converters(
+                f"layers.{mtp_transformer_layer_index + 2}.final_norm", (), norm_bias, IgnoreExportWeightConverter
+            )
 
         return converters
 
@@ -247,68 +324,6 @@ def _create_transformer_layer_converters(
             converters += self._get_mlp_converters(f"{fast_llm_layer_name}", f"{hf_layer_name}")
         return converters
 
-    def _create_lm_head_converters(self) -> list[WeightConverter]:
-        num_layers = self._model.config.base_model.transformer.num_layers
-        prediction_heads = self._model.config.base_model.prediction_heads
-        norm_bias: bool = self._model.config.base_model.transformer.normalization.type == NormalizationType.layer_norm
-        converters = []
-
-        # Next-token prediction head
-        # Final norm
-        converters += self._get_weight_and_bias_converters(
-            f"layers.{num_layers + 1}.final_norm", "model.norm", norm_bias
-        )
-        # Output weights
-        if self._model.config.base_model.tie_word_embeddings:
-            converters.append(IgnoreImportWeightConverter((), "lm_head.weight"))
-        else:
-            converters.append(WeightConverter(f"layers.{num_layers + 1}.output_weights", "lm_head.weight"))
-
-        # MTP-heads > 0 are thrown away
-        for i in range(1, prediction_heads):
-            logger.warning(
-                f"The model weights for the multi-token prediction head {i} are discarded during conversion."
-            )
-            mtp_transformer_layer_index = num_layers - 1 + 2 * i
-            # MTP transformer layer
-            converters += self._create_transformer_layer_converters(
-                f"layers.{mtp_transformer_layer_index + 1}", "", ignore_export=True
-            )
-            # MTP output norm
-            converters += self._get_weight_and_bias_converters(
-                f"layers.{mtp_transformer_layer_index + 2}.final_norm", (), norm_bias, IgnoreExportWeightConverter
-            )
-
-        return converters
-
-    def _get_weight_and_bias_converters(
-        self,
-        fast_llm_prefix: str | tuple[str, ...],
-        hf_prefix: str | tuple[str, ...],
-        use_bias: bool,
-        cls=WeightConverter,
-    ) -> list[WeightConverter]:
-        if isinstance(fast_llm_prefix, str):
-            fast_llm_prefix = (fast_llm_prefix,)
-        if isinstance(hf_prefix, str):
-            hf_prefix = (hf_prefix,)
-        converters = [
-            cls(
-                tuple(f"{prefix}.weight" for prefix in fast_llm_prefix),
-                tuple(f"{prefix}.weight" for prefix in hf_prefix),
-                self._model.config.base_model,
-            )
-        ]
-        if use_bias:
-            converters.append(
-                cls(
-                    tuple(f"{prefix}.bias" for prefix in fast_llm_prefix),
-                    tuple(f"{prefix}.bias" for prefix in hf_prefix),
-                    self._model.config.base_model,
-                )
-            )
-        return converters
-
 
 class Starcoder2HuggingfaceCheckpointHandler(CommonHuggingfaceCheckpointHandler):
     format: typing.ClassVar[type[CheckpointFormat]] = Starcoder2GPTHuggingfaceCheckpointFormat
@@ -357,7 +372,7 @@ def _create_config_converters(cls) -> list[ParamConverter]:
             ),
             RenameParamConverter(
                 fast_llm_names=(("transformer", "kv_channels"),),
-                export_names=(("head_dim"),),
+                export_names=(("head_dim",),),
             ),
             ConstantImportParamConverter(fast_llm_names=(("transformer", "gated"),), fast_llm_value=True),
             ConstantImportParamConverter(fast_llm_names=(("transformer", "add_linear_biases"),), fast_llm_value=False),
@@ -548,6 +563,365 @@ def _get_mlp_converters(self, fast_llm_prefix: str, hf_prefix: str) -> list[Weig
         ]
 
 
+class PixtralNumHeadsConverter(ParamConverter):
+    """
+    Pixtral encoder uses Multi-Head Attention.
+    Map `num_attention_heads` and `head_groups` to a single `num_heads` parameter.
+    """
+
+    def __post_init__(self):
+        Assert.eq(len(self.fast_llm_names), 2)
+        Assert.eq(len(self.export_names), 1)
+
+    def export_params(self, fast_llm_values: tuple[typing.Any, ...]) -> tuple[typing.Any, ...]:
+        (num_heads, head_groups) = fast_llm_values
+        assert head_groups == num_heads, "Pixtral encoder expects num_heads == head_groups (MHA)"
+        return (num_heads,)
+
+    def import_params(self, export_values: tuple[typing.Any, ...]) -> tuple[typing.Any, ...]:
+        (num_heads,) = export_values
+        return (num_heads, num_heads)
+
+
+class PixtralHuggingfaceCheckpointHandler(WeightAndBiasConverterMixin, HuggingfaceStateDictCheckpointHandler):
+    format: typing.ClassVar[type[CheckpointFormat]] = PixtralGPTHuggingfaceCheckpointFormat
+    _model_class: typing.ClassVar[FastLLMModelConfig] = GPTModelConfig
+
+    @classmethod
+    def _create_config_converters(cls) -> list[ParamConverter]:
+        return super()._create_config_converters() + [
+            ConstantImportParamConverter(
+                fast_llm_names=(("patch_norm", "type"),), fast_llm_value=NormalizationType.rms_norm
+            ),
+            ConstantImportParamConverter(
+                fast_llm_names=(("transformer", "normalization", "type"),), fast_llm_value=NormalizationType.rms_norm
+            ),
+            ConstantImportParamConverter(
+                fast_llm_names=(("transformer", "type"),), fast_llm_value=TransformerType.image_encoder
+            ),
+            ConstantExportParamConverter(export_names=(("architectures",),), export_value=["PixtralVisionModel"]),
+            ConstantImportParamConverter(fast_llm_names=(("type",),), fast_llm_value=VisionEncoderType.pixtral),
+            ConstantImportParamConverter(fast_llm_names=(("transformer", "causal"),), fast_llm_value=False),
+            RenameParamConverter(
+                fast_llm_names=(
+                    (
+                        "transformer",
+                        "num_layers",
+                    ),
+                ),
+                export_names=(("num_hidden_layers",),),
+            ),
+            RenameParamConverter(
+                fast_llm_names=(
+                    (
+                        "transformer",
+                        "hidden_size",
+                    ),
+                ),
+                export_names=(("hidden_size",),),
+            ),
+            PixtralNumHeadsConverter(
+                fast_llm_names=(
+                    (
+                        "transformer",
+                        "num_attention_heads",
+                    ),
+                    (
+                        "transformer",
+                        "head_groups",
+                    ),
+                ),
+                export_names=(("num_attention_heads",),),
+            ),
+            RenameParamConverter(
+                fast_llm_names=(
+                    (
+                        "transformer",
+                        "ffn_hidden_size",
+                    ),
+                ),
+                export_names=(("intermediate_size",),),
+            ),
+            MappedConfigParamConverter(
+                fast_llm_names=(("transformer", "activation_type"),),
+                export_names=(("hidden_act",),),
+                fast_llm_value=ActivationType.from_hf_name,
+                export_value=lambda activation_type: activation_type.hf_name,
+            ),
+            RenameParamConverter(
+                fast_llm_names=(
+                    (
+                        "transformer",
+                        "kv_channels",
+                    ),
+                ),
+                export_names=(("head_dim",),),
+            ),
+            ConstantImportParamConverter(
+                fast_llm_names=(("transformer", "rotary", "type"),), fast_llm_value=RotaryEmbeddingType.rope_2d
+            ),
+            RenameParamConverter(
+                fast_llm_names=(
+                    (
+                        "transformer",
+                        "rotary",
+                        "theta",
+                    ),
+                ),
+                export_names=(("rope_theta",),),
+            ),
+            RenameParamConverter(fast_llm_names=(("patch_size",),), export_names=(("patch_size",),)),
+            ConstantImportParamConverter(fast_llm_names=(("transformer", "gated"),), fast_llm_value=True),
+            ConstantImportParamConverter(fast_llm_names=(("transformer", "add_linear_biases"),), fast_llm_value=False),
+        ]
+
+    def _get_transformer_mlp_converters(self, fast_llm_prefix: str, hf_prefix: str) -> list[WeightConverter]:
+        return [
+            SplitWeightConverter(
+                f"{fast_llm_prefix}.mlp.layer_1.weight",
+                (f"{hf_prefix}.feed_forward.gate_proj.weight", f"{hf_prefix}.feed_forward.up_proj.weight"),
+            ),
+            MLPLayer2Converter(
+                f"{fast_llm_prefix}.mlp.layer_2.weight",
+                f"{hf_prefix}.feed_forward.down_proj.weight",
+                self._model.config.base_model,
+            ),
+        ]
+
+    def _create_vision_transformer_layer_converters(
+        self, transformer_layer_index: int, fast_llm_offset: int = 1, hf_base_prefix: str = ""
+    ) -> list[WeightConverter]:
+        # Vision transformer layer
+        transformer_config = self._model.config.base_model.vision_encoder.transformer
+        norm_bias: bool = transformer_config.normalization.type == NormalizationType.layer_norm
+        name_bias_cls = [
+            # Self-attn
+            (
+                f"layers.{fast_llm_offset + transformer_layer_index}.self_attn.query",
+                f"{hf_base_prefix}transformer.layers.{transformer_layer_index}.attention.q_proj",
+                transformer_config.add_attn_qkv_bias,
+                QueryWeightConverter,
+            ),
+            (
+                f"layers.{fast_llm_offset + transformer_layer_index}.self_attn.key_value",
+                (
+                    f"{hf_base_prefix}transformer.layers.{transformer_layer_index}.attention.k_proj",
+                    f"{hf_base_prefix}transformer.layers.{transformer_layer_index}.attention.v_proj",
+                ),
+                transformer_config.add_attn_qkv_bias,
+                KeyValueWeightConverter,
+            ),
+            (
+                f"layers.{fast_llm_offset + transformer_layer_index}.self_attn.dense",
+                f"{hf_base_prefix}transformer.layers.{transformer_layer_index}.attention.o_proj",
+                transformer_config.add_attn_dense_bias,
+                WeightConverter,
+            ),
+            # Norm
+            (
+                f"layers.{fast_llm_offset + transformer_layer_index}.norm_1",
+                f"{hf_base_prefix}transformer.layers.{transformer_layer_index}.attention_norm",
+                norm_bias,
+                WeightConverter,
+            ),
+            (
+                f"layers.{fast_llm_offset + transformer_layer_index}.norm_2",
+                f"{hf_base_prefix}transformer.layers.{transformer_layer_index}.ffn_norm",
+                norm_bias,
+                WeightConverter,
+            ),
+        ]
+        converters = []
+        for fast_llm_prefix, hf_prefix, use_bias, cls in name_bias_cls:
+            converters += self._get_weight_and_bias_converters(
+                fast_llm_prefix,
+                hf_prefix,
+                use_bias,
+                cls,
+            )
+        # MLP
+        converters += self._get_transformer_mlp_converters(
+            f"layers.{fast_llm_offset + transformer_layer_index}",
+            f"{hf_base_prefix}transformer.layers.{transformer_layer_index}",
+        )
+        return converters
+
+    def _create_weight_converters(self, offset: int = 0, hf_base_prefix: str = "") -> list[WeightConverter]:
+        converters = []
+        converters.append(WeightConverter(f"layers.{offset}.weight", f"{hf_base_prefix}patch_conv.weight"))
+        if self._model.config.base_model.vision_encoder.conv_bias:
+            converters.append(WeightConverter(f"layers.{offset}.bias", f"{hf_base_prefix}patch_conv.bias"))
+        converters.append(WeightConverter(f"layers.{offset}.norm.weight", f"{hf_base_prefix}ln_pre.weight"))
+        if self._model.config.base_model.vision_encoder.patch_norm.type == NormalizationType.layer_norm:
+            converters.append(WeightConverter(f"layers.{offset}.norm.bias", f"{hf_base_prefix}ln_pre.bias"))
+
+        num_layers = self._model.config.base_model.vision_encoder.transformer.num_layers
+        for i in range(num_layers):
+            converters += self._create_vision_transformer_layer_converters(i, offset + 1, hf_base_prefix)
+
+        converters.extend(
+            [
+                WeightConverter(
+                    f"layers.{offset + num_layers + 1}.layer_1.weight", "multi_modal_projector.linear_1.weight"
+                ),
+                WeightConverter(
+                    f"layers.{offset + num_layers + 1}.layer_2.weight", "multi_modal_projector.linear_2.weight"
+                ),
+            ]
+        )
+        if self._model.config.base_model.vision_encoder.adapter_bias:
+            converters.extend(
+                [
+                    WeightConverter(
+                        f"layers.{offset + num_layers + 1}.layer_1.bias", "multi_modal_projector.linear_1.bias"
+                    ),
+                    WeightConverter(
+                        f"layers.{offset + num_layers + 1}.layer_2.bias", "multi_modal_projector.linear_2.bias"
+                    ),
+                ]
+            )
+
+        return converters
+
+    @property
+    def num_layers(self) -> int:
+        # +2 for projector and conv layers
+        return self._model.config.base_model.vision_encoder.transformer.num_layers + 2
+
+
+class LlavaHuggingfaceCheckpointHandler(HuggingfaceStateDictCheckpointHandler):
+    format: typing.ClassVar[type[CheckpointFormat]] = LlavaGPTHuggingfaceCheckpointFormat
+    _model_class: typing.ClassVar[FastLLMModelConfig] = GPTModelConfig
+
+    @classmethod
+    def _load_metadata(cls, config: CheckpointLoadMetadataConfig) -> CheckpointMetadata:
+        cfg_dict = cls._load_config(config.path)
+        kwargs = {}
+        if "text_config" in cfg_dict:
+            text_kwargs = cls._import_config(cfg_dict["text_config"])
+            kwargs.update(text_kwargs)
+        if "vision_config" in cfg_dict:
+            vision_kwargs = cls._import_config(cfg_dict["vision_config"])
+            vision_kwargs = {tuple(["vision_encoder"] + list(key)): value for key, value in vision_kwargs.items()}
+            kwargs.update(vision_kwargs)
+        kwargs.update(
+            cls._import_config(
+                {key: value for key, value in cfg_dict.items() if key not in ("text_config", "vision_config")}
+            )
+        )
+        imported_model_config = cls._model_class.get_base_model_config_class().from_dict({}, kwargs)
+        return CheckpointMetadata(
+            fast_llm_version=__version__,
+            model=cls._model_class,
+            format=config.format,
+            config=cls._model_class.from_dict({"base_model": imported_model_config.to_dict()}),
+            shards=["weights"],
+        )
+
+    @classmethod
+    def _create_config_converters(cls) -> list[ParamConverter]:
+        return super()._create_config_converters() + [
+            ConstantExportParamConverter(
+                export_names=(("architectures",),), export_value=["LlavaForConditionalGeneration"]
+            ),
+            MappedConfigParamConverter(
+                fast_llm_names=(("vision_encoder", "adapter_activation_type"),),
+                export_names=(("projector_hidden_act",),),
+                fast_llm_value=ActivationType.from_hf_name,
+                export_value=lambda activation_type: activation_type.hf_name,
+            ),
+            RenameParamConverter(
+                fast_llm_names=(("vision_encoder", "adapter_size"),),
+                export_names=(("projector_intermediate_size",),),
+            ),
+        ]
+
+    @classmethod
+    def _import_config(cls, config: dict[str, typing.Any]) -> GPTBaseModelConfig:
+        handler_cls = AutoGPTHuggingfaceCheckpointHandler.get_handler_class(config["model_type"])
+        kwargs = {}
+        for converter in handler_cls._create_config_converters():
+            try:
+                values = ()
+                for export_name in converter.export_names:
+                    try:
+                        value = get_nested_dict_value(config, export_name)
+                    except KeyError:
+                        value = MISSING
+                    values = values + (value,)
+                values = converter.import_params(values)
+                for fast_llm_name, value in zip(converter.fast_llm_names, values, strict=True):
+                    if value is MISSING:
+                        raise ValueError(f"Missing converted value for fast-llm parameter {fast_llm_name}")
+                    if fast_llm_name in kwargs:
+                        raise ValueError(f"Duplicate converted value for fast-llm parameter {fast_llm_name}")
+                    kwargs[fast_llm_name] = value
+            except Exception as e:
+                raise RuntimeError(f"Config conversion failed for converter {converter}", *e.args)
+
+        return kwargs
+
+    @classmethod
+    def _export_config(cls, config: BaseModelConfig) -> dict[str, typing.Any]:
+        exported_config = {}
+        vision_handler_cls = AutoGPTHuggingfaceCheckpointHandler.get_handler_class(cls.format.vision_name)
+        text_handler_cls = AutoGPTHuggingfaceCheckpointHandler.get_handler_class(cls.format.text_name)
+        for converter in vision_handler_cls._create_config_converters():
+            try:
+                values = converter.export_params(
+                    tuple(
+                        cls._get_fast_llm_attribute(config, ("vision_encoder",) + fast_llm_name)
+                        for fast_llm_name in converter.fast_llm_names
+                    )
+                )
+                for export_name, value in zip(converter.export_names, values, strict=True):
+                    if value is not MISSING:
+                        set_nested_dict_value(exported_config, ("vision_config",) + export_name, value)
+            except Exception as e:
+                raise RuntimeError(f"Config conversion failed for converter {converter}", *e.args)
+
+        for converter in text_handler_cls._create_config_converters():
+            try:
+                values = converter.export_params(
+                    tuple(
+                        cls._get_fast_llm_attribute(config, fast_llm_name)
+                        for fast_llm_name in converter.fast_llm_names
+                    )
+                )
+                for export_name, value in zip(converter.export_names, values, strict=True):
+                    if value is not MISSING:
+                        set_nested_dict_value(exported_config, ("text_config",) + export_name, value)
+            except Exception as e:
+                raise RuntimeError(f"Config conversion failed for converter {converter}", *e.args)
+
+        for converter in cls._create_config_converters():
+            try:
+                values = converter.export_params(
+                    tuple(
+                        cls._get_fast_llm_attribute(config, fast_llm_name)
+                        for fast_llm_name in converter.fast_llm_names
+                    )
+                )
+                for export_name, value in zip(converter.export_names, values, strict=True):
+                    if value is not MISSING:
+                        set_nested_dict_value(exported_config, export_name, value)
+            except Exception as e:
+                raise RuntimeError(f"Config conversion failed for converter {converter}", *e.args)
+
+        return exported_config
+
+    def _create_weight_converters(self):
+        vision_handler_cls = AutoGPTHuggingfaceCheckpointHandler.get_handler_class(self.format.vision_name)
+        vision_handler = vision_handler_cls(self._model)
+        converters = vision_handler._create_weight_converters(hf_base_prefix="vision_tower.", offset=0)
+        text_handler_cls = AutoGPTHuggingfaceCheckpointHandler.get_handler_class(self.format.text_name)
+        text_handler = text_handler_cls(self._model)
+        converters.extend(
+            text_handler._create_weight_converters(hf_base_prefix="language_model.", offset=vision_handler.num_layers)
+        )
+        return converters
+
+
 class MixtralHuggingfaceCheckpointHandler(CommonLlamaHuggingfaceCheckpointHandler):
     format: typing.ClassVar[type[CheckpointFormat]] = MixtralGPTHuggingfaceCheckpointFormat
 
@@ -680,4 +1054,7 @@ class AutoGPTHuggingfaceCheckpointHandler(
         MistralGPTHuggingfaceCheckpointFormat.name: MistralHuggingfaceCheckpointHandler,
         MixtralGPTHuggingfaceCheckpointFormat.name: MixtralHuggingfaceCheckpointHandler,
         MTPLlamaGPTHuggingfaceCheckpointFormat.name: MTPLlamaHuggingfaceCheckpointHandler,
+        LlavaGPTHuggingfaceCheckpointFormat.name: LlavaHuggingfaceCheckpointHandler,
+        PixtralGPTHuggingfaceCheckpointFormat.name: PixtralHuggingfaceCheckpointHandler,
+        # MultiModalGPTHuggingfaceCheckpointFormat.name: MultiModalHuggingfaceCheckpointHandler
     }
diff --git a/fast_llm/models/gpt/model.py b/fast_llm/models/gpt/model.py
index b548ab52..23bb3d06 100644
--- a/fast_llm/models/gpt/model.py
+++ b/fast_llm/models/gpt/model.py
@@ -14,18 +14,25 @@
 from fast_llm.layers.language_model.embedding import WORD_EMBEDDINGS_WEIGHT, LanguageModelEmbedding
 from fast_llm.layers.language_model.head import OUTPUT_WEIGHTS, LanguageModelHead
 from fast_llm.layers.language_model.preprocessing import PositionEmbeddingPreprocessor, PreferenceSpanPreprocessor
+from fast_llm.layers.multi_modal.embedding import MultiModalEmbedding
 from fast_llm.layers.transformer.config import (
     RoutingType,
     TransformerDimNames,
     TransformerKwargs,
     TransformerLossNames,
+    VisionTransformerDimNames,
+    VisionTransformerKwargs,
 )
 from fast_llm.layers.transformer.preprocessing import (
     BackupAttentionPreprocessor,
     FlashAttnVarlenPreprocessor,
     RotaryEmbeddingPreprocessor,
 )
-from fast_llm.layers.transformer.transformer import TransformerLayer
+from fast_llm.layers.transformer.transformer import TransformerLayer, VisionTransformerLayer
+from fast_llm.layers.vision_encoder.adapter import VisionAdapter
+from fast_llm.layers.vision_encoder.config import VisionEncoderDimNames, VisionEncoderKwargs
+from fast_llm.layers.vision_encoder.patch_conv import PatchConv
+from fast_llm.layers.vision_encoder.preprocessing import VisionPreprocessor
 from fast_llm.models.gpt.config import GPTBaseModelConfig, GPTBatchConfig, GPTModelConfig
 from fast_llm.models.gpt.megatron import get_init_megatron
 from fast_llm.tensor import ParameterMeta, TensorMeta
@@ -73,6 +80,13 @@ def __init__(
         if self._config.enable_dpo:  # TODO better way to pass in?
             self._preprocessors.append(PreferenceSpanPreprocessor(self._config, self._tensor_space))
 
+        if self._config.vision_encoder.enabled:
+            self._preprocessors.append(VisionPreprocessor(self._config.vision_encoder, self._tensor_space))
+            if self._config.vision_encoder.transformer.rotary.enabled:
+                self._preprocessors.append(
+                    RotaryEmbeddingPreprocessor(self._config.vision_encoder.transformer.rotary, self._tensor_space)
+                )
+
     def get_output_layers(self) -> list[Layer]:
         layers = []
         for i in range(self._config.prediction_heads):
@@ -97,9 +111,25 @@ def get_output_layers(self) -> list[Layer]:
             )
         return layers
 
+    def get_vision_layers(self) -> list[Layer]:
+        vit_layers = [
+            VisionTransformerLayer(self._config.vision_encoder.transformer, self._tensor_space, layer_index=idx + 1)
+            for idx in range(self._config.vision_encoder.transformer.num_layers)
+        ]
+        return [
+            PatchConv(self._config.vision_encoder, self._tensor_space),
+            *vit_layers,
+            VisionAdapter(self._config.vision_encoder, self._tensor_space),
+            MultiModalEmbedding(self._config, self._tensor_space),
+        ]
+
     def get_layers(self) -> list[Layer]:
         return [
-            LanguageModelEmbedding(self._config, self._tensor_space),
+            *(
+                [LanguageModelEmbedding(self._config, self._tensor_space)]
+                if not self._config.vision_encoder.enabled
+                else self.get_vision_layers()
+            ),
             *[
                 TransformerLayer(
                     self._config.transformer,
@@ -130,6 +160,36 @@ def preprocess_meta(
                 sequence_length -= self._config.prediction_heads
             micro_sequence_length = sequence_length
 
+        if self._config.vision_encoder.enabled:
+            max_image_size = batch_meta.max_image_size
+            image_mean = [
+                self._config.vision_encoder.image_normalization.mean_r,
+                self._config.vision_encoder.image_normalization.mean_g,
+                self._config.vision_encoder.image_normalization.mean_b,
+            ]
+            image_std = [
+                self._config.vision_encoder.image_normalization.std_r,
+                self._config.vision_encoder.image_normalization.std_g,
+                self._config.vision_encoder.image_normalization.std_b,
+            ]
+            image_rescale_factor = self._config.vision_encoder.image_normalization.rescale_factor
+            vision_kwargs = {
+                VisionEncoderKwargs.patch_size: self._config.vision_encoder.patch_size,
+                VisionEncoderKwargs.max_image_size: max_image_size,
+                VisionEncoderKwargs.image_mean: image_mean,
+                VisionEncoderKwargs.image_std: image_std,
+                VisionEncoderKwargs.image_rescale_factor: image_rescale_factor,
+                VisionEncoderKwargs.rope_theta: self._config.vision_encoder.transformer.rotary.theta,
+                VisionEncoderKwargs.kv_channels: self._tensor_space.get_tensor_dim(
+                    VisionTransformerDimNames.kv_channels
+                ).size,
+                VisionEncoderKwargs.out_channels: self._tensor_space.get_tensor_dim(
+                    VisionEncoderDimNames.out_channels
+                ).size,
+            }
+        else:
+            vision_kwargs = {}
+
         batch_data = self._tensor_space.distributed_config.get_distributed_dim(DistributedDimNames.batch_data)
         batch_dim = TensorDim(TransformerDimNames.batch, micro_batch_size * batch_data.size, batch_data)
 
@@ -172,6 +232,18 @@ def preprocess_meta(
             if sequence_first
             else (batch_dim, hidden_sequence_q_dim, hidden_dim)
         )
+        if self._config.vision_encoder.enabled:
+            vision_hidden_dim = self._tensor_space.get_tensor_dim(VisionTransformerDimNames.hidden)
+            vision_hidden_dims = (
+                (hidden_sequence_q_dim, batch_dim, vision_hidden_dim)
+                if sequence_first
+                else (batch_dim, hidden_sequence_q_dim, vision_hidden_dim)
+            )
+            vision_kwargs.update(
+                {
+                    VisionTransformerKwargs.hidden_dims: vision_hidden_dims,
+                }
+            )
 
         common_kwargs = {
             LanguageModelKwargs.phase: phase,
@@ -179,7 +251,9 @@ def preprocess_meta(
             TransformerKwargs.hidden_dims: hidden_dims,
             TransformerKwargs.sequence_length: sequence_length,
             TransformerKwargs.sequence_q_dim: sequence_q_dim,
+            TransformerKwargs.micro_batch_size: micro_batch_size,
         }
+        common_kwargs.update(vision_kwargs)
 
         sequence_k_pasts = range(
             sequence_q_dim.size * self._tensor_space.distributed_config.sequence_data_rank,
@@ -225,7 +299,11 @@ def preprocess_meta(
                 reference_kwargs[name] = reference_kwargs_
             kwargs["reference_models"] = reference_kwargs
 
-            preprocessed_meta.append((tokens, kwargs))
+            if self._config.vision_encoder.enabled:
+                # patch_dimensions are (batch * sequence_length) x 3 x patch_size x patch_size
+                preprocessed_meta.append((kwargs[VisionEncoderKwargs.image_patches_meta], kwargs))
+            else:
+                preprocessed_meta.append((tokens, kwargs))
 
         return preprocessed_meta
 
@@ -309,9 +387,11 @@ def preprocess(
                     labels = batch.token_ids[:, sequence_offset : sequence_k + prediction_heads].contiguous()
                     # We set label indices to -100 for masked spans, inline with ignore_index in torch.nn.CrossEntropyLoss
                     # TODO: take ignore_index from config
+                labels_cloned = False
                 if batch.loss_masking_spans is not None:
                     # avoid changing input tokens
                     labels = labels.clone()
+                    labels_cloned = True
                     for i, spans in enumerate(batch.loss_masking_spans):
                         if not spans.numel():
                             continue
@@ -332,22 +412,62 @@ def preprocess(
                             if self._config.distillation_model is not None:
                                 kwargs[LanguageModelKwargs.loss_mask] = loss_mask
                             labels = torch.where(loss_mask, labels, -100)
+                if self._config.vision_encoder.enabled:
+                    if self._config.vision_encoder.image_break_token is not None:
+                        if not labels_cloned:
+                            labels = labels.clone()
+                            labels_cloned = True
+                        labels = torch.where(labels == self._config.vision_encoder.image_break_token, -100, labels)
+                    if self._config.vision_encoder.image_end_token is not None:
+                        if not labels_cloned:
+                            labels = labels.clone()
+                            labels_cloned = True
+                        labels = torch.where(labels == self._config.vision_encoder.image_end_token, -100, labels)
                 kwargs[LanguageModelKwargs.labels] = labels
             kwargs.update(reference_logits[i])
 
+            if self._config.vision_encoder.enabled:
+                batch_images = (
+                    batch.images if batch.images is not None else [[]] * kwargs[TransformerKwargs.micro_batch_size]
+                )
+                kwargs[VisionEncoderKwargs.images] = [
+                    [
+                        img.to(device=self._tensor_space.distributed.device, dtype=torch.uint8, non_blocking=True)
+                        for img in images
+                    ]
+                    for images in batch_images
+                ]
+                kwargs[VisionEncoderKwargs.image_positions] = (
+                    batch.image_positions
+                    if batch.image_positions is not None
+                    else [[]] * kwargs[TransformerKwargs.micro_batch_size]
+                )
+                kwargs[LanguageModelKwargs.tokens] = tokens
+
             for preprocessor in self._preprocessors:
                 preprocessor.preprocess(tokens, kwargs)
-            preprocessed.append((tokens, kwargs))
+            image_patches = kwargs.get(VisionEncoderKwargs.image_patches, None)
+            if image_patches is not None:
+                preprocessed.append((image_patches, kwargs))
+            else:
+                preprocessed.append((tokens, kwargs))
 
         return preprocessed
 
     @property
     def embedding(self) -> LanguageModelEmbedding:
-        return self.layers[0]
+        return self.layers[self.embedding_layer_index]
 
     @property
     def transformer_layers(self) -> list[TransformerLayer]:
-        return self.layers[1:-1]
+        return self.layers[self.embedding_layer_index + 1 : -1]
+
+    @property
+    def embedding_layer_index(self) -> int:
+        if self._config.vision_encoder.enabled:
+            return self._config.vision_encoder.transformer.num_layers + 2
+        else:
+            return 0
 
     @property
     def model_head(self) -> LanguageModelHead:
@@ -362,7 +482,7 @@ def get_tied_weights(self) -> dict[str, tuple[ParameterMeta, tuple[int, ...]]]:
             return {
                 WORD_EMBEDDINGS_WEIGHT: (
                     self.embedding.word_embeddings_weight,
-                    (0, *self.model_head_indices),
+                    (self.embedding_layer_index, *self.model_head_indices),
                 )
             }
         elif self._config.prediction_heads > 1:
diff --git a/fast_llm/models/gpt/trainer.py b/fast_llm/models/gpt/trainer.py
index cc39d7f7..92cb2055 100644
--- a/fast_llm/models/gpt/trainer.py
+++ b/fast_llm/models/gpt/trainer.py
@@ -33,6 +33,15 @@ def _get_sampling_parameters(
                 "extra_tokens": self._config.model.base_model.prediction_heads,
             }
         )
+        if self._config.model.base_model.vision_encoder.enabled:
+            parameters.update(
+                {
+                    "patch_size": self._config.model.base_model.vision_encoder.patch_size,
+                    "max_image_size": self._config.batch.max_image_size,
+                    "image_break_token": self._config.model.base_model.vision_encoder.image_break_token,
+                    "image_end_token": self._config.model.base_model.vision_encoder.image_end_token,
+                }
+            )
         return parameters if _return_dict else GPTSamplingParameters(**parameters)
 
     def get_tflops(self, phase: PhaseType, elapsed_time_per_iteration) -> tuple[int, int]:
diff --git a/setup.cfg b/setup.cfg
index 1cde57d1..7b47d6c4 100644
--- a/setup.cfg
+++ b/setup.cfg
@@ -30,7 +30,7 @@ CORE =
 # Required for some optional features and tools.
 OPTIONAL =
     # Huggingface tools
-    transformers>=4.44.2
+    transformers>=4.48.3
     hf-transfer>=0.1.8
     datasets>=3.1.0
     huggingface-hub>=0.28.1
@@ -42,6 +42,10 @@ OPTIONAL =
     # Miscellaneous
     requests>=2.32.3
     tqdm>=4.66.3
+    # Vision Tools
+    webp>=0.4.0
+    pillow-simd>=9.5.0
+    torchvision>=0.20.0
     # For causal_conv1d
     causal_conv1d>=1.4.0
 
diff --git a/tests/data/test_sampling.py b/tests/data/test_sampling.py
index 38679582..a0aff3a7 100644
--- a/tests/data/test_sampling.py
+++ b/tests/data/test_sampling.py
@@ -106,6 +106,9 @@ def get_document_size(self, index: int) -> int:
     def name(self) -> str:
         return "dataset"
 
+    def has_images(self) -> bool:
+        return False
+
 
 TEST_DATASET = SimpleGPTIndexedDataset(
     [