zjunlp
diff --git a/‎easyeditor/dataset/coco_caption.py‎
Lines changed: 182 additions & 73 deletions b/‎easyeditor/dataset/coco_caption.py‎
Lines changed: 182 additions & 73 deletions
diff --git a/‎easyeditor/dataset/processor/blip_processors.py‎
Lines changed: 1 addition & 1 deletion b/‎easyeditor/dataset/processor/blip_processors.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎easyeditor/dataset/vqa.py‎
Lines changed: 189 additions & 74 deletions b/‎easyeditor/dataset/vqa.py‎
Lines changed: 189 additions & 74 deletions
diff --git a/‎easyeditor/editors/multimodal_editor.py‎
Lines changed: 39 additions & 13 deletions b/‎easyeditor/editors/multimodal_editor.py‎
Lines changed: 39 additions & 13 deletions
diff --git a/‎easyeditor/evaluate/multimodal_evaluate.py‎
Lines changed: 57 additions & 6 deletions b/‎easyeditor/evaluate/multimodal_evaluate.py‎
Lines changed: 57 additions & 6 deletions
diff --git a/‎easyeditor/models/wise/WISE.py‎
Lines changed: 62 additions & 18 deletions b/‎easyeditor/models/wise/WISE.py‎
Lines changed: 62 additions & 18 deletions
@@ -144,7 +144,7 @@ def __init__(self, image_size=384, mean=None, std=None):
         )
 
     def __call__(self, item, file_type=None):
-        item = Image.open(item)
+        item = Image.open(item).convert("RGB")
         return self.transform(item)
 
     @classmethod
 
@@ -136,19 +136,23 @@ def __init__(self,
                 self.rephrase_root = hparams.rephrase_image  
 
             elif "llava-onevision" in hparams.model_name.lower():   
+                if not hasattr(hparams, 'dtype'):
+                    hparams.dtype = torch.float32
                 self.model = LlavaOnevisionForConditionalGeneration.from_pretrained(
                     hparams.model_name,
-                    torch_dtype=torch.float32,
+                    torch_dtype=hparams.dtype,
                     # attn_implementation="flash_attention_2" 
                 )
                 self.vis_tok = LLaVAOneVisionProcessor()
                 self.tok = AutoProcessor.from_pretrained(hparams.model_name)
                 self.model_name = "llava-onevision"
 
             elif "qwen2-vl" in hparams.model_name.lower():
+                if not hasattr(hparams, 'dtype'):
+                    hparams.dtype = torch.float32
                 self.model = Qwen2VLForConditionalGeneration.from_pretrained(
                     hparams.model_name, 
-                    torch_dtype=torch.float32,
+                    torch_dtype=hparams.dtype,
                     # attn_implementation="flash_attention_2"
                 )
                 self.vis_tok = Qwen2VLProcessor()
@@ -443,10 +447,16 @@ def edit_dataset(self,
                     train_ds=kwargs['train_ds']
                 )
             else:
+                if self.model_name in ['minigpt4', 'blip2']:
+                    pre_res = compute_multimodal_edit_results(self.model, self.model_name, self.hparams, self.tok,
+                                                            request, self.hparams.device)
+                elif self.model_name in ['llava-onevision', 'qwen2-vl']:
+                    pre_res = compute_multimodal_hf_edit_results(self.model, self.model_name, self.hparams, self.tok,
+                                                            request, self.hparams.device)
                 edited_model, weights_copy = self.apply_algo(
                     self.model,
                     self.tok,
-                    request,
+                    [request],
                     self.hparams,
                     copy=False,
                     return_orig_weights=True,
@@ -466,15 +476,32 @@ def edit_dataset(self,
                                                         request, self.hparams.device, pre_edit=True)
                 }
             else:
-                metrics = {
-                    'case_id': i,
-                    # "requested_rewrite": request,
-                    "time": exec_time,
-                    "post": compute_multimodal_edit_results(edited_model, self.model_name, self.hparams, self.tok,
-                                                        request, self.hparams.device),
-                    "pre": compute_multimodal_edit_results(self.model, self.model_name, self.hparams, self.tok,
-                                                        request, self.hparams.device)
-                }
+                if self.model_name in ['minigpt4', 'blip2']:
+                    metrics = {
+                        'case_id': i,
+                        "time": exec_time,
+                        "post": compute_multimodal_edit_results(edited_model, self.model_name, self.hparams, self.tok,
+                                                            request, self.hparams.device),
+                        "pre": pre_res
+                    }
+                elif self.model_name in ['llava-onevision', 'qwen2-vl']:
+                    metrics = {
+                        'case_id': i,
+                        # "requested_rewrite": request,
+                        "time": exec_time,
+                        "post": compute_multimodal_hf_edit_results(edited_model, self.model_name, self.hparams, self.tok,
+                                                            request, self.hparams.device),
+                        "pre": pre_res
+                    }   
+                # metrics = {
+                #     'case_id': i,
+                #     # "requested_rewrite": request,
+                #     "time": exec_time,
+                #     "post": compute_multimodal_edit_results(edited_model, self.model_name, self.hparams, self.tok,
+                #                                         request, self.hparams.device),
+                #     "pre": compute_multimodal_edit_results(self.model, self.model_name, self.hparams, self.tok,
+                #                                         request, self.hparams.device)
+                # }
             if 'locality_output' in metrics['post'].keys():
                 assert len(metrics['post']['locality_output']) == \
                         len(metrics['pre']['locality_output'])
@@ -648,7 +675,6 @@ def _prepare_requests(self,
                         'multimodal_locality_ground_truth': multimodal_locality_ground_truth[i],
                     }
                 )
-        
         if 'loc_prompts' in kwargs:
             if isinstance(kwargs['loc_prompts'], str):
                 kwargs['loc_prompts'] = [kwargs['loc_prompts'],]
 
@@ -217,15 +217,18 @@ def prepare_multimodal_hf_edit(hparams,
                                             add_generation_prompt=True,
                                             tokenize=False) + l
                         for p, l in zip(prompts, targets)]
+        if "qwen2-vl" in hparams.model_name.lower() and "|vision_start|" not in text_input[0]:
+            image_token = "<|vision_start|><|image_pad|><|vision_end|>"       
+            text_input = [image_token + text_input[0]]
     else:
         raise AssertionError("Not support file type: {}".format(file_type))
 
     if file_type in ["image", "single-image", "multi-image"]:
-        multimodal_inputs = processor(images=image, text=text_input, return_tensors="pt").to(hparams.device, dtype=torch.float32)
+        multimodal_inputs = processor(images=image, text=text_input, return_tensors="pt").to(hparams.device, dtype=hparams.dtype)
     elif file_type == "video":
-        multimodal_inputs = processor(videos=image, text=text_input, return_tensors="pt").to(hparams.device, dtype=torch.float32)
+        multimodal_inputs = processor(videos=image, text=text_input, return_tensors="pt").to(hparams.device, dtype=hparams.dtype)
     elif file_type == "text":
-        multimodal_inputs = processor(text=text_input, return_tensors="pt").to(hparams.device, dtype=torch.float32)
+        multimodal_inputs = processor(text=text_input, return_tensors="pt").to(hparams.device, dtype=hparams.dtype)
 
     targets = processor.tokenizer(targets, add_special_tokens=False,
                      return_tensors="pt", padding=True, max_length=multimodal_inputs["input_ids"].size(1))["input_ids"]
@@ -271,6 +274,43 @@ def compute_multimodal_hf_edit_quality(model, batch, tok,exach_match=False):
     pred_ids = pred_ids.masked_select(pred_ids != 0).view(1, -1)
     return acc, pred_ids.numpy()
 
+def compute_multimodal_hf_edit_quality_demo(model, batch, tok, exach_match=False):
+    with torch.no_grad():
+        outputs = model(**batch["multimodal_inputs"])            
+        if isinstance(outputs, torch.Tensor):
+            logits = outputs.detach().cpu()
+            targ = batch["labels"].cpu()
+        else:
+            logits = outputs.logits.detach().cpu()
+            targ = batch["labels"].cpu()
+    
+    # 创建logits副本 - 这是demo版本的关键区别
+    logits_ = logits.clone()
+    
+    if logits.dim() == 3:
+        logits = logits[:, :-1, :]
+        targ = targ[:, 1:]
+        
+    mask = targ != -100
+    targ[~mask] = 0    
+    if exach_match:
+        pred_ids = logits.argmax(-1).masked_fill(~mask, 0)
+        correct = pred_ids == targ
+        if logits.dim() == 3:
+            correct = (pred_ids == targ).all(-1)  # We aim for an exact match across the entire sequence
+        acc = correct.float().mean()
+    else:
+        pred_ids = logits.argmax(-1).masked_fill(~mask, 0).detach().cpu()
+        correct = pred_ids == targ
+        correct = correct & mask
+        num_non_padding = mask.sum().float().item()
+        acc = correct.sum() / num_non_padding
+
+    pred_ids = pred_ids.masked_select(pred_ids != 0).view(1, -1)
+    
+    # demo版本返回完整的logits用于进一步分析
+    return acc, pred_ids.numpy(), logits_
+
 
 def compute_multimodal_edit_quality(model, batch, exact_match=False):
     with torch.no_grad():
@@ -360,7 +400,16 @@ def compute_multimodal_edit_results(
 
     target = record["target"]
     rewrite_prompts = record["prompt"]
-    image = record["image"] if record["image"].is_cuda else record["image"].to(hparams.device)
+    # image = record["image"] if record["image"].is_cuda else record["image"].to(hparams.device)
+
+    # 由于edit_dataset无prepare，因此request
+    if hasattr(record["image"], 'is_cuda'):  # 如果是PyTorch张量
+        image = record["image"] if record["image"].is_cuda else record["image"].to(hparams.device)
+    else:  # 如果是PIL图像或其他类型
+        # 需要先将PIL图像转换为张量
+        from torchvision import transforms
+        transform = transforms.ToTensor()
+        image = transform(record["image"]).to(hparams.device)
 
     edit_inner = prepare_multimodal_edit(hparams, tok, target, rewrite_prompts, image)
     ret['rewrite_acc'], _ = compute_multimodal_edit_quality(model, edit_inner)
@@ -439,14 +488,16 @@ def compute_multimodal_hf_edit_results(
         locality_prompt = record["locality_prompt"]
         locality_ground_truth = record["locality_ground_truth"]
         locality = prepare_multimodal_hf_edit(hparams, tok, locality_ground_truth, locality_prompt, None, file_type="text")
-        _, ret['locality_output'] = compute_multimodal_hf_edit_quality(model, locality, tok)
+        # _, ret['locality_output'] = compute_multimodal_hf_edit_quality(model, locality, tok)
+        _, _, ret['locality_output'] = compute_multimodal_hf_edit_quality_demo(model, locality, tok)
 
     if 'multimodal_locality_prompt' in record.keys():
         m_loc_prompt = record["multimodal_locality_prompt"]
         m_loc_ground_truth = record["multimodal_locality_ground_truth"]
         m_loc_image = record["multimodal_locality_image"]
         m_locality = prepare_multimodal_hf_edit(hparams, tok, m_loc_ground_truth, m_loc_prompt, m_loc_image, file_type="image")
-        _, ret['multimodal_locality_output'] = compute_multimodal_hf_edit_quality(model, m_locality, tok)
+        # _, ret['multimodal_locality_output'] = compute_multimodal_hf_edit_quality(model, m_locality, tok)
+        _, _, ret['multimodal_locality_output'] = compute_multimodal_hf_edit_quality_demo(model, m_locality, tok)
 
     return ret
 
 
@@ -32,6 +32,8 @@ def euc(query, key, config, act_mask=None, infer=False):
 
     act_fn = ACT2FN[config.hidden_act]
     l2_norm = torch.norm(act_fn(key) - act_fn(query), dim=-1)
+    if l2_norm.dim() == 1:
+        l2_norm = l2_norm.unsqueeze(0)
     if infer and l2_norm.size(1) > 100:
         topk = torch.topk(l2_norm, k=1, largest=True)
         return topk.values.mean()
@@ -74,7 +76,20 @@ def __init__(self, config, model, device):
         self.layer_name = self.layer.rsplit(".", 1)[-1]
         adapter_layer = getattr(self.edit_module, self.layer_name)
 
-        if type(adapter_layer) is not WISEAdapter:
+        # if the condition below is True, then it is single-edit
+        if not config.sequential_edit:
+        # if type(adapter_layer) is not WISEAdapter:
+            # 如果 adapter_layer 已经是 WISEAdapter，提取其原始层
+            if type(adapter_layer) is WISEAdapter:
+                # 使用 original_layer 作为基础层（这是保存的原始层副本）
+                base_layer = adapter_layer.original_layer
+            else:
+                base_layer = adapter_layer
+            
+            setattr(self.edit_module, self.layer_name, WISEAdapter(config, base_layer, transpose=transpose))
+            self.original_layer = copy.deepcopy(base_layer)
+            print(f"New weights successfully inserted into {layer}")
+        elif type(adapter_layer) is not WISEAdapter:
             setattr(self.edit_module, self.layer_name, WISEAdapter(config, adapter_layer, transpose=transpose))
             self.original_layer = copy.deepcopy(adapter_layer)
             print(f"New weights successfully inserted into {layer}")
@@ -84,16 +99,27 @@ def __init__(self, config, model, device):
         gc.collect()
 
     # Forward
-    def __call__(self, **kwargs):
+    def __call__(self, *args, **kwargs):
         if not self.config.retrieve:
-            if hasattr(self.get_adapter_layer(), 'editing') and not self.get_adapter_layer().editing:
-                # final merge
-                if not self.get_adapter_layer().original_layer.weight.equal(self.get_adapter_layer().new_weight) and self.get_adapter_layer().editing_total_cnt >= self.config.save_freq:
-                    self.get_adapter_layer().memory_weight.append(self.get_adapter_layer().new_weight)
-                if len(self.get_adapter_layer().memory_weight) > 0 and self.get_adapter_layer().editing_total_cnt >= self.config.save_freq:
-                    print('length of memory is ', len(self.get_adapter_layer().memory_weight), '!!!!!!')
-                    self.get_adapter_layer().merge_weight()
-        return self.model(**kwargs)
+            adapter = self.get_adapter_layer()
+            if hasattr(adapter, 'editing') and not adapter.editing:
+                if (not adapter.original_layer.weight.equal(adapter.new_weight)
+                        and adapter.editing_total_cnt >= self.config.save_freq):
+                    adapter.memory_weight.append(adapter.new_weight)
+
+                if len(adapter.memory_weight) > 0 and adapter.editing_total_cnt >= self.config.save_freq:
+                    print('length of memory is ', len(adapter.memory_weight), '!!!!!!')
+                    adapter.merge_weight()
+        # 1. 如果用户传入 model(batch)
+        if len(args) == 1 and isinstance(args[0], dict):
+            return self.model(args[0])
+        # 2. 如果用户传入 model(batch=batch)
+        elif "batch" in kwargs and isinstance(kwargs["batch"], dict):
+            batch = kwargs.pop("batch")
+            return self.model(**batch, **kwargs)
+        # 3. 普通 HuggingFace 风格，如 model(input_ids=..., pixel_values=...)
+        else:
+            return self.model(**kwargs)
 
     def reset_layer(self):
         layer = getattr(self.edit_module, self.layer_name)
@@ -257,7 +283,14 @@ def _cal_activation_loss(self, original_layer_output, new_weight_layer_output, c
         else:
             k = 1
         total_loss = []
+        if self.config.model_name == "blip2":
+            original_layer_output = original_layer_output.reshape(2, -1, original_layer_output.size(-1))
+            new_weight_layer_output = new_weight_layer_output.reshape(2, -1, new_weight_layer_output.size(-1))
         len_temp = original_layer_output.shape[0] / k - 1
+        # if len_temp == 0:
+        #     len_temp = 1
+        # print(len_temp)
+        # print(act_mask)
         for i,act_mk in enumerate(act_mask):
             if act_mk is not None:
                 in_scope_dist = euc(original_layer_output[int(i*len_temp):int((i+1)*len_temp), ...], new_weight_layer_output[int(i*len_temp):int((i+1)*len_temp), ...], config,
@@ -270,7 +303,8 @@ def _cal_activation_loss(self, original_layer_output, new_weight_layer_output, c
                     out_scope_dist = euc(original_layer_output[int(i-k):, ...], new_weight_layer_output[int(i-k):, ...], config)
                 else:
                     out_scope_dist = euc(original_layer_output[int(i-k):int(i+1-k), ...], new_weight_layer_output[int(i-k):int(i+1-k), ...], config)
-
+                # print("in_scope_dist: ", in_scope_dist)
+                # print("out_scope_dist: ", out_scope_dist)
             loss = out_scope_dist.view(-1,1) - in_scope_dist + config.gamma
             loss2 = out_scope_dist - config.alpha
             loss3 = config.beta - in_scope_dist
@@ -539,8 +573,12 @@ def edit(self, config, multimodal_inputs, text_tokens, ans_token_len, act_mask=N
             ft_loss = self._cal_ft_loss(multimodal_inputs, text_tokens, last_prompt_token_loc, ans_token_len)
 
             act_loss = super()._cal_activation_loss(super().get_adapter_layer().original_layer_output, super().get_adapter_layer().new_weight_layer_output,
-                                                  config=config, act_mask=act_mask, deact_mask=deact_mask)
+                                                    config=config, act_mask=act_mask, deact_mask=deact_mask)
             loss = ft_loss + act_loss.to(ft_loss.device)
+            # if self.config.model_name == "blip2":
+            #     print(self.model.generate(multimodal_inputs[0]))
+            # elif self.config.model_name == "minigpt4":
+            #     print(self.model.predict_answers(multimodal_inputs))
 
             if loss_meter.stop():
                 super().get_adapter_layer().save_editing_activation()  # add last gradient
@@ -632,10 +670,17 @@ def _cal_ft_loss(self, multimodal_inputs, text_tokens, last_prompt_token_loc, an
         if k != 1:
             raise AssertionError("Not support Batch Edit")
 
-        bs = text_tokens["input_ids"].shape[0] - k
-        logits = self.model(**multimodal_inputs).logits
-        shift_logits = logits[:-k, :-1, :].contiguous()
-        shift_labels = multimodal_inputs['input_ids'][:-k, 1:].contiguous()
+        if self.config.model_name == "blip2" or self.config.model_name == "minigpt4":
+            logits = self.model(multimodal_inputs).logits
+            labels = text_tokens["labels"]
+            shift_labels = labels[:, 1:].contiguous()
+            shift_logits = logits[:-k, :-1, :].contiguous()
+            bs = text_tokens["labels"].shape[0]
+        else: 
+            logits = self.model(**multimodal_inputs).logits
+            shift_labels = multimodal_inputs['input_ids'][:-k, 1:].contiguous()
+            shift_logits = logits[:-k, :-1, :].contiguous()
+            bs = text_tokens["input_ids"].shape[0] - k
         # only cal loss of target text tokens
         loss_fct = CrossEntropyLoss(reduction='none')
         a = shift_logits.view(-1, shift_logits.size(-1))
@@ -645,5 +690,4 @@ def _cal_ft_loss(self, multimodal_inputs, text_tokens, last_prompt_token_loc, an
         loss = loss.view(bs, -1)
         label_mask = torch.ones_like(loss, dtype=torch.bool)        
         ft_loss = ((loss * label_mask).sum(1) / label_mask.sum(1)).mean()
-        return ft_loss
-    
+        return ft_loss
Original file line number	Diff line number	Diff line change
`@@ -144,7 +144,7 @@ def __init__(self, image_size=384, mean=None, std=None):`
`144`	`144`	`)`
`145`	`145`
`146`	`146`	`def __call__(self, item, file_type=None):`
`147`		`- item = Image.open(item)`
	`147`	`+ item = Image.open(item).convert("RGB")`
`148`	`148`	`return self.transform(item)`
`149`	`149`
`150`	`150`	`@classmethod`