longhorn · yangchiu · Jan 20, 2025 · coderabbitai · Jan 21, 2025 · coderabbitai
@@ -0,0 +1,12 @@
+*** Settings ***
+Documentation       Metrics Keywords
+
+Library             ../libs/keywords/metrics_keywords.py
+
+*** Keywords ***
+Check if nodes are under memory pressure
+    ${worker_nodes} =    get_worker_nodes
+    FOR    ${worker_node}    IN    @{worker_nodes}
+        get_node_memory_usage_in_percentage    ${worker_node}
+        check_if_node_under_memory_pressure    ${worker_node}
+    END
@@ -0,0 +1,49 @@
+import time
+
+from node import Node
+from metrics.metrics import get_node_metrics
+from utility.utility import get_retry_count_and_interval
+from utility.utility import logging
+
+
+class metrics_keywords:
+
+    def __init__(self):
+        self.node = Node()
+        retry_count, retry_interval = get_retry_count_and_interval()
+
-    def __init__(self):
-        self.node = Node()
-        retry_count, retry_interval = get_retry_count_and_interval()
+    def __init__(self):
+        self.node = Node()
+        self.retry_count, self.retry_interval = get_retry_count_and_interval()
-    def __init__(self):
-        self.node = Node()
-        retry_count, retry_interval = get_retry_count_and_interval()
+    def __init__(self):
+        self.node = Node()
+        self.retry_count, self.retry_interval = get_retry_count_and_interval()
+    def get_node_total_memory_in_mi(self, node_name):
+        total_memory = self.node.get_node_total_memory(node_name)
+        if "Ki" in total_memory:
+            total_memory = int(total_memory.replace("Ki", ""))
+            total_memory = total_memory / 1024
+        elif "Mi" in total_memory:
+            total_memory = int(total_memory.replace("Mi", ""))
+        logging(f'Got node {node_name} total memory: {total_memory} Mi')
+        return total_memory
+
+    def get_node_memory_usage_in_mi(self, node_name):
+        memory_usage = get_node_metrics(node_name, 'memory')
+        if "Ki" in memory_usage:
+            memory_usage = int(memory_usage.replace("Ki", ""))
+            memory_usage = memory_usage / 1024
+        elif "Mi" in memory_usage:
+            memory_usage = int(memory_usage.replace("Mi", ""))
+        logging(f'Got node {node_name} memory usage: {memory_usage} Mi')
+        return memory_usage
+
+    def get_node_memory_usage_in_percentage(self, node_name):
+        memory_usage_in_mi = self.get_node_memory_usage_in_mi(node_name)
+        total_memory_in_mi = self.get_node_total_memory_in_mi(node_name)
+        memory_usage_in_percentage = memory_usage_in_mi / total_memory_in_mi * 100
+        logging(f'Got node {node_name} memory usage: {memory_usage_in_percentage} %')
+        return memory_usage_in_percentage
+
-    def get_node_total_memory_in_mi(self, node_name):
-        total_memory = self.node.get_node_total_memory(node_name)
-        if "Ki" in total_memory:
-            total_memory = int(total_memory.replace("Ki", ""))
-            total_memory = total_memory / 1024
-        elif "Mi" in total_memory:
-            total_memory = int(total_memory.replace("Mi", ""))
-        logging(f'Got node {node_name} total memory: {total_memory} Mi')
-        return total_memory
-
-    def get_node_memory_usage_in_mi(self, node_name):
-        memory_usage = get_node_metrics(node_name, 'memory')
-        if "Ki" in memory_usage:
-            memory_usage = int(memory_usage.replace("Ki", ""))
-            memory_usage = memory_usage / 1024
-        elif "Mi" in memory_usage:
-            memory_usage = int(memory_usage.replace("Mi", ""))
-        logging(f'Got node {node_name} memory usage: {memory_usage} Mi')
-        return memory_usage
-
-    def get_node_memory_usage_in_percentage(self, node_name):
-        memory_usage_in_mi = self.get_node_memory_usage_in_mi(node_name)
-        total_memory_in_mi = self.get_node_total_memory_in_mi(node_name)
-        memory_usage_in_percentage = memory_usage_in_mi / total_memory_in_mi * 100
-        logging(f'Got node {node_name} memory usage: {memory_usage_in_percentage} %')
-        return memory_usage_in_percentage
+    def _convert_to_mi(self, memory_value: str) -> float:
+        """Convert memory value to MiB.
+        
+        Args:
+            memory_value: Memory value with unit (e.g., "1024Ki", "512Mi")
+            
+        Returns:
+            float: Memory value in MiB
+        """
+        if "Ki" in memory_value:
+            return int(memory_value.replace("Ki", "")) / 1024
+        elif "Mi" in memory_value:
+            return int(memory_value.replace("Mi", ""))
+        return float(memory_value)  # Assume MiB if no unit
+
+    def get_node_total_memory_in_mi(self, node_name):
+        total_memory = self.node.get_node_total_memory(node_name)
+        total_memory = self._convert_to_mi(total_memory)
+        logging(f'Got node {node_name} total memory: {total_memory} Mi')
+        return total_memory
+
+    def get_node_memory_usage_in_mi(self, node_name):
+        memory_usage = get_node_metrics(node_name, 'memory')
+        memory_usage = self._convert_to_mi(memory_usage)
+        logging(f'Got node {node_name} memory usage: {memory_usage} Mi')
+        return memory_usage
+
+    def get_node_memory_usage_in_percentage(self, node_name):
+        memory_usage_in_mi = self.get_node_memory_usage_in_mi(node_name)
+        total_memory_in_mi = self.get_node_total_memory_in_mi(node_name)
+        memory_usage_in_percentage = memory_usage_in_mi / total_memory_in_mi * 100
+        logging(f'Got node {node_name} memory usage: {memory_usage_in_percentage} %')
+        return memory_usage_in_percentage
-    def get_node_total_memory_in_mi(self, node_name):
-        total_memory = self.node.get_node_total_memory(node_name)
-        if "Ki" in total_memory:
-            total_memory = int(total_memory.replace("Ki", ""))
-            total_memory = total_memory / 1024
-        elif "Mi" in total_memory:
-            total_memory = int(total_memory.replace("Mi", ""))
-        logging(f'Got node {node_name} total memory: {total_memory} Mi')
-        return total_memory
-
-    def get_node_memory_usage_in_mi(self, node_name):
-        memory_usage = get_node_metrics(node_name, 'memory')
-        if "Ki" in memory_usage:
-            memory_usage = int(memory_usage.replace("Ki", ""))
-            memory_usage = memory_usage / 1024
-        elif "Mi" in memory_usage:
-            memory_usage = int(memory_usage.replace("Mi", ""))
-        logging(f'Got node {node_name} memory usage: {memory_usage} Mi')
-        return memory_usage
-
-    def get_node_memory_usage_in_percentage(self, node_name):
-        memory_usage_in_mi = self.get_node_memory_usage_in_mi(node_name)
-        total_memory_in_mi = self.get_node_total_memory_in_mi(node_name)
-        memory_usage_in_percentage = memory_usage_in_mi / total_memory_in_mi * 100
-        logging(f'Got node {node_name} memory usage: {memory_usage_in_percentage} %')
-        return memory_usage_in_percentage
+    def _convert_to_mi(self, memory_value: str) -> float:
+        """Convert memory value to MiB.
+        
+        Args:
+            memory_value: Memory value with unit (e.g., "1024Ki", "512Mi")
+            
+        Returns:
+            float: Memory value in MiB
+        """
+        if "Ki" in memory_value:
+            return int(memory_value.replace("Ki", "")) / 1024
+        elif "Mi" in memory_value:
+            return int(memory_value.replace("Mi", ""))
+        return float(memory_value)  # Assume MiB if no unit
+
+    def get_node_total_memory_in_mi(self, node_name):
+        total_memory = self.node.get_node_total_memory(node_name)
+        total_memory = self._convert_to_mi(total_memory)
+        logging(f'Got node {node_name} total memory: {total_memory} Mi')
+        return total_memory
+
+    def get_node_memory_usage_in_mi(self, node_name):
+        memory_usage = get_node_metrics(node_name, 'memory')
+        memory_usage = self._convert_to_mi(memory_usage)
+        logging(f'Got node {node_name} memory usage: {memory_usage} Mi')
+        return memory_usage
+
+    def get_node_memory_usage_in_percentage(self, node_name):
+        memory_usage_in_mi = self.get_node_memory_usage_in_mi(node_name)
+        total_memory_in_mi = self.get_node_total_memory_in_mi(node_name)
+        memory_usage_in_percentage = memory_usage_in_mi / total_memory_in_mi * 100
+        logging(f'Got node {node_name} memory usage: {memory_usage_in_percentage} %')
+        return memory_usage_in_percentage
+    def check_if_node_under_memory_pressure(self, node_name):
+        logging(f"Checking if node {node_name} is under memory pressure")
+        condition_status = self.node.get_node_condition(node_name, "MemoryPressure")
+        if condition_status == "True":
+            logging(f"Node {node_name} is under memory pressure")
+            time.sleep(self.retry_count)
+            assert False, f"Node {node_name} is under memory pressure"
+
@@ -0,0 +1,22 @@
+import time
+
+from kubernetes import client
+from kubernetes.client.rest import ApiException
+
+from utility.utility import get_retry_count_and_interval
+from utility.utility import logging
+
+def get_node_metrics(node_name, metrics_name):
+    retry_count, retry_interval = get_retry_count_and_interval()
+    for i in range(retry_count):
+        api = client.CustomObjectsApi()
+        try:
+            node_metrics = api.list_cluster_custom_object("metrics.k8s.io", "v1beta1", "nodes")
+            for node in node_metrics['items']:
+                if node_name == node['metadata']['name']:
+                    logging(f"Got node {node_name} metrics {metrics_name} = {node['usage'][metrics_name]}")
+                    return node['usage'][metrics_name]
+        except ApiException as e:
+            logging(f"Failed to get node {node_name} metrics {metrics_name}: {e}")
+        time.sleep(retry_interval)
+    assert False, f"Failed to get node {node_name} metrics {metrics_name}"
-def get_node_metrics(node_name, metrics_name):
-    retry_count, retry_interval = get_retry_count_and_interval()
-    for i in range(retry_count):
-        api = client.CustomObjectsApi()
-        try:
-            node_metrics = api.list_cluster_custom_object("metrics.k8s.io", "v1beta1", "nodes")
-            for node in node_metrics['items']:
-                if node_name == node['metadata']['name']:
-                    logging(f"Got node {node_name} metrics {metrics_name} = {node['usage'][metrics_name]}")
-                    return node['usage'][metrics_name]
-        except ApiException as e:
-            logging(f"Failed to get node {node_name} metrics {metrics_name}: {e}")
-        time.sleep(retry_interval)
-    assert False, f"Failed to get node {node_name} metrics {metrics_name}"
+def get_node_metrics(node_name: str, metrics_name: str) -> str:
+    """Retrieve metrics for a specified Kubernetes node.
+    
+    Args:
+        node_name: Name of the node to retrieve metrics for
+        metrics_name: Type of metrics to retrieve (e.g., 'memory', 'cpu')
+    
+    Returns:
+        str: The metrics value for the specified node and metrics type
+        
+    Raises:
+        AssertionError: If unable to retrieve metrics after retries
+    """
+    if metrics_name not in ['memory', 'cpu']:
+        raise ValueError(f"Unsupported metrics type: {metrics_name}")
+    retry_count, retry_interval = get_retry_count_and_interval()
+    for _i in range(retry_count):
+        api = client.CustomObjectsApi()
+        try:
+            node_metrics = api.list_cluster_custom_object("metrics.k8s.io", "v1beta1", "nodes")
+            for node in node_metrics['items']:
+                if node_name == node['metadata']['name']:
+                    logging(f"Got node {node_name} metrics {metrics_name} = {node['usage'][metrics_name]}")
+                    return node['usage'][metrics_name]
+        except ApiException as e:
+            logging(f"Failed to get node {node_name} metrics {metrics_name}: {e}")
+        time.sleep(retry_interval)
+    raise AssertionError(f"Failed to get node {node_name} metrics {metrics_name}")
-def get_node_metrics(node_name, metrics_name):
-    retry_count, retry_interval = get_retry_count_and_interval()
-    for i in range(retry_count):
-        api = client.CustomObjectsApi()
-        try:
-            node_metrics = api.list_cluster_custom_object("metrics.k8s.io", "v1beta1", "nodes")
-            for node in node_metrics['items']:
-                if node_name == node['metadata']['name']:
-                    logging(f"Got node {node_name} metrics {metrics_name} = {node['usage'][metrics_name]}")
-                    return node['usage'][metrics_name]
-        except ApiException as e:
-            logging(f"Failed to get node {node_name} metrics {metrics_name}: {e}")
-        time.sleep(retry_interval)
-    assert False, f"Failed to get node {node_name} metrics {metrics_name}"
+def get_node_metrics(node_name: str, metrics_name: str) -> str:
+    """Retrieve metrics for a specified Kubernetes node.
+    
+    Args:
+        node_name: Name of the node to retrieve metrics for
+        metrics_name: Type of metrics to retrieve (e.g., 'memory', 'cpu')
+    
+    Returns:
+        str: The metrics value for the specified node and metrics type
+        
+    Raises:
+        AssertionError: If unable to retrieve metrics after retries
+    """
+    if metrics_name not in ['memory', 'cpu']:
+        raise ValueError(f"Unsupported metrics type: {metrics_name}")
+    retry_count, retry_interval = get_retry_count_and_interval()
+    for _i in range(retry_count):
+        api = client.CustomObjectsApi()
+        try:
+            node_metrics = api.list_cluster_custom_object("metrics.k8s.io", "v1beta1", "nodes")
+            for node in node_metrics['items']:
+                if node_name == node['metadata']['name']:
+                    logging(f"Got node {node_name} metrics {metrics_name} = {node['usage'][metrics_name]}")
+                    return node['usage'][metrics_name]
+        except ApiException as e:
+            logging(f"Failed to get node {node_name} metrics {metrics_name}: {e}")
+        time.sleep(retry_interval)
+    raise AssertionError(f"Failed to get node {node_name} metrics {metrics_name}")
@@ -120,6 +120,18 @@ def get_node_cpu_cores(self, node_name):
         node = self.get_node_by_name(node_name)
         return node.status.capacity['cpu']
 
+    def get_node_total_memory(self, node_name):
+        node = self.get_node_by_name(node_name)
+        return node.status.capacity['memory']
+
+    def get_node_condition(self, node_name, condition_type):
+        node = self.get_node_by_name(node_name)
+        for condition in node.status.conditions:
+            if condition.type == condition_type:
+                logging(f"Got node {node_name} condition {condition_type}: {condition}")
+                return condition.status
+        assert False, f"Failed to get node {node_name} condition {condition_type}: {node}"
+
-    def get_node_condition(self, node_name, condition_type):
-        node = self.get_node_by_name(node_name)
-        for condition in node.status.conditions:
-            if condition.type == condition_type:
-                logging(f"Got node {node_name} condition {condition_type}: {condition}")
-                return condition.status
-        assert False, f"Failed to get node {node_name} condition {condition_type}: {node}"
+    def get_node_condition(self, node_name: str, condition_type: str) -> str:
+        """Get the status of a specific condition type for a node.
+
+        Args:
+            node_name: Name of the node to check.
+            condition_type: Type of condition to retrieve (e.g., 'Ready', 'MemoryPressure').
+
+        Returns:
+            str: The status of the condition ('True', 'False', or 'Unknown').
+
+        Raises:
+            RuntimeError: If the condition type is not found for the node.
+        """
+        node = self.get_node_by_name(node_name)
+        for condition in node.status.conditions:
+            if condition.type == condition_type:
+                logging(f"Got node {node_name} condition {condition_type}: {condition}")
+                return condition.status
+        raise RuntimeError(f"Failed to get node {node_name} condition {condition_type}: {node}")
-    def get_node_condition(self, node_name, condition_type):
-        node = self.get_node_by_name(node_name)
-        for condition in node.status.conditions:
-            if condition.type == condition_type:
-                logging(f"Got node {node_name} condition {condition_type}: {condition}")
-                return condition.status
-        assert False, f"Failed to get node {node_name} condition {condition_type}: {node}"
+    def get_node_condition(self, node_name: str, condition_type: str) -> str:
+        """Get the status of a specific condition type for a node.
+
+        Args:
+            node_name: Name of the node to check.
+            condition_type: Type of condition to retrieve (e.g., 'Ready', 'MemoryPressure').
+
+        Returns:
+            str: The status of the condition ('True', 'False', or 'Unknown').
+
+        Raises:
+            RuntimeError: If the condition type is not found for the node.
+        """
+        node = self.get_node_by_name(node_name)
+        for condition in node.status.conditions:
+            if condition.type == condition_type:
+                logging(f"Got node {node_name} condition {condition_type}: {condition}")
+                return condition.status
+        raise RuntimeError(f"Failed to get node {node_name} condition {condition_type}: {node}")
     def list_node_names_by_volumes(self, volume_names):
         volume_keywords = BuiltIn().get_library_instance('volume_keywords')
         volume_nodes = {}

@@ -12,7 +12,9 @@ Resource    ../keywords/storageclass.resource
 Resource    ../keywords/persistentvolumeclaim.resource
 Resource    ../keywords/statefulset.resource
 Resource    ../keywords/workload.resource
+Resource    ../keywords/backup.resource
 Resource    ../keywords/setting.resource
+Resource    ../keywords/metrics.resource
 
 Test Setup    Set test environment
 Test Teardown    Cleanup test resources
@@ -77,3 +79,46 @@ Restart Cluster While Workload Heavy Writing
         And Check statefulset 4 works
         And Check statefulset 5 works
     END
+
+Check If Nodes Are Under Memory Pressure After Cluster Restart
+    [Tags]    cluster
+    Given Create storageclass longhorn-test with    dataEngine=${DATA_ENGINE}
+    And Create storageclass strict-local with    numberOfReplicas=1    dataLocality=strict-local    dataEngine=${DATA_ENGINE}
+    And Create storageclass nfs-4-2 with    nfsOptions=vers=4.2,noresvport,timeo=450,retrans=8    dataEngine=${DATA_ENGINE}
+    And Create storageclass nfs-hard-mount with    nfsOptions=hard,timeo=50,retrans=1    dataEngine=${DATA_ENGINE}
+    And Create storageclass nfs-soft-mount with    nfsOptions=soft,timeo=250,retrans=5    dataEngine=${DATA_ENGINE}
+    And Create statefulset 0 using RWO volume with longhorn-test storageclass
+    And Create statefulset 1 using RWX volume with longhorn-test storageclass
+    And Create statefulset 2 using RWO volume with strict-local storageclass
+    And Create statefulset 3 using RWX volume with nfs-4-2 storageclass
+    And Create statefulset 4 using RWX volume with nfs-hard-mount storageclass
+    And Create statefulset 5 using RWX volume with nfs-soft-mount storageclass
+    And Write 1024 MB data to file data.bin in statefulset 0
+    And Write 1024 MB data to file data.bin in statefulset 1
+    And Write 1024 MB data to file data.bin in statefulset 2
+    And Write 1024 MB data to file data.bin in statefulset 3
+    And Write 1024 MB data to file data.bin in statefulset 4
+    And Write 1024 MB data to file data.bin in statefulset 5
+
+    FOR    ${i}    IN RANGE    ${LOOP_COUNT}
+
+        And Create backup ${i} for statefulset 0 volume
+        And Create backup ${i} for statefulset 1 volume
+        And Create backup ${i} for statefulset 2 volume
+        And Create backup ${i} for statefulset 3 volume
+        And Create backup ${i} for statefulset 4 volume
+        And Create backup ${i} for statefulset 5 volume
+
+        When Restart cluster
+        And Wait for longhorn ready
+        And Wait for workloads pods stable
+        ...    statefulset 0    statefulset 1    statefulset 2    statefulset 3    statefulset 4    statefulset 5
+
+        Then Check statefulset 0 works
+        And Check statefulset 1 works
+        And Check statefulset 2 works
+        And Check statefulset 3 works
+        And Check statefulset 4 works
+        And Check statefulset 5 works
+        And Check if nodes are under memory pressure
+    END