tensorflow
diff --git a/‎demo/dynamic_embedding/movielens-1m-keras-ps/movielens-1m-keras-ps.py‎
Lines changed: 9 additions & 5 deletions b/‎demo/dynamic_embedding/movielens-1m-keras-ps/movielens-1m-keras-ps.py‎
Lines changed: 9 additions & 5 deletions
diff --git a/‎demo/dynamic_embedding/movielens-1m-keras-ps/one.sh‎
Lines changed: 10 additions & 0 deletions b/‎demo/dynamic_embedding/movielens-1m-keras-ps/one.sh‎
Lines changed: 10 additions & 0 deletions
diff --git a/‎demo/dynamic_embedding/movielens-1m-keras/movielens-1m-keras.py‎
Lines changed: 6 additions & 2 deletions b/‎demo/dynamic_embedding/movielens-1m-keras/movielens-1m-keras.py‎
Lines changed: 6 additions & 2 deletions
diff --git a/‎tensorflow_recommenders_addons/dynamic_embedding/python/keras/layers/embedding.py‎
Lines changed: 11 additions & 7 deletions b/‎tensorflow_recommenders_addons/dynamic_embedding/python/keras/layers/embedding.py‎
Lines changed: 11 additions & 7 deletions
diff --git a/‎tensorflow_recommenders_addons/dynamic_embedding/python/kernel_tests/parameter_server_bzl.py‎
Lines changed: 112 additions & 73 deletions b/‎tensorflow_recommenders_addons/dynamic_embedding/python/kernel_tests/parameter_server_bzl.py‎
Lines changed: 112 additions & 73 deletions
@@ -6,8 +6,10 @@
 
 try:
   from tensorflow.keras.optimizers.legacy import Adam
+  from tensorflow.keras.optimizers.legacy import Adagrad
 except:
   from tensorflow.keras.optimizers import Adam
+  from tensorflow.keras.optimizers import Adagrad
 
 from tensorflow import distribute as tf_dist
 
@@ -130,7 +132,7 @@ def __init__(self, strategy, train_bs, test_bs, epochs, steps_per_epoch,
         "/job:ps/replica:0/task:{}/device:CPU:0".format(idx)
         for idx in range(self.num_ps)
     ]
-    self.embedding_size = 4
+    self.embedding_size = 1
     self.train_bs = train_bs
     self.test_bs = test_bs
     self.epochs = epochs
@@ -148,7 +150,7 @@ def get_dataset(self, batch_size=1):
     ratings = dataset.map(
         lambda x: tf.one_hot(tf.cast(x['user_rating'] - 1, dtype=tf.int64), 5))
     dataset = dataset.zip((features, ratings))
-    dataset = dataset.shuffle(4096, reshuffle_each_iteration=False)
+    dataset = dataset.shuffle(4096, reshuffle_each_iteration=False).repeat()
     if batch_size > 1:
       dataset = dataset.batch(batch_size)
     return dataset
@@ -161,6 +163,8 @@ def train(self):
           self.ps_devices, self.embedding_size, self.embedding_size,
           tf.keras.initializers.RandomNormal(0.0, 0.5))
       optimizer = Adam(1E-3)
+
+      # optimizer = Adagrad(1E-3)
       optimizer = de.DynamicEmbeddingOptimizer(optimizer)
 
       auc = tf.keras.metrics.AUC(num_thresholds=1000)
@@ -176,7 +180,7 @@ def train(self):
         model.load_weights(self.model_dir)
 
     model.fit(dataset, epochs=self.epochs, steps_per_epoch=self.steps_per_epoch)
-
+    print(f"model: {model.trainable_variables}")
     if self.model_dir:
       save_options = tf.saved_model.SaveOptions(namespace_whitelist=['TFRA'])
       model.save(self.model_dir, options=save_options)
@@ -255,10 +259,10 @@ def start_chief(config):
       cluster_spec, task_type="chief", task_id=0)
   strategy = tf_dist.experimental.ParameterServerStrategy(cluster_resolver)
   runner = Runner(strategy=strategy,
-                  train_bs=4,
+                  train_bs=2,
                   test_bs=1,
                   epochs=1,
-                  steps_per_epoch=4,
+                  steps_per_epoch=2,
                   model_dir=None,
                   export_dir=None)
   runner.train()
 
@@ -0,0 +1,10 @@
+#!/bin/bash
+rm -rf ./ckpt
+sh stop.sh
+sleep 1
+python movielens-1m-keras-ps.py --ps_list="localhost:2220" --worker_list="localhost:2231" --chief="localhost:2230" --task_mode="ps" --task_id=0 &
+sleep 1
+python movielens-1m-keras-ps.py --ps_list="localhost:2220" --worker_list="localhost:2231" --chief="localhost:2230" --task_mode="worker" --task_id=0 &
+sleep 1
+python movielens-1m-keras-ps.py --ps_list="localhost:2220" --worker_list="localhost:2231" --chief="localhost:2230" --task_mode="chief" --task_id=0
+echo "ok"
@@ -6,9 +6,12 @@
 from absl import app
 from tensorflow_recommenders_addons import dynamic_embedding as de
 try:
-  from tensorflow.keras.legacy.optimizers import Adam
+  from tensorflow.keras.optimizers.legacy import Adam
+  from tensorflow.keras.optimizers.legacy import Adagrad
 except:
   from tensorflow.keras.optimizers import Adam
+  from tensorflow.keras.optimizers import Adagrad
+
 
 flags.DEFINE_string('mode', 'train', 'Select the running mode: train or test.')
 flags.DEFINE_string('model_dir', 'model_dir',
@@ -119,7 +122,8 @@ def train():
   dataset = get_dataset(batch_size=32)
   model = DualChannelsDeepModel(FLAGS.embedding_size, FLAGS.embedding_size,
                                 tf.keras.initializers.RandomNormal(0.0, 0.5))
-  optimizer = Adam(1E-3)
+  # optimizer = Adam(1E-3)
+  optimizer = Adagrad(1E-3)
   optimizer = de.DynamicEmbeddingOptimizer(optimizer)
 
   auc = tf.keras.metrics.AUC(num_thresholds=1000)
 
@@ -27,6 +27,7 @@
 
 from tensorflow.python.keras.utils import tf_utils
 
+from tensorflow_recommenders_addons.dynamic_embedding.python.ops.parameter_server import create_ps_shadow_variable
 from tensorflow_recommenders_addons.dynamic_embedding.python.ops.shadow_embedding_ops import HvdVariable
 from tensorflow_recommenders_addons.dynamic_embedding.python.train.utils import \
   is_parameter_server_strategy
@@ -246,11 +247,11 @@ def __init__(self,
       else:
         if is_parameter_server_strategy(self.distribute_strategy):
           self.shadow_impl = tf_utils.ListWrapper([
-              de.shadow_ops.ShadowVariable(
-                  self.params,
+            create_ps_shadow_variable(
+                  params=self.params,
                   name=shadow_name,
                   max_norm=self.max_norm,
-                  distribute_strategy=self.distribute_strategy,
+              strategy=self.distribute_strategy,
                   trainable=trainable)
           ])
         else:
@@ -303,13 +304,16 @@ def call(self, ids):
     Returns:
       A embedding output with shape (shape(ids), embedding_size).
     """
-    tfprint = tf.print("ids_8a:", ids, output_stream=tf.compat.v1.logging.error)
-    with tf.control_dependencies([tfprint]):
-      pass
-    return de.shadow_ops.embedding_lookup_unique(self.shadow, ids,
+
+    r = de.shadow_ops.embedding_lookup_unique(self.shadow, ids,
                                                  self.embedding_size,
                                                  self.with_unique, self.name)
 
+    tfprint = tf.print("ids_8a:", r, ids, self.shadow.ids,  output_stream=tf.compat.v1.logging.error)
+    with tf.control_dependencies([tfprint]):
+      pass
+    return r
+
   def get_config(self):
     _initializer = self.params.initializer
     if _initializer is None:
 
@@ -2,7 +2,6 @@
 import os
 import sys
 
-from absl.testing import parameterized
 from tensorflow.python.distribute import multi_process_lib
 import multiprocessing
 import tensorflow as tf
@@ -73,79 +72,119 @@ def tearDownClass(cls):
     super(ParameterServerStrategyV2Test, cls).tearDownClass()
     cls.cluster.stop()
 
-  #@parameterized.parameters(True, False)
-  def testPerWorkerVariableCreation(self):
+  def testPerWorkerTraining(self):
     var_dtype = tf.dtypes.float32
     var_name = 'var'
-    shape = [1]  #if define_shape else None
-
-    # with self.strategy.scope():
-    var = variables.Variable(initial_value=[0.0],
-                             shape=shape,
-                             dtype=var_dtype,
-                             name=var_name,
-                             per_worker_de_variable=True)
-
-    # Use per-worker variable as a capture
-    @def_function.function
-    def worker_fn():
-      var.assign_add(constant_op.constant([1.0]))
-      return var
-
-    num_closures = 10
-    for ix in range(num_closures):
-      self.coordinator.schedule(worker_fn)
-      # Read the PWV many times to ensure result is up-to-date
-      self.coordinator.join()
-      result_sum = sum(var.read_all()).numpy()
-      self.assertEqual(result_sum, ix + 1)
-
-    for _ in range(num_closures):
-      self.coordinator.schedule(worker_fn)
-    self.coordinator.join()
-
-    # Verify placement of variables
-    devices = [wv._get_values().device for wv in var._per_worker_vars._values]
-    expected_devices = [
-        f'/job:worker/replica:0/task:{ix}/device:CPU:0'
-        for ix in range(self.strategy._num_workers)
-    ]  # pylint: disable=protected-access
-    self.assertAllEqual(devices, expected_devices)
-
-    result_sum = sum(var.read_all()).numpy()
-    self.assertEqual(result_sum, num_closures * 2)
-
-  def testKerasFit(self):
-    embed_dim = 8
+    shape = [1]
     with self.strategy.scope():
-      model = Sequential([
-          layers.Input(shape=(1,), dtype=tf.int32),
-          de.keras.layers.Embedding(embed_dim, key_dtype=tf.int32),
-          layers.Flatten(),
-          layers.Dense(1, activation='sigmoid')
-      ])
-      optimizer = Adam(1E-3)
-      optimizer = de.DynamicEmbeddingOptimizer(optimizer)
-      model.compile(loss='binary_crossentropy',
-                    optimizer=optimizer,
-                    metrics=['accuracy'])
-
-    ids = np.random.randint(0, 100, size=(64 * 2, 1))
-    labels = np.random.randint(0, 2, size=(64 * 2, 1))
-
-    def dataset_fn(input_context):
-      global_batch_size = 32
-      batch_size = input_context.get_per_replica_batch_size(global_batch_size)
-      dataset = tf.data.Dataset.from_tensor_slices((ids, labels))
-      dataset = dataset.shard(input_context.num_input_pipelines,
-                              input_context.input_pipeline_id)
-      dataset = dataset.batch(batch_size).repeat()
-      return dataset
-
-    dataset = self.strategy.distribute_datasets_from_function(dataset_fn)
-
-    history = model.fit(dataset, epochs=1, steps_per_epoch=len(ids) // 64)
-    self.assertIn('loss', history.history)
+      var = variables.Variable(initial_value=[0.0],
+                               shape=shape,
+                               dtype=var_dtype,
+                               name=var_name,
+                               per_worker_variable=True)
+      var._trainable = True
+    with backprop.GradientTape(persistent=True) as tape:
+
+    # 定义训练步骤
+    @tf.function
+    def train_step():
+      with tf.GradientTape() as tape:
+        # var._maybe_create_per_worker_vars()
+        value = var.read_value()
+        # if not var.trainable:
+        tape.watch(value) # still need this with var._trainable = True set.
+        y = value * 2.0
+      grad = tape.gradient(y, value)
+      return grad
+
+    @tf.function
+    def train_step2():
+      with tf.GradientTape() as tape:
+        var._maybe_create_per_worker_vars()
+        value = var.value()
+        # if not var.trainable:
+        tape.watch(value) # still need this with var._trainable = True set.
+        y = value * 2.0
+      grad = tape.gradient(y, value)
+      return grad
+
+    # 运行并检查结果
+    grads = self.strategy.run(train_step2)
+    print(f"grads :{grads}")
+    print(f"var.read_all() {var.read_all()}")
+  #@parameterized.parameters(True, False)
+  # def testPerWorkerVariableCreation(self):
+  #   var_dtype = tf.dtypes.float32
+  #   var_name = 'var'
+  #   shape = [1]  #if define_shape else None
+  #
+  #   with self.strategy.scope():
+  #     var = variables.Variable(initial_value=[0.0],
+  #                            shape=shape,
+  #                            dtype=var_dtype,
+  #                            name=var_name,
+  #                            per_worker_de_variable=True)
+  #
+  #   # Use per-worker variable as a capture
+  #   @def_function.function
+  #   def worker_fn():
+  #     var.assign_add(constant_op.constant([1.0]))
+  #     return var
+  #
+  #   num_closures = 10
+  #   for ix in range(num_closures):
+  #     self.coordinator.schedule(worker_fn)
+  #     # Read the PWV many times to ensure result is up-to-date
+  #     self.coordinator.join()
+  #     result_sum = sum(var.read_all()).numpy()
+  #     self.assertEqual(result_sum, ix + 1)
+  #
+  #   for _ in range(num_closures):
+  #     self.coordinator.schedule(worker_fn)
+  #   self.coordinator.join()
+  #
+  #   # Verify placement of variables
+  #   devices = [wv._get_values().device for wv in var._per_worker_vars._values]
+  #   expected_devices = [
+  #       f'/job:worker/replica:0/task:{ix}/device:CPU:0'
+  #       for ix in range(self.strategy._num_workers)
+  #   ]  # pylint: disable=protected-access
+  #   self.assertAllEqual(devices, expected_devices)
+  #
+  #   result_sum = sum(var.read_all()).numpy()
+  #   self.assertEqual(result_sum, num_closures * 2)
+
+  # def testKerasFit(self):
+  #   embed_dim = 8
+  #   with self.strategy.scope():
+  #     model = Sequential([
+  #         layers.Input(shape=(1,), dtype=tf.int32),
+  #         de.keras.layers.Embedding(embed_dim, key_dtype=tf.int32),
+  #         layers.Flatten(),
+  #         layers.Dense(1, activation='sigmoid')
+  #     ])
+  #     optimizer = Adam(1E-3)
+  #     optimizer = de.DynamicEmbeddingOptimizer(optimizer)
+  #     model.compile(loss='binary_crossentropy',
+  #                   optimizer=optimizer,
+  #                   metrics=['accuracy'])
+  #
+  #   ids = np.random.randint(0, 100, size=(64 * 2, 1))
+  #   labels = np.random.randint(0, 2, size=(64 * 2, 1))
+  #
+  #   def dataset_fn(input_context):
+  #     global_batch_size = 32
+  #     batch_size = input_context.get_per_replica_batch_size(global_batch_size)
+  #     dataset = tf.data.Dataset.from_tensor_slices((ids, labels))
+  #     dataset = dataset.shard(input_context.num_input_pipelines,
+  #                             input_context.input_pipeline_id)
+  #     dataset = dataset.batch(batch_size).repeat()
+  #     return dataset
+  #
+  #   dataset = self.strategy.distribute_datasets_from_function(dataset_fn)
+  #
+  #   history = model.fit(dataset, epochs=1, steps_per_epoch=len(ids) // 64)
+  #   self.assertIn('loss', history.history)
 
 
 # borrow from multi_process_lib._set_spawn_exe_path and modify it for tf_recommenders_addons
@@ -175,8 +214,8 @@ def guess_path(package_root):
   multiprocessing.get_context().set_executable(sys.argv[0])
 
 
-# This is not for pytest
-# bazel test //tensorflow_recommenders_addons/dynamic_embedding/python/kernel_tests:parameter_server_bzl
+# This is not for pytest  bazel clean --expunge
+# bazel test --test_output=all //tensorflow_recommenders_addons/dynamic_embedding/python/kernel_tests:parameter_server_bzl
 if __name__ == "__main__":
   multi_process_lib._set_spawn_exe_path = custom_set_spawn_exe_path
   v2_compat.enable_v2_behavior()