分布式运算白花钱警告：使用tensorflow分布式必须注意ps server空耗资源

Abina ·

更新时间:2024-09-20

· 601 次阅读

为武汉祈祷。

问题一

ps server 不会主动停止，无论在什么情况下。这个问题从2016年提出，到现在，也没有一个简洁干净的解决方式，而这个问题会很严重，如果你使用的是租用资源，会白白花费很多钱钱。

我注意到，ps server不论是使用gpu还是cpu资源都不会主动停止，即使worker已经训练完停止了，甚至是遇到错误，ps server仍旧会运行。这就会导致这个进程对节点资源的持续占有，即使没有使用GPU资源。这种情况是按照全部使用计费的！！！我的客服工程师在初期错误程序出现这一情况后，没有告诉我ps不停止，并且他是知道会计费的，导致我的第一个成功的分布式程序空跑数小时，心疼我们租用的核时。但是所有的教程都没有警告过，所以我特别发了这篇博客。

根本原因是



  if FLAGS.job_name == "ps":
      server.join()
                           cluster=cluster)):
这回导致ps一直等待worker，一直等...
解决方法，参考：
https://stackoverflow.com/questions/39810356/shut-down-server-in-tensorflow
其实作者已经写的很详细了，我是参考I'll eat my hat这个作者的思路，下面贴上我完整的代码，作为一个应用实例，供参考：

def main(unused_argv):
  tf.logging.set_verbosity(tf.logging.INFO)
  tf.gfile.MakeDirs(FLAGS.train_logdir)
  tf.logging.info('Training on %s set', FLAGS.train_split)
  #distribute the training
  ps_hosts=FLAGS.ps_hosts.split(",")
  worker_hosts=FLAGS.worker_hosts.split(",")
  cluster=tf.train.ClusterSpec({"ps":ps_hosts,"worker":worker_hosts})
  server=tf.train.Server(cluster,job_name=FLAGS.job_name,
                         task_index=FLAGS.task_index)
  if FLAGS.job_name == "ps":
      with tf.device('/job:ps/task:%d' % FLAGS.task_index):
          queue = tf.FIFOQueue(cluster.num_tasks('worker'), tf.int32, shared_name='done_queue%d' % FLAGS.task_index)
      # wait for the queue to be filled
      with tf.Session(server.target) as sess:
          for i in range(cluster.num_tasks('worker')):
              sess.run(queue.dequeue())
              print('ps:%d received "done" from worker:%d' % (FLAGS.task_index, i))
          print('ps:%d quitting' % FLAGS.task_index)
  elif FLAGS.job_name =="worker":
      graph = tf.Graph()
      with graph.as_default():
        with tf.device(tf.train.replica_device_setter(worker_device="/job:worker/task:%d" % (FLAGS.task_index),
                                                      cluster=cluster)):#, ps_tasks=FLAGS.num_ps_tasks
          done_ops = []
            # create a shared queue on the worker which is visible on /job:ps/task:%d
          for i in range(cluster.num_tasks('ps')):
                with tf.device('/job:ps/task:%d' % i):
                    done_queue = tf.FIFOQueue(cluster.num_tasks('worker'), tf.int32, shared_name='done_queue' + str(i))
                    done_ops.append(done_queue.enqueue(FLAGS.task_index))
          assert FLAGS.train_batch_size % FLAGS.num_clones == 0, (
              'Training batch size not divisble by number of clones (GPUs).')
          clone_batch_size = FLAGS.train_batch_size // FLAGS.num_clones
          dataset = data_generator.Dataset(
              dataset_name=FLAGS.dataset,
              split_name=FLAGS.train_split,
              dataset_dir=FLAGS.dataset_dir,
              batch_size=clone_batch_size,
              crop_size=[int(sz) for sz in FLAGS.train_crop_size],
              min_resize_value=FLAGS.min_resize_value,
              max_resize_value=FLAGS.max_resize_value,
              resize_factor=FLAGS.resize_factor,
              min_scale_factor=FLAGS.min_scale_factor,
              max_scale_factor=FLAGS.max_scale_factor,
              scale_factor_step_size=FLAGS.scale_factor_step_size,
              model_variant=FLAGS.model_variant,
              num_readers=2,
              is_training=True,
              should_shuffle=True,
              should_repeat=True)
          train_tensor, summary_op = _train_deeplab_model(
              dataset.get_one_shot_iterator(), dataset.num_of_classes,
              dataset.ignore_label)
          # Soft placement allows placing on CPU ops without GPU implementation.
          session_config = tf.ConfigProto(
              allow_soft_placement=True, log_device_placement=False)
          #liutian add on cloud
          session_config.gpu_options.allow_growth = True
          last_layers = model.get_extra_layer_scopes(
              FLAGS.last_layers_contain_logits_only)
          init_fn = None
          #FLAGS.tf_initial_checkpoint = '/home/DATA/liutian/tmp/tfdeeplab/deeplab/datasets/pascal_voc_seg/init_models/deeplabv3_pascal_train_aug/model.ckpt'
          if FLAGS.tf_initial_checkpoint:
            init_fn = train_utils.get_model_init_fn(
                FLAGS.train_logdir,
                FLAGS.tf_initial_checkpoint,
                FLAGS.initialize_last_layer,
                last_layers,
                ignore_missing_vars=True)
          scaffold = tf.train.Scaffold(
              init_fn=init_fn,
              summary_op=summary_op,
          )
          stop_hook = tf.train.StopAtStepHook(
              last_step=FLAGS.training_number_of_steps
          )
          hooks = [stop_hook,tf.train.FinalOpsHook([done_ops])]
          profile_dir = FLAGS.profile_logdir
          if profile_dir is not None:
            tf.gfile.MakeDirs(profile_dir)
          with tf.contrib.tfprof.ProfileContext(
              enabled=profile_dir is not None, profile_dir=profile_dir):
            with tf.train.MonitoredTrainingSession(
                master=server.target,
                is_chief=(FLAGS.task_index == 0),
                config=session_config,
                scaffold=scaffold,
                checkpoint_dir=FLAGS.train_logdir,
                summary_dir=FLAGS.train_logdir,
                log_step_count_steps=FLAGS.log_steps,
                save_summaries_steps=FLAGS.save_summaries_secs,
                save_checkpoint_secs=FLAGS.save_interval_secs,
                hooks=hooks) as sess:
              while not sess.should_stop():
                sess.run([train_tensor])
这样的话还有一个问题就是，如果代码有一定问题，那么不会主动退出。这个只能再想想办法了。
同样的问题在知乎大家也可以试试，但我没有采用。
https://www.zhihu.com/question/51181456?from=profile_question_card
问题二
这里要说一个比较偶然的错误，会导致worker都不停止。ps会输出unknownError:Could not start gRPC server.
这是由于端口被占用，也就是类似于：

节点名:2223 (比如192.18.49.1:2223,或者1:2223)
其中2223就是端口。如果2223被什么占用了，那么worker跑完就不会停止。
节点不释放，就会空耗资源，就会费钱。
解决方法是开始跑程序就要注意ps的输出，如果提示了unknownError:Could not start gRPC server.就要换个节点，比如
节点名:2333333


作者：TinaO-O
                    
 
                

                            分布式
                            分布
                            tensorflow
                            花
                            ps


           
    
    

            
                
                    
                
            
            
                
    
        
            需要 登录 后方可回复, 如果你还没有账号请 注册新账号
        
    
                
            
                
                    
                        相关文章

    
        
            ECharts 旭日图
        
        
            Bella
            2020-02-08
        
    
    
        963
    


    
        
            W3C公布最新的HTML5标准草案
        
        
            Oprah
            2020-06-20
        
    
    
        912
    


    
        
    
    
        
            探索PowerShell(一) 初识 PowerShell
        
        
            Maleah
            2021-05-23
        
    
    
        828
    


    
        
    
    
        
            asp.net开发sql server转换成oracle的方法详解
        
        
            Paloma
            2021-02-26
        
    
    
        737
    


    
        
    
    
        
            asp.net core MVC 全局过滤器之ExceptionFilter过滤器(1)
        
        
            Thalia
            2021-04-08
        
    
    
        789
    


    
        
    
    
        
            Redis实现分布式锁详解
        
        
            Tanisha
            2023-04-10
        
    
    
        849
    


    
        
    
    
        
            分布式训练training-operator和pytorch-distributed RANK变量不统一解决
        
        
            Pandora
            2023-04-14
        
    
    
        1631
    


    
        
    
    
        
            分布式消息队列RocketMQ概念详解
        
        
            Rhea
            2023-05-09
        
    
    
        605
    


    
        
            使用Python、TensorFlow和Keras来进行垃圾分类的操作方法
        
        
            Laila
            2023-05-12
        
    
    
        349
    


    
        
            如何在SpringBoot中使用Redis实现分布式锁
        
        
            Lark
            2023-05-13
        
    
    
        144
    


    
        
            Redisson实现分布式锁、锁续约的案例
        
        
            Tia
            2023-05-13
        
    
    
        1861
    


    
        
            tensorflow之如何使用GPU而不是CPU问题
        
        
            Ida
            2023-05-13
        
    
    
        644
    


    
        
            Tensorflow训练模型默认占满所有GPU的解决方案
        
        
            Bella
            2023-05-13
        
    
    
        714
    


    
        
    
    
        
            C++实现动态烟花代码
        
        
            Nora
            2023-07-04
        
    
    
        963
    


    
        
            shell进程监控的实现(ps、sleep、kill)
        
        
            Bena
            2023-07-20
        
    
    
        502
    


    
        
            Redis+IDEA实现单机锁和分布式锁的过程
        
        
            Crystal
            2023-07-20
        
    
    
        818
    


    
        
            pycharm中报ModuleNotFoundError:No module named tensorflow错误解决
        
        
            Sylvia
            2023-07-20
        
    
    
        320
    


    
        
            Python绘制七彩花朵(用Turtle)
        
        
            Zandra
            2023-07-20
        
    
    
        1380
    


    
        
            C++花括号{}初始化小结
        
        
            Penny
            2023-07-20
        
    
    
        460
    


    
        
            Linux命令之ps命令使用详解
        
        
            Kara
            2023-07-22
        
    
    
        1977


        
    
        
            我要提问
        
    
    
        
        
    
        致谢
        
            帮助他人，成就自己。
            人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。
            1024问感谢每一位朋友的帮助和支持。
            软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。
        
    
    
        
            
    育儿网
    微养生
    全球行
    美食街
    育儿
    菜谱大全
    海南旅游
    女性
    养狗百科
    星座