一文明白使用nohup将服务器训练程序后台运行不关闭+随时通过查看训练情况输出与visdom可视化

Odetta ·

更新时间:2024-11-13

· 965 次阅读

使用nohup将训练程序后台不间断运行+随时查看训练情况输出与可视化使用服务器进行远程训练nohup指令和查看输出缺省输出文件的写法指定输出文件的写法和CUDA一起用实时查看out配合visdom使用 使用服务器进行远程训练

由于笔者经常需要使用服务器进行训练，且有些模型训练起来需要很长的时间，如Mask模型，故经常需要长期跑程序。由于我使用的是ssh登录，因此断网或者退出账号时程序就会被kill。总结了以下常用的远程训练指令，帮你可以不间断的训练模型，并且随时可以查看模型可视化结果。

nohup指令和查看输出

nohup 是 no hang up 的缩写，就是不挂断的意思。

nohup命令：如果你正在运行一个进程，而且你觉得在退出帐户时该进程还不会结束，那么可以使用nohup命令。该命令可以在你退出帐户/关闭终端之后继续运行相应的进程。

在缺省情况下程序的所有输出都被重定向到一个名为nohup.out的文件中。

缺省输出文件的写法

 nohup python3 -W ignore -m xxx.py

在这种写法下，所有输出被保存到该目录的nohup.out内，且实时读写，如图，使用ls查看该文件夹下的文件。
在这里插入图片描述

指定输出文件的写法

nohup python -u xxx.py  > my_out_file.txt 2>&1 &

就会将xxx.py的输出全部存到my_out_file.txt里

和CUDA一起用

有一台服务器，服务器上有多块儿GPU可以供使用，但此时只希望使用第2块和第4块GPU，但是我们希望代码能看到的仍然是有两块GPU，分别编号为0,1，这个时候我们可以使用环境变量CUDA_VISIBLE_DEVICES来解决这个问题。
比如

CUDA_VISIBLE_DEVICES=1  只有编号为1的GPU对程序是可见的，在代码中gpu[0]指的就是这块儿GPU
CUDA_VISIBLE_DEVICES=0,2,3  只有编号为0,2,3的GPU对程序是可见的，在代码中gpu[0]指的是第0块儿，gpu[1]指的是第2块儿，gpu[2]指的是第3块儿
CUDA_VISIBLE_DEVICES=2,0,3  只有编号为0,2,3的GPU对程序是可见的，但是在代码中gpu[0]指的是第2块儿，gpu[1]指的是第0块儿，gpu[2]指的是第3块儿

CUDA指令在前

CUDA_VISIBLE_DEVICES=1 nohup python3 -W ignore -m xxx.py

实时查看out

使用vim nohup.out查看该文件。
为了实时查看输出，在文件内使用 Shift + G的组合键快速跳到文件末尾。
跳到指定行：直接:+数字

配合visdom使用

有时我们会使用visdom将训练结果可视化，但是登出系统会自动把visdom也关闭，影响查看效果，因此可以直接使用nohup打开visdom，这样即使登出服务器，下次登入也可以在指定端口上访问可视化结果。

nohup python -m visdom.server

作者：Haorui.L

后台运行服务器运行输出训练程序关闭 nohup

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

MySQL 运算符

Diane 2020-08-04

533

.NetCore获取Json和Xml格式的配置信息

Linda 2020-05-08

949

linux下忘记mysql密码的几种找回方法（推荐）

Acacia 2021-06-08

654

laravel unique验证、确认密码confirmed验证以及密码修改验证的方法

Manda 2020-08-09

879

CSS 垂直水平居中的5种最佳解决方案

Nabila 2021-07-22

935

Vim中列出TODO与FIXME等备注的方法

Autumn 2020-02-01

629

laravel-admin表单提交隐藏一些数据,回调时获取数据的方法

Manda 2020-04-28

928

网页制作中CSS的四种常用方法

Alexandra 2021-07-18

506

open3d 通过vscode+ssh连接远程服务器将可视化界面本地显示的问题

Glory 2023-07-21

1926

服务器安装conda环境遇到代理PROXY问题及解决方案

Keelia 2023-07-21

1161

一文详解Android中Okio输入输出流

Levana 2023-07-21

1045

Flutter Ping检查服务器通讯信号强度实现步骤

Raizel 2023-07-21

293

服务器云主机VPS之iis不支持.flv文件在线播放的解决方法

Rosine 2023-07-22

1883

在多个Linux服务器上运行多个命令的操作指南

Karli 2023-07-22

573

docker run容器运行的方法实现

Endora 2023-07-22

1894

如何在多台服务器上运行相同命令

Bena 2023-07-22

宝塔通过composer安装TP依赖的详细教程(宝塔服务器)

Rhoda 2023-07-22

1436

docker之如何查看正在运行的容器

Bertha 2023-07-22

1206

docker查询日志并输出到文件的方法

Grace 2023-07-22

1029

Docker镜像之不同服务器间迁移方法大全

Dorothy 2023-07-22

1993

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座