此处应该有图片
冷饭重炒 这其实是在19年就应该发出来的一点笔记,只是以前都存在自己脑子里,而且现在随着版本的变动,配置上也有了一点点小变化,所以炒一下冷饭。
需求是什么 在一个小公司里面,如何为算法工程师分配GPU资源是个问题。大厂当然有成熟的k8s+各种gpu虚拟化黑科技。但很显然,这需要完整的体系,从用户认证到临时存储、持久化存储、日志存储、资源配额、资源用量统计、任务队列等等的配套,才能结合k8s的调度一起来完成GPU资源分配。 在2019年的时候,服务器少,人也少,项目和任务单一,所以那时候只搞了服务器端的ldap认证,不存在什么资源协调问题,所以裸机直接上了。 到了20年,机器增多,人也增多,任务和环境的诉求也不一样,这个时候,再走裸机,很显然,无论从资源利用率、数据安全、环境冲突(即使有Anaconda …
阅读原文