Qi Qiang Blog

--- 燥动灵魂,无处安放;放浪形骸,随处可栖.

Flexflow:Beyond Data and Model Parallelism for Deep Neural Networks

这篇论文是在之前survey在hybrid parallelism的部分提到的一篇论文,因为说是采用了一个execution simulator从而能够自动的进行并行策略的优化选取,比较好奇所以仔细看了一下。这是斯坦福Matei Zaharia(写spark那个)18年发在axXiv,发表在sysML 19的文章,针对的是当前分布式处理DNN任务的时候并行策略难以选取的痛点。在之前surve......

Scalable Deep Learning on Distributed Infrastructures:

近年来深度学习的成功与数据集的增大以及模型的增大密不可分,当然算力的增强也是先决要素。关于深度学习应用的研究可以说是数不胜数,在各个领域基本都能看到DL的身影。本文是从scalable DL的角度入手,总结了分布式深度学习面临的挑战以及当前学者提出的技术。文章对scalable DL从四个角度进行总结: 分布式的infrastructure DL 训练时的并行处理方法 多租户条件下的资源调......

Scaling Distributed Machine Learning with the Parameter Server

这篇论文是发表在OSDI 2014, 可以算是分布式机器学习的一个里程碑意义的论文。虽然提出的思想在如今看来已经不再那么新颖,但是具体实现细节以及对big data的处理能力的提升使得该模型成为经典模型。它并不是第一个提出parameter server思想的文章, 用文中的话就是:第一代的memcached distributed(key,value) store作为同步机制的ps缺乏fl......

Gradient descent

最近看了看李宏毅的机器学习视频,感觉自己还是好多不懂得,哎没怎么写过代码,光看理论看着看着也就忘了,虽然现在很多函数都被封装好了,感觉还是要整理一下搞搞清楚。纸上学来终觉浅,绝知此事要躬行还是不能太急功近利,感觉最近的自己无论在做什么事情上都太想追求速度,所以很多东西都没抓住,还是一点点慢慢来。李宏毅的课后作业地址:https://github.com/maplezzz/ML2017S_Hu......

Olympian: Scheduling GPU Usage in a Deep Neural Network Model Serving System

核心思想这是一篇关于GPU资源分配调度的paper, 出发点比较新颖。考虑的是在DNN inference过程中单个GPU上的不同DNN 模型的推理遇到的挑战,例如常用的TF-Serving就会导致运行时间不可预测的问题。本文的出发点是在TensorFlow node这一级别上对其进行处理。首先对于一个job的DNN模型请求进来之后,经过profiler对它运行时间进行一个估计,确定time......

SOCK: Rapid Task Provisioning with Serverless-Optimized Containers

Background      这篇文章讲了一个有关优化容器启动时间的方案,因为docker的到来,相信很多人对于容器的概念并不陌生,但是可能也存在一些偏差。Docker并不单单传统意义上的容器,而是早就存在的Linux container的一个管理收集者。      维基上是这么对docker定义的:Docke......

抽取并点缀生活的匠心

从"星之声"到"君の名は"观后感

bgm:《one more time,one more chance》 十一放假,本来以为要实验室七日游,结果…不用说了吧23333。一号的时候班上的小伙伴叫我一起去附近一个古镇上一日游,没怎么犹豫就答应了,毕竟内心住着一个奔放不羁的野马,开学第一个长假实验室都没人怎么可能静得下来,不如趁此机会出去走走。一日游我身体出了点小状况,差点闹出笑话,往事不堪回首。不说了,突然想起来之前一直想去的新......

Build Kubernetes cluster on AWS

因为实验原因需要搭设一个简单的kubernetes集群,实现分布式TensorFlow的运行。踩了不少的坑,下面说一下自己的一些总结。kubernetes集群分为master节点和n个node节点,master上运行的服务有kube-apiserver、kube-controllermanager、kube-scheduler,作用不作赘诉,node运行的服务是kubelet、kube-pr......

Scalable Overload Control for Large-scale Microservice Architecture

Problem 1. Service-specific overload control could be detrimental to the overall system due to intricate service dependencies or flawed implementation of service. 2. Service developers usually hav......

总要心有所栖的群居动物

博客初衷关于文章作为一个伪文艺青年,之前对生活有所感悟偶尔会花一点时间去记录一下,或者在空间或者在微博或者在豆瓣或者在知乎。当自己沉浸在某一个世界不能自拔的时候,往往想找身边的人进行分享,但是人们都长大了,朋友们也不再像小时候的玩伴一样随时恭候。于是就有了所谓的文章,所谓的抒情。 关于笔记不知不觉研究生的生活也已经过了一个月,切身认识到自己才疏学浅。每次见到大佬的成果都惶惶而恐=_=,研究方......