科技论文阅读与写作课程报告
姓名:王鑫学号:12349021 专业:信息安全
1论文的详细信息
本次报告我选择的论文题目是《Leveraging
Checkpoint/Restore to
Optimize Utilization of Cloud Compute Resources》,这篇文章来自40th
Annual IEEE Conference on Local Computer Networks。报告写于2015年,是一篇关于云计算的论文。
报告是我在家通过中大VPN,在IEEE的会议和期刊论文的检索网站
http://ecopyright.ieee.org/xplore上找到的。
2选择这篇论文的原因
最近几年,云计算这个词语多次出现在老师的授课中和平时的生活中,但我一直什么是
云计算是什么没有很深的理解,所以借着这次机会我就大概的看了看云计算相关的知识,并选择了这篇关于云计算的论文来作课程报告。
这篇论文对于我难度适中,通过了解相关知识我基本上可以看懂作者研究的目的和研究
的内容,以及相关的实验内容,所以我便选择这篇论文进行简要的介绍。
3论文的相关工作及作者的研究动机
在作者利用亚马逊弹性计算云进行他的研究之前,已经有前人对亚马逊EC2平台做了一
些研究。比如Ou 等人此前在多种实例类型上研究了了亚马逊EC2开发硬件的异构性,但是主要集中在m1.large上。G.Wang 等人在亚马逊数据中心研究了虚拟化的影响。
虚拟机之间的迁移机制近几年已经被研究过了,例如Di等人已经使用一种可接受的检
查点策略用于优化云应用的容错性。
本文作者在上面两方面研究的基础上,对亚马逊t1.micro微实例进行性能测试,并将检
查点机制应用于优化云计算的性能,降低花费。
具体作者所讲述的自己的研究动机是因为,云计算服务器有各种各样的性能特征被云提
供者所隐藏,因此对于云用户来说如何判断什么时候,在什么地点来运行自己的作业将会是最优的,这点是很困难的。所以作者本着最优化利用云计算资源的目的,进行了自己的研究。
4论文的主要工作要点
作者的实验平台是亚马逊弹性计算云(EC2),亚马逊计算云是一个让使用者可以利用云
端电脑运行所需应用的系统。EC2借由提供Web服务的方式让使用者可以在虚拟机上运行自己想要的软件或应用程序。用户可以根据实际的需求调整云计算能力。
在本篇论文中,作者就针对亚马逊t1.micro实例做了一系列的测试,分别测试短运行作业和长运行作业与运行时间地点之间的关联。发现了对于长运行作业,由于CPU节流会导致运行时间和成本的上升。于是作者针对这个问题,提出了解决方案。这个解决方案就是本篇论文的重点,简要来说它就是利用检查点/恢复来优化使用云计算资源。
该方案是一个调度程序简要地以Python流程图表示如下:
具体应用于实验平台上就是,如果CPU节流被检测到,首先用AWS CLI(亚马逊服务命令行接口)启动一个新的虚拟机,然后挂起作业并且为正在运行的基准测试设置检查点,拷贝所有需要的数据到新启动的虚拟机,恢复两个被挂起的基准测试和新启动的虚拟机上的调度程序。进行作业在虚拟机之间的迁移,当虚拟机之间的迁移完成后,关闭出现节流的虚拟机,在新启动的虚拟机上继续未完成的作业。
针对这个解决方案,作者又做了一系列的测试,来证明该方案能够有效地解决因为CPU节流而产生的作业运行时间和成本的上升。
最后作者为评估调度程序的实用性,创建了两个仿真器。
第一个仿真器可以通过使用可信追踪来控制状态转化,简单计算虚拟机在节流和正常(不节流)两种状态下作业的运行时间。
第二仿真器模拟我们的检查点/恢复方法,并用变量来表示迁移时间和节流检测时间。 作者利用这两个仿真器进行了一系列的实验,并对比两个仿真器的实验结果,来全面评
估调度程序的实用性。
5论文实验的主要过程及结论
本文的实验主要分为三个个阶段,下面5.1到5.3具体对这三个阶段的实验做了详细介绍,并给出了实验结果及实验结果分析。
5.1性能测试
性能测试分为短运行测试和Ad-hoc长运行测试。
5.1.1短运行测试
多个短运行标准被用来测试亚马逊t1.micro实例虚拟机。具体进行的测试是: 1.第一个性能测试是一个简单处理器模型检查。
2.接下来的测试是bogomips测试,一种由Linus Torvalds发明的快速繁忙循环测试。 3.对于一个真实处理器的LINPACK基准测试。 4.缓存读基准测试(用bdparm-T)。 5.非缓存数据读基准测试(用bdparm-T)。 6.原始磁盘写基准测试(用Linux dd)。 7.fio只读基准测试(包括随机读取性能)。
由虚拟机上的系统来自动执行每个基准测试,并传送结果到一个(非亚马逊的)被应用的数据存储设备中。
这些虚拟机被配置为在最后一个基准测试执行完并且数据拷贝完之后再关闭。 使用亚马逊网络服务(AWS)命令行接口(CLI)以一种自动化的方式启动和终止机器,在这种方式下测试完全是自动的,允许连续运行多日不需要人机交互。
进行短运行测试的bogomips测试结果如下面两张表所示,表I展示的是在不同地点的平均速度,其中?645表示Intel Xeon E5645型CPU所占百分比。因为t1.micro实例中两种型号的CPU被观测,包括Intel Xeon E5-2650和Intel Xeon E5645,其中Intel Xeon E5645占比较低,但是运行频率比Intel Xeon E5-2650要高,并且不同区域占比不一致,所以实验中特别指出了其占总的CPU的百分比。
表II给出了不同区域的内存性能的观察结果
观察表I可以看出bogomips测试的结果稳定在400到600之间。但是不同地点之间的CPU性能的确有一定差异。
观察表II可以看出内存性能与地点也是相关的。
综合观察表I和表II,可以发现ap-northeast-1的CPU性能比其他地方要差一些,但是它的内存性能却是最好的。类似的sa-east-1的CPU性能较好,但是它的内存性能确实最差的。
5.1.2 Ad-hoc长运行测试
Ad-hoc实验是在较长的时间段内在虚拟机上不关机地重复运行上述基准测试,以测试
因为CPU-thorttling(cpu因为温度过高,降低频率)而产生的速度减缓。一旦速度减缓被确认,另一个长运行测试将会被实施。
表III给出了没有使用调度程序的长运行测试得部分结果。
从表中可以看出Trial 3中,当检测到节流行为时,执行基准测试的成本和时间都会上升。
5.2基于检查点机制的相关实验
发现了对于长运行作业,由于CPU节流会导致运行时间和成本的上升。作者提出了一
个解决方案,参照4论文的工作要点。应用该方案再次进行长运行测试,结果如下表IV所示。
观察上表可以看出虽然有大量的迁移事件发生,但是实验结果中并没有出现5.1.2节中