我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:双彩网 > 指令级并行 >

超长指令集架构

归档日期:07-02       文本归类:指令级并行      文章编辑:爱尚语录

  VLIW:(Very Long Instruction Word,超长指令字)一种非常长的指令组合,它把许多条指令连在一起,增加了运算的速度。 超长指令字(VLIW)是指令级并行,超线程(Hyper-Threading)是线程级并行,而多内核则是芯片级并行。这三种方式都是提高并行计算性能的有效途径。其中,VLIW(超长指令字)体系结构是美国Multiflow和Cydrome公司于20世纪80年代设计的体系结构,EPIC体系结构就是从VLIW中衍生出来的。

  通常一条指令包括两方面的内容:操作码和操作数,操作码决定要完成的操作,操作数指参加运算的数据及其所在的单元地址。

  在计算机中,操作要求和操作数地址都由二进制数码表示,分别称作操作码和地址码,整条指令以二进制编码的形式存放在存储器中。

  指令的种类和多少与具体的机型有关,在此不详述,请参见具体的机器资料手册。

  指令的顺序执行,将完成程序的执行,因而有必要了解指令的执行过程。首先是取指令和分析指令。按照程序规定的次序,从内存储器取出当前执行的指令,并送到控制器的指令寄存器中,对所取的指令进行分析,即根据指令中的操作码确定计算机应进行什么操作。 其次是执行指令。根据指令分析结果,由控制器发出完成操作所需的一系列控制电位,以便指挥计算机有关部件完成这一操作,同时,还为取下一条指令作好准备。

  超长指令集是第三代电子计算机而提出的,采用中、小规模集成电路制造的电子计算机。1964年开始出现,60年代末大量生产。其机种多样化、系列化,外部设备品种繁多,并开始与通信设备相结合而发展为由多机组成的计算机网。运算速度可达每秒几百万次,甚至几千万次、上亿次。中国于1970年研制成第一台集成电路计算机。

  指令就是指挥机器工作的指示和命令,程序就是一系列按一定顺序排列的指令,执行程序 计算机指令的过程就是计算机的工作过程。

  控制器靠指令指挥机器工作,人们用指令表达自己的意图,并交给控制器执行。一台计算机所能执行的各种不同指令的全体,叫做计算机的指令系统,第一台计算机均有自己的特定的指令系统,其指令内容和格式有所不同。

  产业结构产业结构,亦称国民经济的部门结构。国民经济各产业部门之间以及各产业部门内部的构成。社会生产的产业结构或部门结构是在一般分工和特殊分工的基础上产生和发展起来的。研究产业结构,主要是研究生产资料和...

  我们决定以多种构架视图来表示软件构架。每种构架视图针对于开发流程中的涉众(例如最终用户、设计人员、管理人员、系统工程师、维护人员等)所关注的特定方面。构架视图显示了软件构架如何分解为构件,以及构件如何...

  AT 即Attention,AT指令集是从终端设备(Terminal Equipment,TE)或数据终端设备(Data Terminal Equipment,DTE)向终端适配器(Terminal Adapter, TA)或数据电路终端设备(Data Circuit Terminal Equipment,DCE)发送的。通过TA,TE发送AT指令来控制移动台(Mobile Station,MS)的功能,与GSM 网络业务进行交互。用户可以通过AT指令进行呼叫、短信、电话本、数据业务、传线年代初,AT指令仅被用于Modem操作。没有控制移动电话文本消息的先例,只开发了一种叫SMS BlockMode的协议,通过终端设备(TE)或电脑来完全控制SMS。几年后,主要的移动电话生产厂商诺基亚、爱立信、摩托罗拉和HP共同为GSM研制了一整套AT指令,其中就包括对SMS的控制。AT指令在此基础上演化并被加入GSM07.05标准以及GSM07.07标准,完全标准化和比较健全的标准。如:对SMS的控制共有3种实现途径:最初的BlockMode;基于AT指令的TextMode;基于AT指令的PDUMode。到PDUMode已经取代BlockMode,后者逐渐淡出。GSM模块与计算机之间的通信协议是一些AT指令集,AT指令是以AT作首,字符结束的字符串,AT指令的响应数据包在中。每个指令执行成功与否都有相应的返回。其他的一些非预期的信息(如有人拨号进来、线路无信号等),模块将有对应的一些信息提示,接收端可做相应的处理。

  采用超标量乱序执行的微体系结构威盛凌珑(VIANano™)处理器支持完整64位指令集,具备宏融合

  (Macro-Fusion),微融合(micro-fusion)功能,和精密复杂的分支预测。进一步降

  威盛凌珑(VIANano™)处理器支持高速、低功耗威盛V4前端总线MHz,支持新的SSE指令、2个64KBL1高速缓存和1MB独立L2高速缓存,具有16路信道连接性能,实现了多媒体性能的一大飞跃。

  特别值得一提的是,威盛凌珑(VIANano™)处理器在高性能浮点运算方面有了非常显着的提升,使用了全新的浮点加法运算法则,大大降低了x86处理器中的浮点延迟时间(thelowestfloating-

  pointaddlatency),同样,浮点乘法器也拥有了最低的浮点延迟时间。

  换句话说,这意味着威盛凌珑(VIANano™)处理器提供了出色的流畅播放蓝光盘和其它高清视频格式的性能,它能解码的媒体流速度可以达到40Mbps,具备低滞缓3D图形解码功能,打造完美的电脑游戏体验。

  下图表明了威盛凌珑(VIANano™)处理器在计算方面优于广受欢迎的C7处理器之处:

  AMD的“Bulldozer”是在K10之后推出的全新一代处理器架构,对AMD来说,这是自K7以来AMD处理器架构的一次根本性变革,在核心架构及功能性上都较K10有较大的改变。模块化设计,这让处理器在功能更加灵活的基础上更容易控制成本。物理结构,再根据市场价格策略来决定对内核进行有选择的屏蔽。这对产品的性价比取胜的AMD来说难以控制成本,而且要向在架构上开发出更多的核心的产品几乎要更新设计基板布局。

  而Bullbozer处理器所引入的模块化设计刚好可以解决这个问题。Bulldozer在核心设计方面每两个核心组成一个单独的单元(称之为“核心模块”,两块物理内核集成到一个模块中),比如双核处理器直需要集成一个模块就可以了,即使是八核处理器也只需要集成四个模块,这让产品生产及成本控制更加具有灵活性,处理器核心模块的两个核心各自拥有一级缓存,但是共享二级缓存和预取,解码单元,所有的“核心模块”共享8MB三级缓存和北桥模块。

  那么以后AMD处理器内核数量如何定义呢?未来的新架构四核心处理器指的是四个这样的模块呢,还是四个计算核心呢?AMD对此给出的回复是:“将每个拥有双整数核心的推土机模块视为一个独立的单元就对了。”显然,AMD在这里可以的回避了单纯的核心数量问题,更强调两两组成的有机整体,所以在面对推土机架构处理器的时候我们可以说它是四核心,八核心的,也可以说成是双模块,四模块的。只不过未来AMD或许不会再有奇数核心的处理器了。

  Bulldozer架构中的另一个新元素就是采用了基于集群的多线程技术。Bulldozer的内核模块是一个可以同时运行两个线程的处理组件,两个内核可以执行两个完全不会相互干扰的线程,有点类似于Intel的双核处理器的超线程奇数。

  尽管双核、多线程和Bulldozer在线程并行执行方面是相同的,但是内核的分区却截然不同。多线程就是在一个单个的处理核心内同时运行多个工作线程的技术,和CMP芯片多处理器技术不同,后者是通过集成多个处理内核的方式让系统的处理能力提升,主流的多核处理器都是用了CMP技术,而像Pentium 4、Corei7这样的处理器带的“超线程技术”则属于多线程奇数,而Bulldozer是基于集群化多线程架构,Cluster-BasedMulti-threading:CMT,也称多簇式多线程技术。

  在Intel的超线程方案中,采用的是复制处理器架构状态的方法来实现超线程,核心内部并没有增设一套额外的硬件执行单元来处理多线程,只是增加了处理器中存储线程有关数据的单元数量,并在硬件执行单元空闲时将这些数据送往其中处理,一边增加处理器执行单元的利用率。这种设计有一定的缺点,比如它只使用了一个指令窗口来负责两个线程的调度、执行和引退,效率并不高。这就像是生产线只有一名管理调度人员,一个人很难同时处理两个任务,这样有时候便会出现生产线故障,而处理器在碰到这种情况时性能则会出现明显的下降。

  相对于传统超线程或双核技术,Bulldozer这种设计集群化架构的理念是让双核模块在多线程运算中更高效。Bulldozer每一个模块中加入了额外的执行单元,每一个模块都具备可以将一个大任务细分为多个并行任务的能力,这些生产线可以按需要任意整合,不会对整个装配线的效能造成影响。因此CMT技术的效能要高于传统的多线程方案。根据AMD介绍,单个“推土机模块”可以达到80%左右的多线程性能提升,而且所用的晶体管数目似乎并不比Intel的超线程奇数更多,这是一个相当鼓舞人心的成就。

  Bulldozer所采用的集群化多线程架构之所以能实现如此高的性能,其中一个大原因就是AMD增加了CPU的运算单元——每个模块中的两个线程都具有独立的整数运算单元,只有浮点单元是共享的,这被称为具有两个证书运算单元“簇”。Bulldozer这种将两个线程的整数运算独立开来的设计可以更有效的提高处理器在基本应用中的性能。由于Intel的Nehalem架构的超线程奇数是两个硬件线组运算单元,冲突在所难免,而Bulldozer则是两个硬件线个整数运算单元,性能提升将会更加明显。根据AMD公布的Bulldozer执行单元的结构图,负责整数运算的整数执行单元和负责地质计算的载入/存储单元一共有4组(每单元2组)。(在K7/K8/K10中这样的单元也仅有3组,刚好对应K7/K8/K10的每周期处理3条宏指令的能力。)

  需要说明的是,Bulldozer这种双“簇”也让AMD在产品设计上具有更高的灵活性上,未来处理器的分级可以通过控制“簇”的数量来实现:比如以后的Bobcat处理器就是切掉一个整数运算“簇”的Bulldozer。此外,Bulldozer的每个模块还具备两条128Bit FMAC(乘法累加运算)流水线,浙江能够满足Bulldozer中信加入的AVX指令集扩展的需求,这种指令集扩展中包含了大量的128Bit多媒体指令集。

  随着内核的倍增,处理器对生产工艺也提出了更高的要求,因此近几年来半导体厂商也会通过各种各样的信技术的是是用来维持摩尔法则的“More Moore“。在处理器生产工艺应用上,Intel一直走在AMD的前面,酷睿采用32nm制程已经差不多半年,但AMD的产品停留在45nm!这种情况将随着Bulldozer的诞生而得到改变,Bulldozer将采用32nm制程。预计32nm工艺将于2010年第三季度开始试产,病在2011年为AMD提供产能,28nm工艺于2010年第四季度上马,超低功耗版28nm工艺则排在2011年第一季度,它们都会是用HKMG技术。这意味着AMD将在2010年完成产品生产工艺升级的“两级跳”,从45nm进化至32nm后迅速再次进化至28nm,追回被Intel落下的时间。

  此前,AMD已经展示了它们28nm产品的晶圆图,看来新技术似乎已经非常接近最后可用的程度。如果真的能够实现工艺两级跳,那么长期困扰AMD的工艺制程问题有可能得到巨大改善,AMD将走出窘境,进入全新发展的时代。

  Bulldozer架构将采用新的AM3+接口,拥有941个针脚(AM3是938针、AM2+/AM2是940针),不同于938针脚的SocketAM3接口,其好处是可以支持DDR3 1866内存和高级技能技术。需要说明的是,AM3+是AMD最后一代针脚栅格阵列(PGA)封装,之后将改用触点栅格阵列(LGA),等到Fusion融合处理器降临的时候就会使用LGA AF1新接口,触点多大1591个。针对兼容性方面,按照AMD的说法,主板。

  其实AMD最初也考虑过让Bulldozer沿用AM3接口,但是随后意识到必须做出一个选择,是继续提供AM3而损失新架构的一些新特性,还是升级接口带来更好的性能和功能?最终为了长远利益,AMD选择了后者。Bulldozer处理器将会首先用于服务器,预计首批芯片将是代号为“Interlagos”的服务器处理器,核心数在12个~16个之间。而针对桌面服务器市场,Bulldozer将会有4/6/8个核心的三个版本,三级缓存容量为8MB,支持DDR3 1866,首款采用Bulldozer架构的桌面处理器产品代号Zambezi,将成为AMD下一代高端桌面平台Scorpius的核心。

  广东佛山市党风廉政教育中心雨污水管改造工程(佛山市禅城区南庄镇水利所)

  广东东莞市联科国际信息产业科研中心(二期)(广东中天联科信息产业投资有限公司)

  广东佛山市禅城区轻工路北侧、清峰路东侧地块项目(东亚西区)(佛山东亚股份有限公司)

  广东广州市中国移动南方基地二期二阶段项目(中国移动通信集团广东有限公司)

  广东高奇新材料科技有限公司年产33000吨表面活性剂工程(广东云浮市)

本文链接:http://f-taiken.net/zhilingjibingxing/233.html