cpu是指什么?_cpu是什么?cpu是什么意思?怎么样

电子爱好者网讯：最近听到很多用户问cpu是什么？cpu是什么意思？Cpu其实就是中央处理器的缩写，cpu是计算机控制的核心。

什么是CPU？

CPU是计算机系统的心脏，计算机尤其是微型计算机的快速发展，本质上就是CPU从低级到高级，简单单向复杂发展的过程。

一、CPU的概念

CPU(中央处理器)也叫中央处理器。它的主要功能是执行运算和逻辑操作。其内部结构大致可分为控制单元、算术逻辑单元和存储单元。根据信息的字长，可分为八位微处理器、十六位微处理器、三十二位微处理器和六十四位微处理器。

二、 CPU CPU主要性能指标

主频：即CPU内部核心的时钟频率，单位一般为兆赫(MHz)。这是我们无论是使用还是购买电脑，最关心的一个参数。我们通常说的133、166、450就是指它。对于同类CPU，主频越高，CPU速度越快，整机性能越高。

外部频率和倍频器：外部频率是CPU的外部时钟频率。外部频率由电脑主板提供，CPU主频与外部频率的关系为：CPU主频=外部频率倍频。

前端总线(FSB)频率

前端总线(FSB)的频率直接影响CPU与内存直接数据交换的速度。有一个公式可以计算出来，就是数据带宽=(总线频率数据位宽)/8，数据传输的最大带宽取决于同时传输的所有数据的宽度和传输频率。比如目前支持64位的Xeon Nocona，其前端总线为800MHz。根据公式，其最大数据传输带宽为6.4GB/s.

外频和FSB频率的区别：FSB的速度是指数据传输的速度，外频是指CPU和主板同步运行的速度。换句话说，100MHz的外部频率意味着数字脉冲信号每秒振荡1亿次；100MHz前端总线是指CPU每秒可接受的数据传输能力为100 MHz 64 bit 8 bit/byte=800 MB/s。

事实上，“HyperTransport”架构的出现在实际意义上改变了FSB的频率。IA-32架构必须有三个重要组件：内存控制器集线器(MCH)、I/O控制器集线器和PCI集线器。比如英特尔的典型芯片组，英特尔7501。英特尔7505芯片组，它是为双至强处理器量身定制的。它们包含的MCH为CPU提供533MHz频率的前端总线。使用DDR内存，前端总线的带宽可以达到4.3GB/s，然而随着处理器性能的不断提升，给系统架构带来了很多问题。“HyperTransport”架构不仅解决了问题，还更有效地提高了总线带宽，如AMD皓龙处理器。灵活的HyperTransport I/O总线架构允许它集成内存控制器，使处理器可以直接与内存交换数据，而无需通过系统总线传输到芯片组。在这种情况下，AMD皓龙处理器中的前端总线(FSB)频率不知道从哪里开始。

隐藏物

缓存大小也是CPU的重要指标之一，缓存的结构和大小对CPU的速度影响很大。CPU中的缓存运行频率非常高，通常与处理器同频，工作效率远大于系统内存和硬盘。在实际工作中，CPU经常需要重复读取同一个数据块，缓存容量的增加可以大大提高CPU内部读取数据的命中率，而无需在内存或硬盘中寻找，从而提高系统性能。但是由于CPU芯片面积和成本的因素，缓存很小。

L1缓存是CPU的第一层缓存，分为数据缓存和指令缓存。内置L1缓存的容量和结构对CPU的性能有很大影响。然而，高速缓冲存储器都是由静态RAM构成的，并且结构复杂。在CPU芯片面积不能太大的情况下，L1级缓存的容量不能做得太大。通常，服务器CPU的L1缓存容量通常为32-256KB。

L2缓存是CPU的二级缓存，分为内部和外部芯片。内部芯片二级缓存运行速度与主频相同，而外部二级缓存只有主频的一半。L2缓存容量也会影响CPU的性能。原则是CPU越大越好。以前最大的国产CPU容量是512KB，现在在笔记本电脑上可以达到2M，而服务器和工作站使用的CPU L2缓存更高，达到8M以上。

L3缓存(三级缓存)分为两种，早期的外置，现在的内置。其实际作用在于，L3缓存的应用可以进一步降低内存延迟，提高处理器在计算大数据量时的性能。降低内存延迟，提高大数据的计算能力，对游戏很有帮助。但是，通过在服务器领域添加L3缓存，性能仍有显著提高。例如，具有较大L3缓存的配置可以更有效地使用物理内存，因此它可以比较慢的磁盘I/O子系统处理更多的数据请求。具有更大L3缓存的处理器提供了更高效的文件系统缓存行为以及更短的消息和处理器队列长度。

其实最早的L3缓存应用在AMD发布的K6-III处理器上。当时L3缓存并没有集成到芯片中，而是由于制造工艺的原因集成到主板中。L3缓存，只能和系统总线频率同步，和主存区别不大。后来，L3缓存是英特尔为服务器市场推出的安腾处理器。然后是P4EE和至强MP。英特尔还计划在未来推出9MB三级高速缓存的Itanium2处理器和24MB三级高速缓存的双核Itanium2处理器。

但是基本上L3缓存对处理器性能的提升并不是很重要。比如配备1MB三级缓存的至强MP处理器依然敌不过骁龙，这说明前端总线的增加会比缓存的增加带来更有效的性能提升。

CPU扩展指令集

CPU依赖于来自计算和控制系统的指令，每个CPU都设计有一系列与其硬件电路相匹配的指令系统。指令的强弱也是CPU的重要指标，指令集是提高微处理器效率最有效的工具之一。

从现阶段的主流架构来看，指令集可分为复杂指令集和简化指令集两部分(指令集有四种类型)，而从具体应用来看，如Intel的MMX(Multi Media Extended，这是AMD推测的全称，Intel没有说明词源)、SSE、SSE 2(Streaming-single instruction multiple data-extensions 2)、SSE3、SSE4系列和AMD的3DNow！它们都是CPU的扩展指令集，分别增强了CPU的多媒体、图形图像和互联网的处理能力。

CPU的扩展指令集通常称为“CPU指令集”。SSE3指令集也是目前最小的指令集。以前，MMX包含57个命令，SSE包含50个命令，SSE2包含144个命令，SSE3包含13个命令。

CPU内核和I/O工作电压

从586CPU开始，CPU的工作电压分为内核电压和I/O电压。通常，CPU的核心电压小于或等于I/O电压。其中，内核电压的大小取决于CPU的生产工艺。一般生产工艺越小，内核的工作电压越低。I/O电压一般为1.6~5V。低电压可以解决功耗过大和发热量过大的问题。

内部缓存：由速度极快的SRAM制成，用于在CPU运行过程中临时存储一些最近的指令和数据。访问速度与CPU主频相同，内部缓存容量一般以KB为单位。全速工作时，其容量越大，越容易让最常用的数据和结果尽快进入CPU进行运算。CPU工作时，与外部缓存和访问速度较慢的内存交换数据的次数越少，运算速度相对于电脑可以提高。

地址总线宽度：地址总线宽度决定了CPU可以访问的物理地址空间，简单来说就是CPU可以使用多少内存。

多媒体扩展指令集(MMX)技术：MMX是英特尔公司采用的一项新技术，用于增强奔腾CPU在音频、文章、图形和通信方面的应用。这项技术为CPU增加了57条新的MMX指令。与普通CPU相比，采用MMX指令的CPU多媒体处理能力提高了60%左右。即使程序不使用MMX指令，也能实现15%左右的性能提升。

微处理器在许多方面改变了我们的生活。我们现在认为理所当然的事情在过去是不可想象的。在六十年代，计算机大得足以填满整个房间，只有少数人能使用它们。20世纪60年代中期集成电路的发明，使得电路的小型化在单片硅片上得以实现，为微处理器的发展奠定了基础。在可预见的未来，CPU的处理能力将继续高速增长，小型化和集成化将始终是发展趋势，同时将形成不同层次的产品，包括专用处理器。

中央处理器的功能

计算机解题是通过执行程序来实现的。程序是指令序列，执行程序就是按照指令序列一条一条执行指令。一旦程序加载到主存储器中，CPU就可以自动访问并执行主存储器中的指令。

CPU有以下四个基本功能：

1.命令顺序控制

这是指控制程序中指令的执行顺序。程序中的指令之间有严格的顺序，必须严格按照程序规定的顺序执行，以保证计算机工作的正确性。

2.操作控制器

指令的功能通常由计算机中的组件执行的一系列操作来实现。根据指令的功能，CPU会产生相应的操作控制信号并发送给相应的部件，从而控制这些部件按照指令的要求动作。

3.时间控制

时间控制是各种操作的计时。在一条指令的执行过程中，应该严格控制在什么时间做什么。只有这样，计算机才能自动有序地工作。

4.数据处理

即对数据进行算术和逻辑运算，或其他信息处理。

工作原理：CPU从内存或缓存中取出指令，放入指令寄存器，对指令进行解码。它将一条指令分解成一系列微操作，然后发出各种控制命令执行微操作系列，从而完成一条指令的执行。

指令是计算机指定运算类型和操作数的基本命令。一条指令由一个或多个字节组成，包括一个操作码字段、一个或多个与操作数地址有关的字段、一些代表机器状态的状态字和特征代码。有些指令还直接包含操作数本身。

画

第一阶段是从内存或缓存中提取和检索指令(数值或一系列数值)。存储器的位置由程序计数器指定，并且程序计数器存储用于识别当前程序位置的数值。换句话说，程序计数器记录了当前程序中CPU的踪迹。

指令取出后，程序计数器根据指令长度递增存储单元。指令必须经常从相对较慢的存储器中取出，因此导致CPU等待指令被送入。这个问题主要在现代处理器的缓存和流水线架构中讨论。

译

CPU根据从存储器中提取的指令确定其执行行为。在解码阶段，指令被分解成有意义的片段。根据CPU指令集架构(ISA)的定义，数值被解释为指令。一些指令值是操作码，它指示要执行哪些操作。其他数值通常为指令提供必要的信息，例如加法运算的运算目标。根据寻址模式，这种操作目标可以提供常数值(即，立即值)或空间寻址值：寄存器或存储器地址。在旧的设计中，CPU中的指令解码部分是不可改变的硬件设备。然而，在许多抽象和复杂的CPU和指令集体系结构中，微程序通常用于帮助将指令转换成各种形式的信号。这些微程序往往可以在成品CPU中重写，方便更改解码指令。

执行

在提取和解码阶段之后，它进入执行阶段。在这个阶段，它被连接到能够执行所需操作的各种CPU组件。

例如，如果需要加法运算，算术逻辑单元(ALU)将连接到一组输入和一组输出。输入提供要相加的值，而输出将包含求和的结果。ALU包含电路系统，使得输出端很容易完成简单的普通运算和逻辑运算(如加法和位运算)。如果加法运算产生的结果对于CPU处理来说太大，则可以在标志寄存器中设置算术溢出标志。

最后一个阶段写回，就是简单的以某种格式写回执行阶段的结果。运算结果通常被写入CPU的内部寄存器，以便后续指令快速访问。在其他情况下，可以将运算结果写入速度较慢但容量较大、成本较低的主存储器。一些类型的指令操作程序计数器而不直接产生结果。这些通常被称为“跳转”，并在程序中带来循环行为、条件执行(通过条件跳转)和函数。许多指令会改变标志寄存器的状态位。这些标志可以用来影响程序行为，因为它们经常显示各种操作结果。例如，使用“比较”指令来判断两个值的大小，并根据比较结果在标志寄存器上设置一个数值。这个标志可以通过后续的跳转指令确定程序走向。指令执行完毕，写回结果后，程序计数器值将递增，重复整个过程，在下一个指令周期正常取下一条顺序指令。如果跳转指令完成，程序计数器将修改为跳转指令的地址，程序将继续正常执行。许多复杂的CPU可以一次获取多条指令，解码并同时执行它们。这部分一般涉及“经典RISC流水线”，实际上在很多使用简单CPU(通常称为微控制器)的电子设备中迅速普及。

CPU的基本结构包括算术逻辑单元、寄存器单元和控制单元。

算术逻辑单元

运算逻辑单元可以进行定点或浮点算术运算、移位运算和逻辑运算，还可以进行地址运算和转换。

寄存器单元

寄存器部分包括通用寄存器、专用寄存器和控制寄存器。

32位CPU的通用寄存器可分为定点寄存器和浮点寄存器，用于存储指令中的寄存器操作数和运算结果。

通用寄存器是中央处理器的重要组成部分，大多数指令都要访问通用寄存器。通用寄存器的宽度决定了计算机内部数据通路的宽度，其端口的数量往往影响内部操作的并行性。

特殊寄存器是执行某些特殊操作所需的寄存器。

控制寄存器通常用于指示机器执行的状态或保存一些指针，包括处理状态寄存器、地址转换目录的基址寄存器、特权状态寄存器、条件码寄存器、异常处理寄存器和错误检测寄存器。

有时候，CPU里会有一些缓存，用来临时存放一些数据指令。缓存越大，CPU的运行速度越快。目前市场上中高端CPU的二级缓存在2M左右，高端CPU的二级缓存在4M左右。

控制部件

控制单元主要负责解码指令，并为每个指令要执行的每个操作发出控制信号。

有两种结构：一种是以微存储器为核心的微程序控制方式；一种是基于逻辑硬接线结构的控制模式。

微存储器保存微码，每个微码对应一个基本微操作，也称为微指令；每条指令由不同的微码序列组成，这些微码序列构成一个微程序。指令解码后，中央处理器发出一定时序的控制信号，以一个微周期为节拍，按照给定的顺序执行这些微码确定的若干微操作，从而完成一条指令的执行。

简单指令由(3 ~ 5)个微操作组成，复杂指令由几十个甚至上百个微操作组成。

逻辑硬连线控制器完全由随机逻辑组成。指令解码后，控制器通过不同逻辑门的组合发出不同序列的控制时序信号，直接执行指令中的每一个操作。

技术框架制造过程

制造工艺的微米是指集成电路中电路之间的距离。制造技术的趋势是向更高密度发展。IC电路设计的密度越高，就意味着在相同尺寸和面积的IC中，你可以拥有更高密度和更复杂功能的电路设计。现在主要的180nm，130nm，90nm，65nm，45 nm。2010年，英特尔发布了采用32纳米制造技术的酷睿i3/酷睿i5/酷睿i7系列。并且有计划发布22纳米和15纳米产品。另一方面，AMD表示，其产品将直接跳过32纳米工艺(一些32纳米产品，如蛇少女和Llano，将在2010年第三季度生产)，28纳米产品(APU)将在2011年初发布。

指令组

CISC指令集

CISC指令集，又称复杂指令集，英文称为CISC(Complex Instruction Set Computer的缩写)。在CISC微处理器中，程序的指令是顺序串行执行的，每个指令中的操作也是顺序串行执行的。顺序执行的优点是控制简单，但计算机各部分利用率不高，执行速度慢。其实就是Intel生产的x86系列(也就是IA-32架构)CPU以及与其兼容的CPU，比如AMD和VIA。甚至新的X86-64(也称为AMD64)也属于CISC。

要知道什么是指令集，要从今天的X86架构CPU说起。X86指令集是英特尔为其第一个16位CPU(i8086)专门开发的。IBM IBM1981年推出的世界上第一台PC中的CPU-I 8088(I 8086的简化版)也使用了X86指令。同时，在计算机中增加了一个X87芯片，以提高浮点数据处理能力。从现在开始，X86指令集和X87指令集将统称为X86指令集。

虽然随着CPU技术的不断发展，Intel相继开发了新型号的i80386.i80486，从过去的PII至强、PIII至强、奔腾3、奔腾4系列，最后到今天的酷睿2系列和至强(不包括至强Nocona)，为了保证计算机能够继续运行过去开发的各种应用程序，保护和继承丰富的软件资源，Intel公司生产的所有CPU仍然继续使用X86指令集，因此其CPU仍然使用X86指令集。因为Intel X86系列及其兼容的CPU(如AMD Athlon MP等。)全部使用X86指令集，形成了今天庞大的X86系列和兼容CPU阵容。目前x86CPU主要包括intel的服务器CPU和AMD的服务器CPU。

RISC指令集

RISC是英文“Reduced Instruction Set Computing”和中文“Reduced Instruction Set”的缩写。它是在CISC指令系统的基础上开发的。在CISC机器上的一些测试表明，各种指令的频率是相当不同的。最常用的是一些简单的指令，只占指令总数的20%，但它们在程序中的出现频率却占了80%。复杂的指令系统必然增加微处理器的复杂度，导致开发时间长，成本高。而且复杂的指令需要复杂的运算，必然会拖慢计算机的速度。基于以上原因，RISC CPU于80年代诞生。与CISC CPU相比，RISC CPU不仅简化了指令系统，而且采用了称为超标量和超级流水线的结构，大大增加了并行处理能力。RISC指令集是高性能CPU的发展方向。它与传统的CISC(复杂指令集)相反。相比之下，RISC比复杂指令集有统一的指令格式、更少的类型和更少的寻址方式。当然处理速度要高很多。目前这种指令系统的CPU广泛应用于中高端服务器，尤其是高端服务器，都采用RISC指令系统CPU。RISC指令系统更适合高端服务器的操作系统UNIX，现在Linux也属于类UNIX操作系统。RISC CPU在软件和硬件上与Intel和AMD CPU不兼容。

目前中高端服务器使用RISC指令的CPU主要有以下几类：PowerPC处理器、SPARC处理器、PA-RISC处理器、MIPS处理器、Alpha处理器。

IA-64

关于EPIC(显式并行指令计算机)是否是RISC和CISC的继承者，一直有很多争论。单就EPIC系统而言，更像是英特尔处理器走向RISC系统的重要一步。理论上，在相同的主机配置下，EPIC系统设计的CPU比基于Unix的应用软件要好得多。

英特尔采用EPIC技术的服务器CPU是位于安腾的安腾(开发代号为Merced)。它是64位处理器，也是IA-64系列的第一款处理器。微软还开发了一个代号为Win64的操作系统，由软件支持。在英特尔采用X86指令集后，它转向寻求更先进的64位微处理器。英特尔之所以这么做，是因为他们想摆脱庞大的x86架构，引入精力充沛、功能强大的指令集，于是诞生了带有EPIC指令集的IA-64架构。IA-64在很多方面都比x86有了很大的进步。它突破了传统IA32架构的诸多限制，在数据处理能力、系统稳定性、安全性、可用性和可观测性方面实现了突破性的提升。

IA-64微处理器最大的缺陷就是不兼容x86。为了让IA-64处理器更好地运行两个朝代的软件，英特尔在IA-64处理器(安腾、安腾2.)，以便将x86指令翻译成IA-64指令。这个解码器不是最高效的解码器，也不是运行x86代码的最佳方式(最好的方式是直接在x86处理器上运行x86代码)，所以安腾和Itanium2在运行x86应用时的性能很差。这也成为X86-64的根本原因。

超级流水线和超标量

在解释超级流水线和超标量之前，先理解流水线。流水线最早是Intel在486芯片中使用的。装配线就像工业生产中的装配线一样工作。在CPU中，一条指令处理流水线由5-6个功能不同的电路单元组成，然后将一条X86指令分成5-6步，分别由这些电路单元执行，这样一条指令就可以在一个CPU时钟周期内完成，从而提高了CPU的运行速度。经典奔腾的每个整数流水线分为指令预取、解码、执行、回写结果四个阶段，浮点流水线分为八个阶段。超标量是通过建立多条流水线来同时执行多个处理器，其本质是以空间换时间。而超级流水线通过细化流水线，提高主频，可以在一个机器周期内完成一个或多个操作，其本质是以时间换取空间。比如奔腾4的流水线就长达20级。流水线设计的越长，完成一条指令的速度就越快，所以可以适应工作频率更高的CPU。但是长流水线也带来了一些副作用，很可能高频率的CPU实际运行速度会更低，比如英特尔的奔腾4。虽然它的主频可以高达1.4G，但运行性能却远不及AMD的速龙1.2g甚至奔腾III。

包裹

CPU封装是利用特定的材料将CPU芯片或CPU模块固化在其中，防止损坏的一种保护措施。一般CPU只有包装好才能交付给用户。CPU的封装方式取决于CPU的安装形式和器件的一体化设计。从大的分类来说，Socket插座安装的CPU通常采用PGA(网格阵列)封装，而Slot x slot安装的CPU则全部采用SEC(单面插件盒)封装。现在有封装技术，如PLGA(塑料栅格阵列)和奥尔加(有机栅格阵列)。由于市场竞争日益激烈，目前CPU封装技术的发展方向主要是节约成本。

多线程操作

同步多线程同步多线程，简称SMT。SMT通过复制处理器的结构状态，使同一处理器上的多个线程同步执行，共享处理器的执行资源，可以最大限度地实现宽发射和乱序超标量处理，提高处理器运算部件的利用率，缓解数据相关或缓存未命中带来的访存延迟。当没有多线程可用时，SMT处理器几乎与传统的宽发射超标量处理器相同。SMT最吸引人的地方在于，只需小规模改变处理器内核的设计，几乎不增加额外成本，就能显著提升性能。多线程技术可以为高速计算核心准备更多的待处理数据，减少计算核心的空闲时间。这对于桌面低端系统来说无疑是很有吸引力的。从3.06GHz奔腾4开始，所有英特尔处理器都将支持SMT技术。

多心的

多核，也称为芯片多处理器(CMP)。CMP是由美国斯坦福大学提出的。它的思想是将大规模并行处理器中的SMP(对称多处理器)集成到同一个芯片中，每个处理器并行执行不同的进程。与CMP相比，SMT处理器结构的灵活性更加突出。而当半导体工艺进入0.18微米，线延迟已经超过门延迟，这就要求微处理器的设计要通过划分许多规模更小、局部性更好的基本单元结构来进行。相比之下，CMP结构被划分为多个处理器核，每个核相对简单，有利于优化设计，因此更有发展前景。目前IBM的Power 4芯片和Sun的MAJC5200芯片都采用了CMP结构。多核处理器可以在处理器内部共享高速缓存，提高高速缓存利用率，并简化多处理器系统设计的复杂性。但这并不意味着内核越多，性能越高。比如16核CPU就没有8核CPU快。因为核心太多，无法合理分配，所以运行速度变慢。买电脑请做选择。2005年下半年，英特尔和AMD的新处理器也将集成到CMP结构中。全新安腾处理器的开发代号为Montecito，采用双核设计，拥有至少18MB片上缓存，采用90nm工艺制造。它的每个内核都有独立的L1、L2和L3缓存，包含大约10亿个晶体管。

对称多处理

对称多处理结构(Symmetric Multi-Processing，SMP)是对称多处理结构(Symmetric Multi-Processing structure)的缩写，是指一台计算机上组装的一组处理器(多CPU)，每个CPU共用内存子系统和总线结构。在这项技术的支持下，服务器系统可以同时运行多个处理器，并共享内存和其他主机资源。像双至强，也就是所谓的双路，这是对称处理器系统中最常见的一种(至强MP可以支持四路，AMD Opteron可以支持一路八路)。还有几个16号。不过一般来说，SMP结构的机器扩展性很差，很难做到100个以上的处理器，一般是8到16个，但这对于大部分用户来说已经足够了。它在高性能服务器和工作站级主板架构中最为常见，例如可以支持多达256个CPU的系统的UNIX服务器。

搭建一个SMP系统的必要条件是：支持SMP的硬件包括主板和CPU支持SMP的系统平台，然后是支持SMP的应用软件。为了使SMP系统高效运行，操作系统必须支持SMP系统，如WINNT、LINUX、UNIX等32位操作系统。也就是说，可以执行多任务和多线程。多任务是指操作系统可以让不同的CPU同时完成不同的任务；多线程是指操作系统让不同的CPU并行完成同一任务。

为了设置SMP系统，对选择的CPU有很高的要求。首先，CPU必须有内置的APIC(高级可编程中断控制器)单元。英特尔多处理规范的核心是使用高级可编程中断控制器(APICS)。再次，相同的产品型号，相同类型的CPU核心，完全相同的运行频率；最后，尽量保持相同的产品序列号，因为当两个生产批次的CPU作为双处理器运行时，可能会出现一个CPU负担过重，另一个CPU负担过轻的情况，无法充分发挥其最大性能，更严重的可能会导致死机。

NUMA科技

NUMA是一种非均匀访问分布式共享存储技术，它是由若干个独立的节点通过高速专用网络连接而成的系统，每个节点可以是单个CPU或SMP系统。在NUMA，有许多解决缓存一致性的方法。一般采用硬件技术来维护缓存的一致性。通常情况下，操作系统需要根据NUMA的不一致特性(本地内存和远程内存的访问延迟和带宽的差异)进行专门的优化来提高效率，或者采用专门的软件编程方法来提高效率。NUMA系统的例子。有三个SMP模块通过一个高速专用网络连接起来组成一个节点，每个节点可以有12个CPU。像Sequent这样的系统最多可以达到64个CPU，甚至256个CPU。显然，这是SMP和NUMA技术的结合。

无序执行

乱序执行(Out-of-orderexecution)是指CPU允许多个指令不按照程序中指定的顺序开发，并发送到相应的电路单元进行处理的技术。这样可以提前执行的指令会根据每个电路单元的状态和每个指令是否可以提前执行的具体情况，立即发送到相应的电路单元执行。在此期间，指令不会按照指定的顺序执行，然后由重排单元按照指令的顺序重新排列每个执行单元的结果。采用乱序执行技术的目的是使CPU内部电路满负荷运行，相应提高CPU运行程序的速度。

分支技术

(分支)指令在运行时需要等待结果。一般情况下，无条件分支只需要按照指令的顺序执行即可，而条件分支必须根据处理后的结果再决定是否按照原来的顺序进行。

CPU内部的内存控制器

许多应用程序具有更复杂的读取模式(几乎是随机的，尤其是在缓存命中不可预测的情况下)，并且不能有效利用带宽。一个典型的应用是业务处理软件。即使有乱序执行等CPU特性，也会受到内存延迟的限制。这样，CPU必须等到运行所需数据的被除数加载后才能执行指令(不管这些数据是来自CPU缓存还是主存系统)。目前低级系统的内存延迟在120-150ns左右，而CPU速度在3GHz以上，单个内存请求可能浪费200-300个CPU周期。即使当缓存命中率达到99%时，CPU也可能会花费50%的时间等待内存请求的结束——例如，因为内存延迟。

将内存控制器集成在处理器内部将使北桥芯片变得不那么重要，改变处理器访问主内存的方式，并有助于增加带宽，减少内存延迟和改善处理器制造工艺：英特尔的I5可以达到32纳米，未来CPU制造工艺将达到22纳米。

声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，谢谢。

推荐阅读