TI公司三大系列DSP内部结构之比较(2)

2019-05-17 11:48

寄存器组包含8个辅助寄存器(AR0~AR7),它们可用作数据存储器的间接寻址和暂存,从而增加芯片的灵活性和效率。这些寄存器既可用指令直接寻址,也可用3比特的辅助寄存器指针(ARP)间接寻址。辅助寄存器和ARP既可从数据存储器装数,也可装入立即数。寄存器的内容也可存入数据存储器中。辅助寄存器组与辅助寄存器算术单元(ARAU)相连接,用ARAU访问信息表无需CALU参与地址操作,这样可让CALU进行其他操作。

2.中央算术逻辑单元

CALU包含一个16位的定标移位器(Scaling),一个16×16位的并行乘法器,一个32位的累加器和一个32位的算术逻辑单元(ALU)。移位器根据指令要求提供0到16位的数据左移。累加器和乘法器输出端的移位器适合于数值的归一化、比特提取、扩展精度算术和溢出保护。

典型的ALU指令实现包含以下三步: (1) 数据在数据总线上从RAM中获取;

(2) 数据移交给完成算术运算的定标移位器和ALU; (3) 结果送回累加器。

32位累加器可分为2个16位以进行数据存储:SACH(高16位)和ACCL(低16位)。累加器有一个进位位可方便加法和减法的多精度运算。

3.硬件乘法器

TMS320C25具有一个16×16位的硬件乘法器,它能在一个指令周期内计算一个32位乘积。有两个寄存器与乘法器相关:①16位暂存寄存器TR,用于保存乘法器的一个操作数;②32位乘积寄存器PR,用于保存乘积。

乘积寄存器的输出可左移1位或4位,这对于实现小数算术运算或调整小数乘积很有用。PR的输出也可右移6位,这样可连续执行128次乘/加而无溢出。无符号乘(MPYU)指令可方便扩展精度乘法。

4.I/O接口

I/O空间由16个输入口和16个输出口组成。这些口可提供全16位并行I/O接口。输入(IN)和输出(OUT)操作典型的是2个周期,但若用重复指令,可变成单周期指令。I/O器件映射到I/O地址空间,其方式与存储器映射方式相同。与不同速度的存储器或I/O器件接口采用READY线完成。

TMS320C25也支持外部程序/数据存储器的DMA,其他处理器通过置HOLD\\ 为低后可完全控制TMS320C25的外部存储器,使C25将其地址、数据和控制线呈高阻状态。外部

6

处理器和C25的通信可通过中断来完成。TMS320C25芯片提供两种DMA方式,一种是加上HOLD后停止执行;另一种是C25继续执行,但执行是在片内ROM和RAM中进行,这可大大提高性能。

2.1.3 TMS320C25的软件

TMS320C25的指令总共有133条,其中97条是单周期指令。在另外36条指令中,21条包括跳转、调用、返回等,这些指令需重新装入程序计数器,使执行流水线中断。另外7条指令是双字和长立即数指令。剩下的8条指令(IN,OUT,BLKD,BLKP,TBLR,TBLW,MAC,MACD)支持I/O操作、存储器之间的数据交换或提供处理器内部额外的并行操作,而且这8条指令与重复计数器配合使用时可成为单周期指令。这主要利用了处理器的并行机制,使得复杂的计算可用很少的几条指令来完成。

由于大多数指令用单16位字编码,故可在一个周期内完成。存储器寻址方式有三种:直接寻址、间接寻址和立即数寻址。直接寻址和间接寻址都用来访问数据存储器,立即数寻址利用由程序计数器确定的存储器内容。

使用直接寻址方式时,指令字的7位和9位数据存储器页指针(DP)构成16位的数据存储器地址。其中,每页长128字,共有512页,故可寻址64K的数据空间。间接寻址借助于8个辅助寄存器(AR0~AR7)。表2.2 列出了7种间接寻址方式。其中的比特反转寻址可大大提高 FFT运算的I/O效率。其中,OP表示某种运算,NARP表示新的ARP。

表2.2 TMS320C25的寻址方式

寻址方式 OP A OP *(,NARP) OP *+(,NARP) OP *-(,NARP) OP *0+(,NARP) OP *0-(,NARP) OP *BR0+(,NARP) OP *BR0-(,NARP) 操 作 直接寻址 间接寻址;AR不变 间接寻址;当前AR加1 间接寻址;当前AR减1 间接寻址;AR0加到当前AR 间接寻址;当前AR减去AR0 间接寻址;AR0加到AR() 间接寻址;当前AR减去AR0()

2.2 TMS320C5X

7

TMS320C5X是TI公司的第五代产品,是继TMS320C1X和TMS320C2X之后的第三代定点DSP处理器。它的核心中央处理器(CPU)以TMS320C25的核心CPU为基础,增强型结构大幅度地提高了整体性能。TMS320C5X工作速度是TMS320C25的2倍以上,对于TMS320C1X和TMS320C2X具有源代码向上兼容特性。这种兼容性保留了过去开发的软件,便于系统升级到更高性能的DSP系统。TMS320C5X系列有TMS320C50/C51/C52/C53等多种产品,它们的主要区别是片内RAM、ROM等资源的多少,如TMS320C50内部具有10K字RAM和2K字ROM,其中2K字ROM已经固化了引导程序;TMS320C51内部具有2K字RAM和8K字ROM;TMS320C52内部具有1K字RAM和4K字ROM,减少了一个串行口;TMS320C53内部则有4K字RAM和16K字ROM。芯片的其他性能则是完全相同的。下面以TMS320C50为例介绍TMS320C5X DSP 芯片。

2.2.1 TMS320C50的基本特征

TMS320C50的主要特点包括:

? ?

25/35/50ns的指令周期(20 ~ 40 MIPS)

224K×16位最大可寻址外部存储空间(64K程序、64K数据、64K I/O、32K全局)

? 算术逻辑单元(ALU),32位累加器(ACC)以及32位加法器的缓冲器(ACCB) ? 并行逻辑单元(PLU)

? 结果具有32位的16×16位并行乘法器 ? 单周期乘累加指令

? 具有一个专用算术单元的8个辅助寄存器,可用于间接寻址 ? ?

8级硬件堆栈

0~16位数据左移和右移

? 两个间接寻址的循环缓冲器,用于循环寻址 ? 程序代码的单指令重复和程序块重复

? 全双工同步串行口,用于完成TMS320C5X与其他串行器件之间的直接通信 ? 时分多址访问(TDM )串行口 ? 内部定时器,可用软件控制 ?

64K 并行I/O 口,其中16个有存储器映像

? 可软件编程的等待状态发生器

8

? 扩展保持操作,用于并发外部DMA

? 四级流水线操作,用于延迟跳转、调用、返回指令 ? 比特反转寻址方式,用于FFT运算 ?

JTAG扫描仿真接口(IEEE标准,P1149.1)

1.核心CPU

TMS320C5X CPU的增强功能在提高性能和通用性的同时,保持了对TMS320C1X和TMS320C2X源代码的兼容性。硬件的改进包括:一个32位累加器缓冲器,附加定标能力,利用附加硬件功能的新指令。新的控制功能包括:独立的并行逻辑单元(PLU)和一组文本交换寄存器。数据管理方面的改进包括:采用新的块搬移指令和存储器映像寄存器指令。TMS320C50有28个存储器映像寄存器和16个存储器映像的I/O口。

2.片内ROM

TMS320C50拥有2K×16位掩蔽ROM,内部固化了引导程序。该存储器把程序从外部ROM/EPROM、串行口或并行I/O口引导至运行速度较快的SRAM中。这块引导ROM可通过PMST状态寄存器中的MP/MC\\ 位从程序存储空间去除。如果该ROM未选,则TMS320C50由片外存储器启动执行。

3.片内数据RAM

TMS320C50具有1056字的片内RAM,这块RAM 可在每个机器周期内访问两次(双寻址RAM),只要两次访问不是“写”操作。这块存储空间主要用于存储数据,但是如果需要也可用于存储程序和数据。其配置有两种方式:所有的1056字都作为数据存储区,或者将其中的544字作为数据存储器,512字作为程序存储区。可通过状态寄存器ST1中的CNF位选择设置。

4.片内程序/数据RAM

TMS320C50还具有9K字的片内RAM。这一存储区可以由软件设置映射到程序或数据存储空间。程序从片外存储器引导后,可装入到该存储区全速运行。

5.片内存储器安全

TMS320C50可以通过可屏蔽选择来保护片内存储器的内容。当相关比特置位时,外部无法访问片内存储空间。

6.有地址映射的软件等待状态发生器

软件等待状态逻辑不需要任何外部硬件就可以实现TMS320C50与速度较慢的片外存储器和I/O设备接口。该电路系统拥有16个等待状态发生器,其中可由用户编程操作的有

9

0,1,2,3和7状态。

7.并行I/O口

TMS320C50共有64K I/O口,其中的16个可映射在数据存储空间。这些口可由IN或OUT指令寻址。具有存储器映像的I/O口可按存储器的读写方式访问。I/O口的访问由IS\\线选通。增加简单的片外地址译码电路,就可实现TMS320C50的I/O口与外部I/O设备的简单连接。

8.串行I/O口

TMS320C50有两个高速串行口。串行口最快可按1/4机器周期(CLKOUT1)操作。一个是同步全双工串行口,发送和接收都有缓冲,分别由可屏蔽外部中断信号控制,数据可按照8或16位方式传输;另一个串行口为全双工串口,可设置为同步方式,也可设置为时分多址(TDM)方式,TDM串行口一般用于多处理机系统。

9.16位硬件定时器

16位硬件定时器可由软件进行控制,通过设置相应的状态位,定时器可工作在停止、重启动、复位或不工作等状态。

10.用户可屏蔽中断

TMS320C50有4个外部中断线。片内的中断锁存电路可实现异步中断操作。此外,还有5个内部中断:1个定时器中断和4个串行口中断。

11.JTAG扫描逻辑

JTAG扫描逻辑电路用于仿真和测试,采用JTAG可实现在线仿真。

2.2.2 TMS320C50的结构

TMS320C50采用了与TMS320C25类似的哈佛型总线结构,通过两个独立的数据总线和程序总线,最大限度地提高运算速度。指令支持在两个存储区之间的数据传输。

TMS320C50使用32位的ALU和累加器以实现2的补码运算。ALU是一个通用的算术单元,它所使用的运算数据(16位)来自数据RAM或来自立即数指令,也可以是乘积寄存器中32位的乘积结果。除此之外,ALU还可以执行位操作。累加器保存ALU的输出,也为ALU提供下一个输入。字长为32位的累加器分为高字节和低字节。指令提供对低字节和高字节的单独存储。32位的累加器缓冲器用于临时快速地存储累加器的内容。

除了ALU之外,并行逻辑单元(PLU)可以在不影响累加器内容的情况下对数据进行

10


TI公司三大系列DSP内部结构之比较(2).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:九年级思想政治导学案

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: