快捷搜索:

利用Xtensa可配置处理器加速嵌入式算法的性能和

可设置设置设备摆设摆设处置惩罚器容许嵌入式开拓职员来定制得当目标算法的处置惩罚器,使得处置惩罚器和算法能够更好地匹配。设计职员可以增添专用的、可变宽度的寄存器,专用的履行部件和更宽的数据总线以达到专用算法的最优处置惩罚器设置设置设备摆设摆设。

加速FFT运算

按频率抽取快速傅立叶变换FFT算法的核心是一种称为“蝶形”的运算。蝶形操作是FFT算法的最里层轮回的运算。每个蝶形运算必要六次加法和四次乘法来谋略基2蝶形结果的实部和虚部。采纳TIE(Tensilica InstrucTIon ExtenTIon)说话,设计团队可以用四个加法器和两个乘法器来扩展全部Xtensa处置惩罚器的流水线,以便使得一半FFT蝶形运算可以在一个流水线时钟周期内完成。

Xtensa处置惩罚器的可设置设置设备摆设摆设数据总线接口可以定义成128位宽,这样所有蝶形结果的实部和虚部整数输入项就可以在一个时钟周期内加载到专用的FFT输入寄存器中。所有谋略完成的输出部分也可以在一个时钟周期内存储存储器中。因为每一个FFT蝶形运算的加载和存储操作都必要一个时钟周期,是以FFT谋略最有效的法子是将每个FFT一半蝶形运算扩展为两个时钟周期,这样后续蝶形运算的加载操作和前面蝶形运算的存储操作就可以同时进行。这种措施节省了硬件开销,同时也匹配了数据运算资本和数据传输资本。

加速维特比编码

在平日环境下,RISC处置惩罚器必要50个到80个指令周期才能完成一个维特比蝶形运算。一个高真个超长指令字DSP(如TI的TMS320C64XX)只必要1.75个时钟周期就可以完成一个维特比蝶形运算。Tensilica的指令扩展说话TIE容许用户在Xtensa处置惩罚器体系布局ISA中增添一条维特比蝶形运算指令。该设计应用了处置惩罚器中可设置设置设备摆设摆设的128位I/O总线来每次加载8个符号、增添流水线硬件,如下图所示。

加速MPEG-4解码器

经由过程指令扩展和并行操作履行来提升机能的另一个例子是视频利用领域的MPEG-4。MPEG-4视频数据编码中最艰苦的地方是动态预计,它必要搜索相邻的视频数据帧获得相似的象素数据块。这个搜索算法的最内层轮回包括一个SAD(绝对差之和)运算操作,该操作包括一次减法、一次绝对值运算和对前一个谋略出来的结果值进行的一次加法运算。在一个时钟周期内,可以混杂履行所有这三个SAD部件操作(减法、取绝对值和加法操作),并且在一个时钟周期内,SIMD操作可以完成所有的16个像素的谋略操作,这就将系统必要完成的每秒六亿四千一百万次操作低落为每秒一千四百万次操作,大年夜大年夜削减了系统的运算量。

总体而言,采纳可设置设置设备摆设摆设、可扩展处置惩罚器核来设计处置惩罚器可以加速嵌入式算法的机能,这是经由过程多对专用算法量身定做的,而不是经由过程汇编说话代码或者RTL硬件设计来完成的。采纳可扩展处置惩罚器的好处是设计职员可以准确地添加系统资本以得到算法的抱负机能,而不是试图将算法生搬硬套到固定指令集体系布局的处置惩罚器中。这种新的处置惩罚器设计措施所带来的结果是极大年夜地前进了履行算法的处置惩罚器机能,平日越过了现在最先辈的固定指令集体系布局微处置惩罚器和数字旌旗灯号处置惩罚器DSP核的能力。在多半环境下,设计职员可以用可设置设置设备摆设摆设处置惩罚器去调换全部的RTL模块以得当所必要的系统利用,并且因为这种设计措施所固有的编程特点而节约了关键的设计和验证光阴,并增添了系统的机动性。

责任编辑:gt

您可能还会对下面的文章感兴趣: