DSP设计:功耗与性能的终极挑战
作者:Doug Morrissey,副总裁兼首席技术官,Octasic, Inc.
由于新的应用发展速度惊人,提供的DSP必须在功耗、性能和使用寿命方面跟上这种速度,应对当前面临的挑战,并准备好应对未来的应用。这些高性能多核DSP被越来越多地应用在电信接入、改进数据率GSM服务(EDGE)和基础设施设备领域,用来处理语音、视频和无线电信号。
以前,电信设备制造商使用专用的ASIC或DSP-ASIC组合来达到自己的目标。现在,这些新的DSP可以替代那些繁琐的解决方案;如果足够强大,它们还可以实现以前的解决方案所无法实现的灵活性。对于那些必须在网络部署中持续使用多年的接入和基础设施设备而言,这些灵活的解决方案是大有裨益的。假如这些类型的设备和应用的使用寿命得到延长,那么,成功的关键就是灵活性、适应性和现场可编程性。
在目前的技术条件下,ASIC在灵活性或现场可编程性方面不如DSP,但DSP的能耗较大,这让芯片设计人员左右为难。不过,还是有希望:新一代的多核DSP可以同时做到高性能和高能效。做到这点的技术是存在的,但必须先解决“功耗耗散”(功率极限)问题。
功率极限
目前,芯片功耗的源头有两个:以泄漏形式出现的静态现象;以切换操作形式出现的动态现象。在采用90纳米和以下工艺的CMOS技术中,这种功耗现象较为明显。但是,新一代的DSP设计不仅能减轻和避开这种功耗极限,而且实际上可以提高基础设施、接入和EDGE设备的处理能力,同时限制功耗和热耗散。
部分特定CMOS技术下的能耗界定的关键度量指标:
· 电源电压
· 门开关速度
· 门输入电容
· 门功耗
· 每个MAC操作消耗的能源
研究表明,同等功能(如MAC单元)的功率密度(即单位面积的功耗)在0.13微米(含)以上的芯片中相当稳定。但是,到达90纳米时,这个指标会突然升高。

图1. 功耗/面积与硅技术的对比。
在采用0.13微米技术以前,DSP设计能够在提高性能的同时降低功耗,从而可以在单个芯片中植入更多的电路。这主要是通过减小尺寸并降低电压实现的。采用了90纳米技术后,所有这一切就都行不通了。
现在面临的是以性能换功能的问题,这是设备制造商所不愿遇到的情况:在一个芯片中植入更多电路但降低性能,或者减少电路数以减少功能。
由于“功耗极限”的情形继续存在,设计人员一直在通过增加功耗来获得性能和功能方面的优势。但是,这会带来一种新的风险:达到热耗散的极限。所产生的问题可能已经在当前市场上较新一代的通用多核DSP中出现。
零-和博弈:静态能效
因为性能是基础设施、接入和EDGE应用的主要目标,因此设计人员一般并不关心零待机功耗问题。因此,通常采用通用硅工艺来优化性能,而不会选择低泄漏的硅。选择低泄漏的硅可以降低待机功耗,但也会降低速度和性能。
这就要求有选择地使用晶体管。
在使用电池的设备中,高电压阈值(HVT)可能是较佳的;但在基础设施应用中,首选的是标准电压阈值(SVT)技术。
例如,假如某个设计使用HVT逻辑操作,并且电源电压为1.2V,则将连续产生20mW的泄漏功耗。如果在较大容量运行,则将消耗1W的动态功耗。
使用SVT逻辑操作的相同设计在电源电压为1.0V时可以实现几乎相同性能,产生的泄漏功耗多出4倍(100mW),但动态消耗功耗只有694mW(1.02 /1.22 = 0.694)。
因此,泄漏较高的SVT设计消耗的总功耗只有790mW,而相比之下,HVT设计的消耗总功耗为1.02W。前者比后者节能23%。
表1. HVT设计和SVT设计的功耗比较。
|
功耗 |
HVT设计 (VDD =1.2V) |
SVT设计 (VDD =1.0V) |
|
泄漏功耗 |
0.02W |
0.10W |
|
动态功耗 |
1W |
0.69W |
|
总功耗 |
1.02W |
0.79W |
|
性能 |
两种设计实现的性能相同 | |
尽管与人们预料的情况相反,这一示例表明,使用较高泄漏的SVT逻辑与使用低泄漏的HVT逻辑相比,可以在总体上节能,这是因为后者电路中的开关活动量很大。对于乘法和累加(MAC)电路,这种设计特别有用;但如果用在低活动因素的电路(如RAM电路或测试电路)上,则会出现相反的结果。因此,SVT 逻辑适用于基础设施中“始终打开”的设备。
动态化:能效优化
时钟树和逻辑切换都会导致动态能耗,必须在新一代多核DSP中进行处理。通过不断优化这两种耗能因素的设计,可以极大地改进能效指标。
时钟树(用于实现同步时钟以触发设计的线网和缓冲区)会在其自身的触发运算过程中从芯片中吸收一些能量。在对较新的高速芯片中遍布的时钟树(通常数量较大)进行充电和放电的过程中,也会消耗能量。此外,有些新一代DSP使用了速度更快的时钟(1GHz或更高),这就需要耗能更多的更大的激励器。如果要通过芯片和相关的时滞较小化时钟传播延迟,则需要更大的激励器。这又导致了消耗更多的能量。
用于降低能耗的时钟树门控

图2. 可以使用激活信号随时禁用未使用的模块。被禁用的模块中包含的相关逻辑和时钟树会因此停止消耗能量。
设备设计人员可以通过组合以下成熟的技术来降低时钟树中的能耗:
· 单独启用时钟的触发器,可以在需要计时时限制触发运算的次数。
· 门控时钟树可以在不使用时动态阻止对整个电路段计时。
· 多循环路径设计可以减少电路中的触发次数以及触发的频率。
· 在架构上可行的情况下组合计算线路,从而让一系列的MAC运算可以在级联组合电路而不是同步反馈电路中实现。借用多循环路径技术;这种方式可以极大地减少所用的触发次数并降低触发频率。
· 较小化触发器和电路的使用范围,使用物理尺寸较小的时钟树,从而缩小所需的激励缓冲区。
较后,消除全部时钟树可以在提高性能的同时极大地降低能耗。无时钟设计技术可以用在耗能较多的逻辑电路部分。思想超前的设计人员会积极地追随上述解决方案。在解决性能和功耗之间一直存在的冲突时,无时钟设计是效率较高、成本效益较好的方式。
逻辑切换优化
逻辑切换在能耗方面发挥着重要的作用,因为整体能耗都发生在逻辑切换状态转换的充电和放电过程中。可以采用以下成熟技术的组合来较大程度地减少逻辑转换中的能耗。
· 优化物理门:这种技术可以实现较大的能效指标收益,对于较小的芯片尺寸技术更是如此。虽然其原理非常简单,但使用当前的布局工具和方法来实现这种技术却有一定难度;因为这些工具和方法原来的开发目的是加快推出产品,牺牲性能来提高设计的水平和复杂度。
较终发明了物理门,可以使用某种抽象语言(如VHDL)来根据设计人员的功能目标来创建芯片。这种技术既有优点也有缺点。目前的标准方法是让设计人员避开物理实现方式的细节,从而加快产品推出的速度。
这种技术的缺点是复杂芯片的设计人员无法控制其设计,包括无法控制线路的长度,从而可能极大地增加电路的总电容。在找出较佳的线路和电路设计方面,设计人员仍然优于设计工具。如果使用成熟的技术并深入了解设计细节,人脑的判断仍然具有优势。设计人员还可以立即发现集成电路的细微变化可能成倍减少互连线路长度的情况。事实上,记录的信息显示,有人干预的物理门技术可以将电路线路的平均长度较高缩减一半(与传统的较佳自动后端工具中实现的相同设计相比)。而且,由于战略性布线实现的电路集成度可以轻松地将硅使用率提高到90%以上。这意味着,与使用自动后端工具的结
相关阅读:
- ...2012/06/25 16:27·安森美半导体汽车信息娱乐系统FM/AM调谐器及音频DSP方案
- ...2012/04/23 12:22·基于DSP的中频电源测试系统设计
- ...2012/03/06 19:39·基于DSP的快速轴角变换方法
- ...2012/02/03 11:32·基于DSP的双频超声波流量计硬件电路设计
- ...2011/11/30 17:24·基于DSP双路音频信号实时处理系统设计
- ...2011/11/14 10:31·单一DSP控制两套三相逆变器的实现
- ...· Efinix® 全力驱动AI边缘计算,成功推出Trion™ T20 FPGA样品, 同时将产品扩展到二十万逻辑单元的T200 FPGA
- ...· 英飞凌亮相进博会,引领智慧新生活
- ...· 三电产品开发及测试研讨会北汽新能源专场成功举行
- ...· Manz亚智科技跨入半导体领域 为面板级扇出型封装提供化学湿制程、涂布及激光应用等生产设备解决方案
- ...· 中电瑞华BITRODE动力电池测试系统顺利交付北汽新能源
- ...· 中电瑞华FTF系列电池测试系统中标北京新能源汽车股份有限公司
- ...· 中电瑞华大功率高压能源反馈式负载系统成功交付中电熊猫
- ...· 中电瑞华国际在电动汽车及关键部件测评研讨会上演绎先进测评技术
- ...· 华芯微国产汽车芯片门电路系列(篇一)
- ...· 华芯微国产汽车芯片CAN收发器系列(篇一)
- ...· 华芯微国产汽车芯片DC/DC转换器系列
- ...· 华芯微国产汽车芯片DC/DC转换器系列
- ...· 华芯微国产汽车芯片运算放大器系列(篇一)
- ...· 华芯微国产汽车芯片MOSFET 驱动器系列(篇一)
- ...· 数据采集终端系统设备
- ...· 简仪科技踏上新征程








