当前位置: 首页 >> 科研动态 >> 科研通知 >> 正文

转发:处理器芯片全国重点实验室2026年度开放课题申请指南

Part.1

简介


处理器芯片全国重点实验室为提高实验室的开放层次,提高学术水平和技术水平,增进国内外学术交流与合作,促进人才流动与学科交叉渗透,按照相关规定特设开放研究课题。欢迎国内外相关领域的科研工作者参与实验室的开放课题研究。

Part.2

指南的制定原则

1、根据我国处理器芯片领域的发展战略,着眼于国民经济建设的当前和长远的需要和国际学科发展的前沿;

2、鼓励具有开拓性、前瞻性、创造性和高层次理论和技术的自主创新研究及具有重大应用前景的项目;

3、利于促进多学科的交叉渗透和多部门的联合攻关,有利于建立和发展国际合作的新格局,有利于人才培养和学科的发展;

4、鼓励和支持具备博士学位、高级职称的国内外科技工作者申请;

5、资助项目的申请者要求与本实验室科研人员协同工作;

6、项目资助10万/项,资助周期一般不超过2年。


Part.3

建议开放课题的研究方向

本年度建议开展课题如下(可不限于以下课题):


课题1

面向指令集墙的超异构处理器融合指令集抽象与任务调度研究

研究内容:

随着后摩尔时代集成电路体系结构由单一处理器向CPU、GPU、NPU、PIM/CIM等多类计算IP融合演进,超异构处理器芯片已成为提升计算性能与能效的重要路径。然而,不同计算IP在指令集体系、执行模型、存储层次、并行粒度等方面差异显著,导致应用难以在多类型处理单元之间统一表达、统一编译和统一调度,形成制约异构计算效率提升的“指令集墙”问题。特别是在大语言模型等复杂智能应用中,算子类型多样、数据流依赖复杂、计算与访存行为动态变化,亟需建立面向多指令集异构架构的统一任务表达和系统软件支撑机制。本课题拟围绕“融合指令集结构理论与跨平台统一系统软件栈”开展研究,构建面向超异构处理器的任务抽象、资源建模与协同调度方法。主要研究内容包括:

1. 研究面向异构指令集的统一任务抽象与融合表达方法,建立参数化任务图和执行语义描述机制,统一刻画任务依赖、数据流关系、并行粒度和执行约束,为不同指令集处理单元提供可映射、可分析、可调度的中间表示。

2. 研究跨IP资源状态感知与融合建模方法,面向CPU、GPU、NPU及存算融合单元,提取计算负载、数据位置、访存带宽、通信开销等特征,构建任务行为与异构资源状态之间的关联模型,为跨指令集、跨平台任务映射提供决策依据。

3. 研究面向超异构处理器的跨IP协同调度机制,基于任务特征和资源状态实现任务到多类型计算IP的自适应匹配,支持任务粒度调整、负载均衡和动态迁移,形成面向超异构处理器的统一运行时调度框架,支撑多指令集、多生态处理器平台上的高效协同执行。


课题2

面向海量并发通信的RDMA网卡资源池化与微体系结构优化研究

研究内容:

随着算力中心互联从千兆向万兆及更高带宽演进,远程直接内存访问(RDMA)网卡已成为计算体系结构中的核心异构资源之一。然而,传统RDMA架构采用“一连接一队列”的刚性绑定模式,在支撑大规模微服务时面临严峻的体系结构挑战:一是网卡片上存储受限,海量连接元数据导致严重的Cache抖动与PCIe交互开销;二是硬件状态机管理的连接建立路径过于冗长,无法满足瞬时高频连接请求的调度需求。本研究旨在通过软硬件协同设计,将应用层的逻辑连接语义与物理网卡硬件资源进行解耦,构建高扩展性的硬件资源虚拟化层。研究内容重点分布在:

1. RDMA硬件资源抽象与池化技术:研究逻辑队列与物理硬件队列的M-to-N映射模型,通过零拷贝共享内存技术构建统一的硬件抽象层,将网卡内存复杂度从O(n)降低为常数级开销;

2. 网卡微体系结构感知的快速路径优化:针对硬件握手协议的性能瓶颈,设计软件定义连接路径,通过重用已建立的硬件状态机与带内信令技术,绕过传统多轮RTT硬件约束,实现微秒级的快速路径切换;

3. 高效能微操作调度与指令批处理算法:针对大规模并发下的指令发射效率,设计基于O(1)复杂度的硬件加速位图索引调度算法,研究跨连接的指令聚合与门铃合并机制,以减少MMIO开销并提升PCIe总线有效吞吐率。


课题3

高性能时序图挖掘加速器架构研究

研究内容:

时序图广泛存在于交通网络、社交媒体、在线交易和安全分析等场景,时序图挖掘是发现其中关键交互模式的重要技术手段。现有主流软件系统和专用硬件加速器在支持时序图挖掘任务时,其多搜索树扩展任务存在显著瓶颈:多任务遍历操作非规则、时序边重复访问、片外通信冗余度高和带宽利用率低等问题,导致整体执行效率受限,难以适配真实时序图的高性能分析需求。该项研究聚焦探索高性能时序图挖掘加速器架构设计理论,面向时序图挖掘的时间约束与拓扑约束耦合特性,构建专用化硬件体系结构支撑,突破现有系统的性能与能效瓶颈。研究内容重点分布在:

1. 研究时序感知的硬件流水线架构,构建时间约束与拓扑约束协同处理的专用硬件流水线,实现时序边遍历、模式匹配、约束校验的高效流水化执行,突破时序图挖掘的计算效率瓶颈;

2. 研究数据局部性感知的任务协同与数据复用机制,构建分块粒度的任务协同调度、多搜索树扩展任务间时序边数据共享复用、片上缓存分层管理方法,消除重复访存与无序遍历带来的访存开销;

3. 研究适配时序图特征的存储与传输优化机制,将非规则随机访存转化为局部规整访问,降低片外通信量、提升存储带宽利用率。


课题4

面向具身智能的VLA模型推理与体系结构协同优化

研究内容:

随着具身智能的发展,机器人逐渐从传统的任务专用系统走向能够理解自然语言、感知环境并执行复杂动作的通用智能体。视觉-语言-动作模型(Vision-Language-Action, VLA)是当前具身智能的核心技术之一,它将视觉感知、语言理解和动作生成整合到统一模型中,使机器人能够根据高层指令完成抓取、移动、装配等操作。然而,现有VLA模型仍面临显著技术瓶颈:一方面,模型需要在真实机器人控制环中以较高频率运行,对延迟、能耗和稳定性提出严格要求;另一方面,扩散式VLA模型虽然能够生成更平滑、更稳定的动作轨迹,并具备更强的多模态动作建模能力,但其推理过程通常需要多步去噪,计算开销远高于自回归式模型,难以直接部署在移动端或边缘机器人平台上。本课题可围绕三个方向展开:

1. 研究面向具身智能的VLA算法设计,比较直接动作预测、扩散式动作生成、未来状态预测和混合式推理等不同范式,在保证任务成功率和动作平滑性的同时,探索模型轻量化、扩散步数压缩、动作块预测和时序冗余利用等方法。

2. 研究VLA模型的高效推理模式。不同于LLM的低频事件驱动推理,VLA模型运行在连续闭环控制中,具有高频、实时和强时序相关性的特点。因此,可探索投机推理、批量验证、跨帧复用和时间差分计算等机制,以降低推理延迟和数据搬移。

3. 研究面向VLA模型的专用体系结构设计,包括位级稀疏PE阵列、扩散去噪流水线、片上缓存复用、权重广播、激活压缩和非线性算子支持等。特别是利用连续控制步之间的时序相似性,可减少冗余计算和内存访问,实现实时、低功耗VLA推理。


课题5

GPU芯片扩展引发的非对称性特征及细粒度调度优化研究

研究内容:

随着大语言模型等工作负载对计算与内存需求的激增,现代GPU芯片通过扩大裸片面积与缩减工艺节点(7nm→3nm)实现了计算单元与内存带宽的大幅提升。然而,由于制造缺陷导致的计算单元屏蔽以及L2缓存的多分区物理设计,最新GPU展现出计算级与内存级非对称性,这使得现有细粒度调度方法所依赖的"GPU架构对称"假设不再成立。该项研究针对现代数据中心GPU,探索逆向表征方法以全面刻画这些非对称特性,并评估其对细粒度调度的实际影响,进而为现代GPU构建感知硬件非对称性的系统层调度技术支撑。研究内容重点分布在:

1. 针对GPU芯片扩展引入的架构非对称性,分别从计算与存储两个维度建立系统性的逆向表征方法,量化非对称性对现有细粒度调度机制的影响;

2. 面向通用大模型推理加速场景,设计并验证非对称感知的细粒度调度优化策略,为GPU系统调度层提供实践支撑;

3. 面向超长上下文稀疏注意力场景,探索利用架构非对称性实现计算与存储资源的高效协同调度,提升长序列推理性能。


课题6

面向硬件设计大模型的高质量代码数据构建方法研究

研究内容:

随着大语言模型(LLM)在代码生成领域的快速发展,其在硬件设计自动化中的应用潜力不断提升。然而,硬件设计代码具有层次复杂、模块耦合紧密、语义隐含性强等特点,大量开源设计难以直接用于模型训练,导致高质量数据资源稀缺,限制了硬件代码生成模型的能力发挥。因此,亟需研究面向复杂硬件代码的数据理解与重构方法,将其转化为适用于大模型训练的高质量数据。本课题围绕复杂硬件代码“难以直接学习”的问题,重点开展以下研究:

1. 研究面向复杂硬件代码的结构化拆解方法,结合抽象语法树及层次化模块信息,对大规模设计进行多粒度分解,缓解原始设计规模过大、结构复杂带来的建模困难;

2. 研究依赖感知的语义重组策略,在代码拆解基础上,识别关键数据流、控制流及跨模块依赖关系,对相关代码片段进行合理组合,构建语义完整、上下文一致的训练样本,解决简单切分导致的信息割裂问题;

3. 研究基于大语言模型的代码理解与数据构建方法,对重组后的代码进行语义增强、风格规范化及质量评估,建立高质量硬件代码数据集构建流程,为硬件代码生成模型的训练与优化提供数据支撑。


课题7

支持长时运行与自进化的智能体操作系统设计

研究内容:

智能体在复杂长时任务中面临上下文耗尽、状态丢失、执行失控与故障难恢复等问题,现有外挂式框架难以提供系统级保障。本课题拟设计支持长时运行与自进化的智能体操作系统,通过内核将智能体行为转换为结构化指令,实现高危行为隔离、资源管理、状态保存与检查点恢复机制,构建稳定、可持续、可恢复的运行时环境。同时采集意图决策、工具调用、状态迁移与异常处理,形成可干预、可扩展的数据闭环,为智能体自进化提供体系架构支撑。


课题8

分布式AI编译器设计与计算通信重叠的优化

研究内容:

分布式的异构硬件平台已被广泛应用于人工智能大模型的训练和推理。由于芯片内计算和芯片间通信的性能差距,以及程序中计算与通信之间的依赖关系,在分布式的异构硬件平台上优化程序十分困难。现有的高级编程框架将计算和通信分开处理,无法充分利用两种硬件单元的性能。使用底层硬件编程语言可以通过开发自定义算子来解决这个问题,但这需要专业知识且耗时。本课题拟研究分布式平台的计算-通信重叠算子的自动生成及优化,研究从针对单加速器的高级编程语言的计算图来推断分布式计算所需的通信操作,并研究计算通信协同优化,生成计算-通信重叠的算子。


课题9

面向端侧智能芯片的算子编译优化关键技术

研究内容:

面向端侧智能芯片低功耗、小存储、有限带宽等资源约束和低延迟实时推理需求,研究神经网络算子在端侧芯片上的高效编译映射、代码生成与调度优化关键技术。围绕端侧智能计算中的典型算子及计算模式,研究适配芯片计算单元、存储层次和功耗特性的编译优化方法,建立面向资源受限场景的算子映射、数据布局与代码生成机制。面向端侧实时推理需求,研究算子执行过程中的计算、存储与调度协同优化方法,支撑端侧算子编译优化原型工具研制,提升模型部署和运行效率。


课题10

机密容器高效迁移技术研究

研究内容:

大模型时代,传统云原生架构易遭受内部特权管理员攻击,数据安全难以保障。为保障数据主权与硬件自主可控,私有云智算中心正加速向基于硬件隔离的机密计算转型。然而,存量业务向机密容器平滑演进仍面临迁移成本高昂、异构算力(如NPU)I/O瓶颈以及本地信任闭环缺失等重要问题。为此,本课题拟重点开展以下三项研究:

1. 针对存量智算业务,研究机密容器高效迁移技术。探索基于静态分析的容器镜像转换机制,研究冷启动加速技术,通过应用级系统调用的智能代理与批量合并,以低代码重构成本,实现智算业务向机密计算环境的无缝迁移。

2. 适配异构算力的可信操作系统重构。设计面向机密负载的轻量级微内核,实现可信基的高效裁剪,利用NPU等底层硬件的安全直通重构安全I/O协议栈。

3. 研究机密容器动态持续度量机制。依托硬件性能监控单元等底层特征,设计非侵入式的机密虚拟机行为采样算法,实现应用跨生命周期的全链路实时可信验证。


课题11

大模型驱动下的智能体高效安全保护研究

研究内容:

大模型驱动的智能体技术近年来快速发展,在自动化任务执行、复杂决策支持、自然语言交互等场景中展现出重要应用价值。与传统人工智能系统相比,智能体不仅依赖大模型的通用推理能力,还需要结合用户指令、历史交互、私有文档、业务数据及环境反馈进行持续决策与动态执行。因此,用户隐私数据和业务敏感信息往往深度参与智能体推理过程,可能导致数据泄露、隐私滥用及模型服务可信性下降。同态加密能够在数据保持密文状态下直接完成计算,实现“数据可用不可见”,为大模型驱动智能体的隐私保护推理提供了重要技术路径。然而,大模型参数规模庞大、计算复杂,包含大规模矩阵乘法、非线性激活、归一化、注意力机制等高开销算子,在同态加密环境下会引入显著的计算开销,严重制约智能体的效率与实用化部署。本研究聚焦同态加密下智能体大模型的高效安全推理问题,探索量化技术与密态计算的协同优化方法,构建面向智能体应用的安全推理框架与硬件加速架构,为大模型驱动智能体的隐私保护提供高效、可扩展的技术支撑。主要研究内容包括:

1. 分析量化技术在同态加密计算中的切入点与融合方式,挖掘加密推理优化空间。研究精确计算条件下同态加密方案的支持策略,并探索数据精度范围的高效控制方法。

2. 构建面向密态大模型的高效推理框架,覆盖线性与非线性计算模块,实现安全与性能的平衡。

3. 设计与算法框架匹配的硬件加速架构,实现智能体的软硬件协同高效安全保护。


课题12

面向隐私保护推理的模型提取攻击研究

研究内容:

深度神经网络凭借其在图像分类、语音识别等复杂任务中的卓越表现,已成为当今技术领域不可或缺的存在。由于训练成本极其高昂,训练完成的神经网络极具资产价值。然而,这类资产常通过API接口对外提供服务,任何人都可输入数据并获取预测结果,这为模型提取攻击提供了条件。现有基于密码分析的模型提取攻击主要针对分段线性激活函数(如 ReLU )和收缩型网络,无法处理光滑激活函数(如 GELU、Swish )以及扩张型网络。另一方面,安全多方计算被广泛用于保护机器学习推理中的模型与数据隐私。本研究聚焦于隐私保护神经网络推理场景,探讨在该场景下提取光滑激活函数网络参数的方法,并研究扩张型网络及更严格攻击场景下的参数提取,针对更复杂、更实用的神经网络密码分析模型提取攻击提供有力的技术支撑。主要研究内容包括:

1. 分析隐私保护推理中有限环上的计算引发的模数回绕现象,尝试利用该漏洞提取光滑激活函数的参数。

2. 研究神经元权重在输入空间的投影,并探索扩张型网络中的参数提取方法。

将符号恢复问题规约为从干扰信号中识别目标信号的问题,尝试利用信干比指标设计更优的符号恢复算法。

3. 探索将攻击从原始输出或top-k标签场景推广至仅返回top-1标签及概率的更严格场景。


课题13

超导处理器芯片前端自动化设计关键技术研究

研究内容:

国内外相关研究已验证了在传统处理器芯片前端设计阶段,生成式AI可以在一定程度上由自然语言描述自动生成可综合RTL代码,从而提高芯片前端设计效率。若能将此技术应用于基于约瑟夫森结的超导新原理处理器芯片前端设计阶段,则有望显著降低设计门槛。但现阶段无法直接迁移该技术,因为面临三大挑战:(1)表示鸿沟:现有生成式AI预训练使用的RTL语料无法表达超导单磁通量子(SFQ)电路本征脉冲时序、相位匹配和路径平衡约束;(2)数据稀缺:没有公开可用的超导处理器芯片前端设计RTL代码,难以支撑生成式AI的有效调参;(3)正确性验证困难:SFQ电路功能正确性不仅取决于布尔逻辑,还依赖于SFQ脉冲在皮秒尺度上的精确对齐,单纯的逻辑仿真无法满足时序验证的需求。为了应对这些挑战,研究内容重点包括:

1. 超导处理器芯片前端设计领域语料库构建。该项研究主要解决生成式AI不能理解SFQ电路特有的设计语义,导致生成的RTL代码不可综合或时序不满足要求的问题。

2. 层次化RTL生成与多模态功能验证。该项研究需要结合SFQ脉冲逻辑仿真器进行验证,主要解决生成式AI直接生成较大规模RTL代码错误率偏高,且缺乏自动调试手段的问题。


课题14

面向碳-硅融合片上生物脑计算的高效接口技术研究

研究内容:

当前,碳-硅融合的生物脑计算以存算内生、自适应稳态、可动态进化等底层天然优势,突破了传统冯诺依曼芯片架构的处理能效极限,有望为后摩尔时代超高能效计算提供全新理论与潜在技术范式。本课题聚焦研究碳-硅融合的生物脑计算接口层面的技术挑战。针对现有片上接口采用“微弱神经信号采集高倍率放大多通道数模转换神经信号解码计算处理”的传统路径存在用GBps高带宽获取bit级有效信号的冗余局限,研究建立一条高效的新路线,提升有效信号带宽上限,降低通讯回合延时,使得进一步片上脑高效训练成为可能。研究重点布局在:

1. 高灵敏度的片上神经脉冲放电信号传感阵列部分,实现无需复杂的高倍率信号放大处理,直接将神经元放电脉冲信号检出;

2. 模拟计算部分,实现无需数模转化,直接将检测到的神经元放电信号转化成时间/地址编码的事件信号;

3. 神经信号解码部分,实现实时将多通道神经事件信号解码成神经元网络的意图,作为进一步微扰动闭环刺激的参考。


课题15

硬件受限下量子线路的启发式设计与优化

研究内容:

随着量子设备与工艺的日益发展,当前量子计算逐步从含噪声中等规模量子时代向早期容错量子计算过度。在这个过度中,设备的保真度与支持的比特数逐步增加,量子计算的前景日益光明。然而在这个时期内,量子线路仍旧受到硬件限制:如连接限制与支持的逻辑门集合限制。设计适应当下时代的高效量子线路设计与优化算法已然成为下阶段实现量子优越性的重要基础,该研究针对目前主流量子硬件配置,探索高效且资源友好的线路设计与优化算法。研究内容重点分布在:

1. 将容错量子计算中关键指标(T门数目)纳入考量,同时考虑现有设备连接限制,设计有针对性的量子线路综合算法;

2. 针对量子线路路由问题,通过采用启发式算法提高对线路规模的鲁棒性,设计出更适合容错量子计算时代的中大规模量子线路路由算法;

3. 对于特定量子线路综合问题,在利用原有综合规则的同时引入启发式算法,在保证理论结果的同时加速线路综合效率,便于处理早期容错量子计算时代的线路综合问题。


课题16

面向量子处理器数值计算单元的可逆规格化线路优化研究

研究内容:

量子算法在量子处理器上运行时,常需在叠加态上执行加减乘除、倒数、对数、函数近似等数值计算子程序。规格化操作是数值计算单元中的基础环节,广泛出现在浮点运算、定点数范围缩放和非线性函数实现过程中,通常涉及前导位检测、移位量表示、受控移位、指数修正和中间信息清理等步骤。由于该类操作包含较多可逆逻辑、受控移位和辅助寄存器管理,其门数、线路深度和辅助比特占用会直接影响量子数值计算线路的整体资源开销。该课题拟围绕可逆规格化线路的结构化设计与资源优化开展研究,为量子处理器上数值计算子模块的高效实现提供理论支撑。研究内容重点分布在:

1. 建立可逆规格化线路的基本模型,分析前导位检测、移位量编码、受控移位、指数修正和反计算等环节的资源开销;

2. 研究规格化流程中的组合优化方法,探索利用分块标记、前缀信息和独热表示等中间信息,减少编码转换、重复计算和垃圾信息清理开销;

3. 面向有限辅助比特和低线路深度等资源约束,设计不同可逆规格化线路构造方法,并给出门数、深度、非 Clifford 资源和辅助比特数之间的权衡分析。


课题17

椭圆曲线离散对数问题的低资源量子算法研究

研究内容:

随着后量子密码迁移逐步推进,椭圆曲线密码在量子计算条件下的实际攻击成本需要更细致的评估。现有量子算法虽然给出了多项式时间攻击,但不同实现路径在量子线路规模、量子比特消耗和经典后处理成本上仍有较大差异。本课题围绕椭圆曲线离散对数问题的量子线路规模优化,借鉴 Regev 与 Ekerå--Gärtner 算法中“多次较小量子采样结合经典格后处理”的思路,探索适合椭圆曲线结构的新方法。研究重点包括:

1. 建立椭圆曲线场景下的高维隐藏格模型,明确什么样的辅助点集合有利于从量子采样中恢复离散对数信息,并刻画相应的成功条件;

2. 研究扩域中具有小表示的点,并通过 Frobenius trace 将其投影回基域,分析这些点能否在保持低运算成本的同时产生足够随机的格关系;

3. 结合 Montgomery/Kummer 坐标和 x-only 运算,优化点加、倍点及相关可逆电路,系统评估线路规模、量子比特数、采样次数与经典后处理成本。

本课题希望形成一条从数学结构、量子采样到电路实现相互支撑的研究路线,为椭圆曲线密码的量子安全评估和量子算法资源优化提供更可靠的理论依据。


Part.4

申请书提交时间及联系方式

2026年度开放课题申请书电子版提交时间:2026年6月14日之前,逾期将不接收。

电子版申请书发送到邮箱:jinlin@ict.ac.cn ,待通过立项评审后再寄送纸质版申请书。


全重·开放课题申请书(空)2026.doc




转发网址:https://mp.weixin.qq.com/s/lQ_ggptyKRsWYampR0qidQ?scene=25&sessionid=#wechat_redirect

 PAGE TOP