ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制
ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制上下文学习 (in-context learning, 简写为 ICL) 已经在很多 LLM 有关的应用中展现了强大的能力,但是对其理论的分析仍然比较有限。人们依然试图理解为什么基于 Transformer 架构的 LLM 可以展现出 ICL 的能力。
搜索
上下文学习 (in-context learning, 简写为 ICL) 已经在很多 LLM 有关的应用中展现了强大的能力,但是对其理论的分析仍然比较有限。人们依然试图理解为什么基于 Transformer 架构的 LLM 可以展现出 ICL 的能力。
天津大学量子智能与语言理解团队创新性地将量子计算引入隐式神经表征领域,提出了量子隐式表征网络(Quantum Implicit Representation Network, QIREN)。
在大语言模型突飞猛进的同时,谷歌的研究团队在时序预测方面也取得了突破性的成果——今年2月发表的模型TimesFM,而且放出了模型的代码和权重,让更多开发者体验这种「开箱即用」的零样本预测能力。
大模型应用开卷,连一向保守的苹果,都已释放出发展端侧大模型的信号。
怎样才能将可爱又迷人的柯基与柴犬的图像进行区分?
华南理工大学和香港大学的研究人员在ICML 2024上提出了一个简单而通用的时空提示调整框架FlashST,通过轻量级的时空提示网络和分布映射机制,使预训练模型能够适应不同的下游数据集特征,显著提高了模型在多种交通预测场景中的泛化能力。
在开源社区引起「海啸」的Mamba架构,再次卷土重来!这次,Mamba-2顺利拿下ICML。通过统一SSM和注意力机制,Transformer和SSM直接成了「一家亲」,Mamba-2这是要一统江湖了?
改进Transformer核心机制注意力,让小模型能打两倍大的模型!
本文介绍了香港科技大学(广州)的一篇关于大模型高效微调(LLM PEFT Fine-tuning)的文章「Parameter-Efficient Fine-Tuning with Discrete Fourier Transform」
在大型语言模型的训练过程中,数据的处理方式至关重要。