深度学习中分层结构的普遍性：超越Transformer的视角

1. 引言：深度学习中分层架构的基础作用

大型语言模型（LLM）作为深度学习算法的典范，能够执行各种自然语言处理（NLP）任务，并通过海量数据集进行训练 [1]。这些模型本质上是神经网络，其计算系统灵感来源于人脑，通过分层节点网络协同工作 [1]。LLM由多个神经网络层组成，包括循环层、前馈层、嵌入层和注意力层，它们协同处理输入文本并生成输出内容 [1, 2]。这种多层组成是其定义性的特征。

"大"在LLM中不仅指其庞大的数据集，也指其参数数量的巨大。这种规模的实现，直接得益于其分层架构。深度神经网络（即分层网络）在学习高维任务时，能够从有限的样本中构建抽象的、低维的数据表示，从而有效克服"维度诅咒" [3, 4, 5]。这意味着，如果没有深度、分层的架构，高效处理和学习这些海量、高维的数据将是难以想象的。这种架构提供了必要的容量（参数、深度），使模型能够从大规模数据中学习复杂的、高维的表示，这是LLM实现"大"的基础。

深度学习从根本上是指一类机器学习算法，其中"分层结构用于将输入数据转换为渐进式更抽象和复合的表示" [5]。这一过程被称为分层特征学习 [6]。在深度神经网络中，每个连续的层都会学习输入数据更抽象的表示 [5, 6, 7]。例如，在图像识别中，早期层可能检测边缘，而更深层则识别复杂的对象 [5, 7]。类似地，在自然语言处理中，较低层可能捕获基本的语言模式，而较高层则掌握更复杂的语义或句法结构 [8, 9]。

这种分层抽象过程也解释了深度学习模型，特别是LLM，为何常被视为"黑箱"。虽然我们知道层会学习特征，但这些中间层所学习到的特征的确切性质往往是不透明的，这导致了模型可解释性的挑战 [10, 11]。由于模型自动地通过多个层学习这些日益抽象的非线性特征转换，人类很难追踪或理解这些中间表示中嵌入的精确逻辑或意义。这种分层学习固有的复杂性直接导致了可解释性难题。

本报告旨在探讨分层结构在深度学习中的普遍性，超越Transformer模型的范畴，并比较其在各种深度学习架构中的实现方式，详细阐述它们如何实现分层特征学习以实现复杂的语言理解。

2. 深度神经网络中分层抽象的普遍原则

深度神经网络的通用架构包含一个输入层、一个或多个隐藏层以及一个输出层 [7, 12]。其中，"深"这一术语特指存在多个隐藏层 [5]。信息通过"前向传播"在网络中传播，每一层都在前一层的基础上进行构建，以优化预测或分类 [7]。这种分层结构是深度学习模型能够处理复杂数据和学习高阶特征的基础。

连续的层在深度神经网络中扮演着关键角色，它们逐步学习更抽象和复合的表示。深度神经网络是表示学习模型，它们将输入信息编码为"分层表示"并投射到各种子空间中 [6, 13]。通常，较低的层学习简单、通用的模式（例如，图像中的边缘、纹理；文本中的基本语言单元），而较深的层则将这些模式组合成更复杂、更抽象的特征（例如，对象、人脸；短语、语义概念） [5, 6, 7, 8, 9, 13]。这种分层学习能力使得模型能够捕获数据的内在结构 [6]。这种分层学习对于图像识别和自然语言处理等任务至关重要，因为在这些任务中，理解多层特征是准确预测的关键 [6]。

深度网络学习分层表示的能力是克服"维度诅咒"的关键因素，它通过构建不变表示，使得模型能够从有限的数据样本中学习复杂的任务 [3, 4]。这意味着，深度本身不仅仅是关于容量，更是一种更高效的学习范式。例如，研究表明，深度学习算法在学习高维任务时，能够从有限的例子中展现出惊人的能力，这归因于神经网络的深度使其能够构建抽象的、低维的数据表示 [3, 4]。通过学习分层、不变的特征，深度网络有效地降低了问题的"有效"维度，从而需要更少的例子来泛化。这构成了深度架构相对于浅层架构的根本性理论优势，解释了它们在数据稀缺、高维领域取得成功的原因。

网络的深度对于实现有效的特征提取具有重要意义。虽然在某个点之后，增加层数并不能无限地增加网络的函数逼近能力，但深度模型（其"信用分配路径"深度大于二）在特征提取方面明显优于浅层模型 [5]。深度使模型能够解开复杂的抽象并识别有助于提高性能的特征 [5]。

3. Transformer架构：分层处理的典范

Transformer模型由Vaswani等人于2017年在其开创性论文《Attention Is All You Need》中提出，是一种深度学习架构，主要设计用于机器翻译等序列到序列任务 [14, 15, 16]。它保持了核心的编码器-解码器架构，其中两个组件都是由多个相同层堆叠而成 [16, 17, 18, 19]。最初的架构包含6个编码器层和6个解码器层，但这个数量可以根据需要进行调整 [17, 19]。编码器将输入序列处理成"矩阵表示"或"上下文化表示"，捕获每个词元相对于整个序列的上下文 [17, 20]。随后，解码器利用编码器的输出及其自身先前生成的词元，迭代地生成输出序列 [17, 20]。

3.1. 各层关键组件的详细分析

Transformer模型中的每一层都包含几个关键组件，它们共同促进了分层特征学习：

多头自注意力机制： 这是Transformer模型的核心特征，使其能够检测输入序列不同部分之间的关系（依赖性） [15, 21]。与循环神经网络（RNN）不同，它同时处理整个序列，从而实现并行化并高效捕获长距离依赖关系 [15, 21]。该机制涉及为每个词元计算查询（Q）、键（K）和值（V）向量 [14, 15, 22]。注意力分数通过查询和键向量的点积计算，然后通过softmax归一化以获得注意力权重 [14, 15]。这些权重用于计算值向量的加权和，形成输出 [14, 18]。

"多头"注意力允许模型同时关注输入的不同"表示子空间"或方面，从而丰富上下文信息 [16, 18, 22]。每个注意力头可以专注于不同的语义或句法含义 [22]。多头注意力机制通过允许不同的"头"关注不同的方面（例如，语义与句法、局部与全局），在单层内部固有地促进了分层学习。这不仅仅是层堆叠的问题，更是单层内部多方面信息提取的能力。通过在多个"头"之间并行化注意力，模型可以同时捕获不同类型的关系（例如，直接词语依赖、长距离主题连接、语法角色）。这种在单层内同时捕获各种关系（通过不同的"视图"或"头"）的方式，有效地创建了更丰富、更细致、隐式分层的表示，然后再将其传递给下一层。这是一种"层内"的分层学习形式。

在解码器中，掩码多头注意力机制阻止词元关注未来的位置，从而确保因果关系 [17, 19, 20]。额外的"编码器-解码器注意力"层允许解码器关注编码器的输出 [17, 20, 23]。
前馈网络（FFNs）： 每个Transformer层都包含一个位置感知前馈网络，通常是一个带有ReLU激活函数的两层多层感知器 [14, 24]。FFNs对输入表示应用非线性转换，使模型能够捕获复杂模式并学习更高层次的特征 [18]。它们充当"转换不同层之间表示的骨干" [18]。
位置编码： 至关重要的是，Transformer模型缺少循环单元，这意味着它们本身不固有地处理序列顺序 [14, 17, 19]。位置编码被添加到输入嵌入中，以注入这种至关重要的序列信息 [9, 14, 17, 18, 19]。这些编码使模型能够区分序列中元素的相对位置，这对于捕获时间动态和上下文至关重要 [18]。

3.2. 这些层如何促进语言层次的学习（句法和语义特征）

Transformer层堆叠的性质使得语言抽象能够逐步学习 [8, 9]。早期层可能捕获更通用、低级的模式，而更深层则逐步学习更复杂、特定于任务和抽象的语言表示 [8, 9]。研究表明，Transformer模型通过其自注意力和对大量文本语料库的接触，获得了语言结构（包括句法、形态和语义）的内部知识 [10]。例如，研究发现BERT的上下文嵌入中编码了部分句法依赖关系 [10]。不同的注意力头可以专注于不同的方面，例如句法关系（例如，代词关注其相应的名词）或语义关系（例如，理解句子中的混合情感） [22, 25]。

对Transformer层可解释性的研究揭示了一个引人入胜的涌现特性：语言层次（句法、语义）并非显式编程，而是通过对大量原始文本的自监督预训练而"涌现"的。这表明架构与数据规模相结合，隐式地发现了基本的语言原则。例如，研究试图辨别这些模型是否通过自注意力架构和对大量文本的接触，能够获得语言结构和现象（句法、形态、语义等）的内部知识 [10]。有研究表明，"句法结构可能仅仅通过Transformer模型在预训练期间接触原始文本而被间接编码" [10]。对注意力模式的可视化也显示出与语言结构相关的"出人意料的直观模式"（例如，代词的注意力） [25]。这种现象表明，自注意力机制通过动态地权衡词元之间的关系，以及多层深度通过逐步抽象这些关系，使模型能够从训练数据的统计模式中"发现"并"编码"复杂的语言规则（如句法和语义），而不是被明确地教授。这是一种强大的无监督分层特征学习形式，是现代大型语言模型"智能"的基础。

表1：Transformer层的功能分解

组件	功能	对层次/抽象的贡献
查询（Q）向量	代表模型在序列中寻找的信息。	帮助确定当前词元应关注哪些其他词元，是上下文构建的起点。
键（K）向量	代表序列中其他词元所包含的信息。	允许模型评估其他词元与当前查询的相关性。
值（V）向量	代表词元对输出贡献的信息。	承载实际的内容信息，通过注意力权重进行加权聚合。
多头自注意力	同时处理输入序列的不同部分，检测词元间的依赖关系。	通过并行地从不同"视角"捕获语义和句法关系，丰富了词元的上下文表示，实现了层内多维度的信息抽象。
前馈网络（FFN）	对注意力层的输出进行非线性转换和特征提取。	在每个位置独立地对表示进行进一步的复杂转换，从而学习更高层次的抽象特征，并作为层间信息传递的骨干。
位置编码	向词元嵌入中注入序列中词元的顺序信息。	确保模型在并行处理时仍能理解词元在序列中的相对位置，为后续的上下文和层次学习提供基础的结构信息。

4. 其他主流深度学习架构中的分层结构

除了Transformer，其他深度学习架构也广泛采用分层结构来实现复杂的特征学习，尤其是在自然语言处理领域。

4.1. 循环神经网络（RNNs）、长短期记忆网络（LSTMs）和门控循环单元（GRUs）

序列处理与循环连接： 循环神经网络（RNNs）专门设计用于处理序列数据，它们一次处理一个输入，并维护一个"隐藏状态"或"记忆"，捕获先前时间步的信息 [9, 13, 26, 27, 28, 29, 30, 31, 32]。这种固有的序列性质使其能够捕获时间依赖性 [13, 26]。一个时间步的神经元输出会作为下一个时间步的网络输入反馈回来 [26, 29]。
隐藏状态和门控机制（LSTM/GRU）在记忆和时间依赖中的作用： 传统的RNNs面临梯度消失/爆炸问题，限制了它们学习长距离依赖的能力 [9, 13, 26, 27, 31, 33]。长短期记忆网络（LSTMs）和门控循环单元（GRUs）的开发旨在解决这些问题，它们使用"门"（LSTM中为输入、遗忘、输出门；GRU中为更新、重置门）来控制信息流入和流出"细胞状态"（LSTM）或组合隐藏状态（GRU） [13, 28, 29, 30, 31, 32, 33, 34, 35]。这使得它们能够选择性地记住或遗忘更长时间的信息 [31, 32]。
"堆叠RNNs"实现分层表示的概念： "堆叠RNN"或"深度RNN"是通过将多个RNN层堆叠在一起而形成的 [26]。每个层都作为一个独立的RNN运行，下层的输出序列作为上层的输入 [26]。这种堆叠允许模型"越来越有上下文地"处理词元 [26]。例如，ELMo是一个堆叠的双向LSTM，它从字符级输入生成词级嵌入 [26]。分层特征学习也应用于RNNs，特别是用于序列或时间序列数据，模型在时间上学习分层表示，捕获短期和长期模式 [6, 13, 34]。

尽管堆叠RNNs通过多层处理序列来实现分层学习，但其固有的序列处理方式（不可并行化）限制了它们在处理超长序列时相对于Transformer的可伸缩性和效率 [9, 15, 21, 31, 33, 36]。这种在处理范式上的根本性架构差异（序列与并行）决定了它们在现代大型语言模型规模下的适用性。RNNs的顺序性意味着每个步骤都依赖于前一个步骤的完成，从而阻止了序列的并行计算 [9, 15, 21, 26, 31, 33, 36]。这直接导致了更长的训练时间，并且对于LLM所特有的"海量数据集"而言，扩展效率较低，使其不如Transformer适用于大规模应用。

4.2. 自然语言处理中的卷积神经网络（CNNs）

应用滤波器和池化层进行局部模式提取： 卷积神经网络（CNNs）虽然主要以图像处理闻名，但它们也是自然语言处理任务的强大工具，擅长捕获文本数据中的局部模式 [12, 13, 27, 37, 38, 39, 40, 41]。它们应用可学习的"滤波器"（核）在输入数据（例如，词或字符嵌入）上滑动，以创建"特征图"，突出重要特征 [13, 27, 38, 40, 41]。随后，池化层（例如，最大池化）降低维度，同时保留基本信息，使模型更高效 [13, 38, 39, 40, 41]。
通过堆叠卷积层进行分层特征学习： CNNs"擅长学习分层特征表示" [13]。较低的层学习基本特征（例如，图像中的边缘、颜色；文本中的n-gram、简单短语），而较深的层则将这些局部模式组合成更复杂的结构（例如，对象；习语表达、句法/语义特征） [5, 6, 7, 9, 13, 37, 38, 39, 40, 41, 42]。这种分层方法使网络能够学习越来越复杂的特征，这些特征也具有扭曲和转换不变性 [37]。
CNNs在文本中的句法和语义特征学习： 通过在词嵌入上应用滤波器，CNNs可以检测携带重要意义的短语和词组合，使其能够理解语言的句法和语义细微差别 [41]。它们可以捕获词或字符之间的局部模式和关系，例如n-gram或语义/句法特征 [38, 41]。

尽管CNNs擅长捕获局部模式和分层特征，但它们对固定大小感受野和池化层的依赖可能导致精确空间信息的丢失，并难以处理长距离依赖或全局上下文 [43, 44]。这种局限性与Transformer的全局注意力形成对比，凸显了不同分层架构在捕获上下文方面的权衡。CNNs明确指出，由于池化会丢弃"精确的空间信息"并优先处理"局部模式而非全局结构"，因此它们"在空间不变性和分层关系方面存在困难" [43]。它还提到它们"无法捕获长距离依赖和全局上下文" [43]。这种固定大小的滤波器和池化操作，虽然对于局部特征提取和转换不变性是高效的，但固有地限制了对远距离元素之间关系的直接建模。这需要更深的堆叠来扩大感受野，但即便如此，与Transformer的直接、全对全注意力机制相比，它仍然是一种间接捕获全局上下文的方式，后者可以直接建模长距离依赖而不会丢失细粒度的空间关系 [15]。

5. 比较分析：不同架构的分层特征学习

所有三种架构（Transformer、RNNs和CNNs）都是深度神经网络，它们通过其分层结构学习分层表示 [5, 6, 13]。

Transformer： 通过多头自注意力和堆叠的前馈网络实现分层理解，从而实现并行处理和强大的长距离依赖捕获，适用于句法和语义特征 [15, 18, 21]。由于所有词元之间存在直接连接，它们擅长处理长距离依赖 [21, 44]。
RNNs（包括LSTMs/GRUs）： 顺序处理数据，维护一个隐藏状态以携带先前步骤的信息。分层学习发生在信息通过循环连接在时间步和堆叠层之间传播和转换时 [13, 26, 29]。它们捕获时间依赖性，但由于梯度消失和顺序处理，难以处理超长距离依赖 [13, 27, 31, 33]。
CNNs： 应用滤波器提取局部模式（例如，文本中的n-gram），并使用池化来降低维度。当更深层将这些局部模式组合成更抽象的表示时，分层特征就被学习了 [13, 38, 41]。它们对于局部模式是高效的，但对于全局上下文则效果较差 [43]。

5.1. 优势与局限性讨论

并行化： Transformer由于其非循环性质而高度并行化，从而在大型数据集上实现更快的训练 [14, 15, 21, 33]。RNNs本质上是顺序的，限制了并行化 [9, 31, 36]。CNNs由于其局部操作也可以并行化 [36, 38]。
长距离依赖捕获： Transformer通过自注意力直接捕获长距离依赖 [15, 21, 44]。LSTMs/GRUs缓解了梯度消失问题，但与Transformer相比，在处理超长序列时仍可能遇到困难 [31, 33]。CNNs在长距离依赖和全局上下文方面存在困难 [43, 44]。
计算效率： Transformer可能计算密集（标准注意力在序列长度上呈二次复杂度，尽管存在变体） [36, 43]。RNNs由于顺序处理而训练较慢 [27, 31]。CNNs通常在局部模式提取方面计算高效 [38, 41]。
数据需求： CNNs和Transformer通常需要大量标记数据集才能获得最佳性能 [12, 33, 43]。在某些情况下，RNNs由于参数较少，可以用较少的数据进行更好的泛化 [35]。

5.2. 演进背景：Transformer在LLM中脱颖而出的原因

在Transformer出现之前，RNNs（特别是LSTMs/GRUs）是自然语言处理任务的最新技术 [15, 36]。Transformer的"分水岭时刻" [15] 是它通过自注意力机制克服了RNNs的局限性，特别是顺序处理瓶颈和长距离依赖的困难 [14, 15, 21]。这使得前所未有的并行化和大规模数据集的可伸缩性成为可能 [15]。Transformer成为许多基于序列任务的"最新技术的普遍选择"，并成为BERT和GPT等模型的核心 [16, 21, 33, 45]。

Transformer在大型语言模型中的兴起，不仅仅是关于一种新架构，更是深度学习"可扩展性范式"的根本性转变。其并行处理能力释放了在"数万亿词"上训练模型的潜力 [1]，从而带来了以前使用顺序架构难以实现的生成式AI的涌现能力和当前时代。Transformer模型能够实现"并行化：即一次执行多个计算步骤，而不是以序列方式进行" [15]。大型语言模型"使用海量数据集进行训练" [1]。Transformer比RNNs"更有效地捕获长距离依赖" [21]。这种并行处理能力（去除循环的注意力机制的直接结果）直接使得在前所未有规模的数据上训练模型成为可能。反过来，这种规模被广泛认为是现代大型语言模型（例如，[45]中提到的GPT-3、BERT、PaLM）所展现的复杂语言理解和生成能力的关键因素。如果没有并行注意力的架构创新，扩展到"数万亿词"在计算上将是不可行的，从而阻碍了复杂模式的发现，这些模式正是大型语言模型智能的来源。

5.3. 对不同层学习特征的可解释性

可解释性研究旨在"打开"基于Transformer模型的"黑箱"，以理解内部计算如何实现结果 [10, 11]。研究调查这些模型是否在预训练期间从原始文本中获得了语言知识（句法、形态、语义） [10]。Google的语言可解释性工具（LIT）等工具帮助可视化注意力模式 [25]。对于CNNs，经验研究表明早期层学习通用模式（边缘、纹理），而更深层捕获特定于任务的语义 [9]。从中间层转移特征通常能提供通用性和特异性的最佳平衡 [9]。

表2：分层特征学习的比较机制

架构	处理范式	分层抽象的主要机制	记忆/上下文处理	学习到的层次类型（NLP焦点）	LLM的关键优势	LLM的关键局限性
Transformer	并行	自注意力与前馈网络	全局，通过注意力捕获长距离依赖	句法和语义层次	高度并行化，高效捕获长距离依赖	超长序列的计算成本高昂
RNN/LSTM/GRU	顺序	循环连接与门控机制	顺序隐藏状态记忆，门控记忆	随时间变化的上下文依赖	处理变长序列，捕获时间模式	梯度消失/爆炸，缺乏并行化
CNN	局部/并行	卷积滤波器与池化	局部感受野	局部模式，n-gram，短语，部分句法/语义	局部特征提取，固定模式效率高	全局上下文有限，空间精度损失

6. 结论：分层抽象的持久原则

分层结构并非Transformer模型所独有，而是所有深度神经网络（包括RNNs、LSTMs、GRUs和CNNs）的根本原则 [5, 6, 13]。这种深度对于学习日益抽象和复合的表示至关重要，使模型能够自动从原始数据中提取复杂特征 [5, 6, 13]。

不同架构利用这一原则实现复杂语言理解的方式各有侧重：

Transformer： 通过多头自注意力和堆叠的前馈网络实现分层理解，从而实现并行处理和对句法和语义特征的鲁棒长距离依赖捕获。
RNNs/LSTMs/GRUs： 依赖循环连接和隐藏状态（带有门控机制）来处理序列并学习时间依赖性，通过堆叠实现更深的分层表示，尽管存在顺序处理的局限性。
CNNs： 利用卷积滤波器和池化层提取局部模式并构建分层特征，适用于需要局部上下文和转换不变性的任务。

深度学习架构的持续演进，从RNNs到CNNs再到Transformer，反映了一个迭代过程，即解决特定局限性（例如，梯度消失、缺乏并行化、有限的全局上下文）以更好地利用日益增长的计算能力和数据可用性。这表明未来的大型语言模型开发很可能涉及混合架构或新颖机制，这些机制结合了这些范式的优势。例如，Transformer的兴起是为了解决RNNs的局限性 [15, 16, 33, 36, 46]。而CNNs的局限性（例如，无法捕获长距离依赖）也促使了混合架构的探索 [43]。例如，SWiN Transformer就通过引入"类似CNN的先验"来解决Transformer的二次复杂度问题 [36]。这种历史模式表明，未来的进步将继续这一趋势，可能通过整合不同架构的最佳特性（例如，CNN在局部特征方面的效率，Transformer的全局注意力）来克服当前的局限性（例如，Transformer在超长序列方面的二次复杂度），从而产生更复杂和专业的LLM。

理解不同架构中分层特征学习的具体机制对于设计更高效、可解释和能力更强的大型语言模型至关重要。从RNNs到Transformer的演进凸显了对架构的持续追求，以更好地利用计算资源和数据规模，从而开启语言理解和生成的新水平。

7. 引用信息

[1] IBM. (n.d.). What are large language models (LLMs)? Retrieved from https://www.ibm.com/topics/large-language-models

[2] Elastic. (n.d.). Large language models (LLMs). Retrieved from https://www.elastic.co/what-is/large-language-models

[3] Phys. Rev. X. (2020). Deep Networks and the Curse of Dimensionality. Retrieved from https://journals.aps.org/prx/abstract/10.1103/PhysRevX.10.021045

[4] axi.lims.ac.uk. (n.d.). Depth, Depth-Efficiency, and the Curse of Dimensionality. Retrieved from https://axi.lims.ac.uk/2020/09/27/depth-depth-efficiency-and-the-curse-of-dimensionality/

[5] viso.ai. (n.d.). Deep Learning. Retrieved from https://viso.ai/deep-learning-explained/

[6] Sapien.io. (n.d.). What is hierarchical feature learning? Retrieved from https://sapien.io/blog/hierarchical-feature-learning-the-cornerstone-of-robust-ai-models

[7] DataCamp. (n.d.). Deep Learning: Definition, Types, Applications. Retrieved from https://www.datacamp.com/blog/what-is-deep-learning

[8] glennftung.github.io. (n.d.). Understanding Representations in Deep Neural Networks. Retrieved from https://glenntfung.github.io/blog/2025/05/21/nn/

[9] Milvus. (n.d.). Hierarchical Embedding. Retrieved from https://milvus.io/docs/v2.2.x/hierarchical_embedding.md

[10] thesmartcube.com. (n.d.). Unlocking the black box: How do Transformers interpret language? Retrieved from https://www.thesmartcube.com/insights/unlocking-the-black-box-how-do-transformers-interpret-language/

[11] IBM. (n.d.). What is explainable AI (XAI)? Retrieved from https://www.ibm.com/topics/explainable-ai

[12] Analytics Vidhya. (n.d.). Understanding Deep Learning. Retrieved from https://www.analyticsvidhya.com/blog/2024/04/understanding-deep-learning/

[13] MDPI. (2022). Deep Learning in Natural Language Processing: A Review. Retrieved from https://www.mdpi.com/2076-3417/12/12/6127

[14] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems, 30.

[15] IBM. (n.d.). What is a Transformer model? Retrieved from https://www.ibm.com/topics/transformer-model

[16] DataCamp. (n.d.). How Transformers Work. Retrieved from https://www.datacamp.com/tutorial/how-transformers-work

[17] Analytics Vidhya. (n.d.). Understanding Transformers: A Deep Dive into NLP's Core Technology. Retrieved from https://www.analyticsvidhya.com/blog/2024/04/understanding-transformers-a-deep-dive-into-nlps-core-technology/

[18] develop.dev. (n.d.). Transformer Architecture Explained. Retrieved from https://develop.dev/en/transformer-architecture-explained/

[19] GeeksforGeeks. (n.d.). Transformer Model in NLP. Retrieved from https://www.geeksforgeeks.org/transformer-model-in-nlp/

[20] freecodecamp.org. (n.d.). The Illustrated Transformer. Retrieved from https://www.freecodecamp.org/news/the-illustrated-transformer/

[21] TechTarget. (n.d.). Transformer. Retrieved from https://www.techtarget.com/whatis/definition/Transformer-machine-learning

[22] Analytics Vidhya. (n.d.). Multi-Head Attention in Transformer. Retrieved from https://www.analyticsvidhya.com/blog/2024/04/multi-head-attention-in-transformer/

[23] Analytics Vidhya. (n.d.). Encoder-Decoder Attention in Transformer. Retrieved from https://www.analyticsvidhya.com/blog/2024/04/encoder-decoder-attention-in-transformer/

[24] Analytics Vidhya. (n.d.). Feed Forward Network in Transformer. Retrieved from https://www.analyticsvidhya.com/blog/2024/04/feed-forward-network-in-transformer/

[25] Google AI Blog. (n.d.). Visualizing Attention in Transformer Models. Retrieved from https://ai.googleblog.com/2019/08/visualizing-attention-in-transformer.html

[26] Wikipedia. (n.d.). Recurrent neural network. Retrieved from https://en.wikipedia.org/wiki/Recurrent_neural_network

[27] GeeksforGeeks. (n.d.). Recurrent Neural Network (RNN) in Deep Learning. Retrieved from https://www.geeksforgeeks.org/recurrent-neural-network-rnn-in-deep-learning/

[28] Medium. (n.d.). LSTM Networks Explained. Retrieved from https://medium.com/@raghaw.sahu/lstm-networks-explained-2dd1c7d8122d

[29] Medium. (n.d.). Demystifying GRU Networks. Retrieved from https://medium.com/@raghaw.sahu/demystifying-gru-networks-81e11400d3a5

[30] freecodecamp.org. (n.d.). Understanding LSTMs. Retrieved from https://www.freecodecamp.org/news/understanding-lstms/

[31] Analytics Vidhya. (n.d.). Recurrent Neural Networks (RNN). Retrieved from https://www.analyticsvidhya.com/blog/2024/04/recurrent-neural-networks-rnn/

[32] Analytics Vidhya. (n.d.). LSTM Networks. Retrieved from https://www.analyticsvidhya.com/blog/2024/04/lstm-networks/

[33] Developmentseed.org. (n.d.). Transformers vs. RNNs. Retrieved from https://developmentseed.org/blog/2024/02/08/transformers-vs-rnns

[34] ResearchGate. (n.d.). How does hierarchical feature learning work in RNNs? Retrieved from https://www.researchgate.net/post/How_does_hierarchical_feature_learning_work_in_RNNs

[35] ResearchGate. (n.d.). Comparing GRU and LSTM neural network models for text classification. Retrieved from https://www.researchgate.net/publication/348398418_Comparing_GRU_and_LSTM_neural_network_models_for_text_classification

[36] ResearchGate. (n.d.). A Comparison of Transformer, Convolutional, and Recurrent Neural Networks on Phoneme Recognition. Retrieved from https://www.researchgate.net/publication/364126777_A_Comparison_of_Transformer_Convolutional_and_Recurrent_Neural_Networks_on_Phoneme_Recognition

[37] Analytics Vidhya. (n.d.). Convolutional Neural Networks (CNNs). Retrieved from https://www.analyticsvidhya.com/blog/2024/04/convolutional-neural-networks-cnns/

[38] Fiveable. (n.d.). Convolutional Neural Networks (CNNs) in NLP. Retrieved from https://library.fiveable.me/natural-language-processing/unit-7/convolutional-neural-networks-cnns-nlp/study-guide/YrEs2Jp85gYVih4

[39] GeeksforGeeks. (n.d.). Convolutional Neural Networks (CNNs) in Deep Learning. Retrieved from https://www.geeksforgeeks.org/convolutional-neural-networks-cnns-in-deep-learning/

[40] Medium. (n.d.). Convolutional Neural Networks in NLP. Retrieved from https://medium.com/mlearning-ai/convolutional-neural-networks-in-nlp-2df96c9c991a

[41] Towards Data Science. (n.d.). CNN for NLP: A Simple Introduction. Retrieved from https://towardsdatascience.com/cnn-for-nlp-a-simple-introduction-in-depth-with-code-b63359d997c6

[42] ResearchGate. (n.d.). Deep Hierarchical Models for Natural Language Processing. Retrieved from https://www.researchgate.net/publication/329584762_Deep_Hierarchical_Models_for_Natural_Language_Processing

[43] ResearchGate. (n.d.). The Limitations of CNNs. Retrieved from https://www.researchgate.net/post/The_Limitations_of_CNNs

[44] Medium. (n.d.). Attention Mechanism: Transformers vs. RNNs. Retrieved from https://medium.com/@kashyapchhabra/attention-mechanism-transformers-vs-rnns-646a2a5d429a

[45] Towards Data Science. (n.d.). Transformer models in NLP. Retrieved from https://towardsdatascience.com/transformer-models-in-nlp-ed2a014a05f

[46] Databricks. (n.d.). The Transformer: The backbone of modern AI. Retrieved from https://www.databricks.com/glossary/transformer-architecture

🌏 Bluo Blog

文章列表

数据统计

LAYERS OF TRANSFORMER LLM