简介
基础概念层:
- 深度学习 (Deep Learning): 作为机器学习的一个子领域,深度学习使用多层神经网络来学习数据的复杂模式和表示。它是生成对抗网络(GAN)、变分自编码器(VAE)、Flow 模型和扩散模型等技术的基础。深度学习是神经网络的进阶版,它的基本思路与神经网络类似,但往往比神经网络有着更复杂的结构以及优化算法,是神经网络的纵向延伸,常见的模型有CNN, RNN, LSTM等。
- 神经网络 (Neural Networks): 深度学习的核心组成部分,由多层神经元组成,用于处理和学习数据。 神经网络,该模型灵感来自动物的中枢神经系统,通常呈现为相互连接的“神经元”,它可以对输入值通过反馈机制使得它们适应对应的输出。
- 机器学习(ML,Machine Learning) 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
机器学习专门研究计算机怎样模拟或实现人类的学习行为,而神经网络只是借助了动物的神经系统,只是用计算机实现人类行为的一种手段,因此,神经网络包含于机器学习。
深度学习是神经网络的进阶版,只是在模型结构及优化算法等方面有不同,因此,深度学习应包含于神经网络内。
基础软件环境
- Conda: 一个跨平台的包管理器,用于安装和管理不同的软件包、库和它们依赖的环境。在深度学习中,Conda 可以用于管理 PyTorch 和其他机器学习工具的安装。
- CUDA: NVIDIA 开发的一个并行计算平台和 API,允许开发者使用 NVIDIA GPU 进行通用计算,从而加速深度学习模型的训练和推理过程。
工具和平台层:
Caffe:由加州大学伯克利分校开发的针对卷积神经网络的计算框架,主要用于计算机视觉。Caffe 用C++ 和Python 实现,但可以通过配置文件来实现所要的网络结构,不需要编码。Caffe2 已经被并入PyTorch 中。
TensorFlow:由Google 公司开发的深度学习框架,可以在任意具备CPU或者GPU 的设备上运行。其计算过程使用数据流图来表示。 TensorFlow 的名字来源于其计算过程中的操作对象为多维数组,即张量(Tensor)。TensorFlow 1.0 版本采用静态计算图,2.0 版本之后也支持动态计算图。
PyTorch:由Facebook、NVIDIA、Twitter 等公司开发维护的深度学习框架,其前身为Lua 语言的Torch4。PyTorch 也是基于动态计算图的框架,在需要动态改变神经网络结构的任务中有着明显的优势。
Chainer:一个最早采用动态计算图的深度学习框架,其核心开发团队为来自日本的一家机器学习创业公司Preferred Networks和Tensorflow、Theano、Caffe 等框架使用的静态计算图相比,动态计算图可以在运行时动态地构建计算图,因此非常很适合进行一些复杂的决策或推理任务。
MXNet:由亚马逊、华盛顿大学和卡内基梅隆大学等开发维护的深度学习框架。MXNet 支持混合使用符号和命令式编程来最大化效率和生产率,并可以有效地扩展到多个GPU 和多台机器。
Theano:由蒙特利尔大学的Python 工具包, 用来高效地定义、优化和计算张量数据的数学表达式。Theano 可以透明地使用GPU 和高效的符号微分。Theano 项目目前已停止维护。
MindSpore:华为推出的全场景AI框架,支持多种并行能力,具有简单易用的分布式策略配置接口,支持云、边缘和手机的快速部署。
飞桨(PaddlePaddle):百度开发的一个高效和可扩展的深度学习框架,同时支持动态图和静态图。飞桨提供强大的深度学习并行技术,可以同时支持稠密参数和稀疏参数场景的超大规模深度学习并行训练,支持千亿规模参数和数百个节点的高效并行训练。
神经网络类别
前馈神经网络(Feedforward Neural Networks, FNN)
最基本的神经网络类型,信息单向传播,不含反馈连接。
常见的前馈神经网络包括卷积神经网络(CNN)、全连接神经网络(FCN)、生成对抗网络(GAN)等。
反馈神经网络(Feedback Neural Network)
神经元不但可以接收其他神经元的信号,而且可以接收自己的反馈信号。和前馈神经网络相比,反馈神经网络中的神经元具有记忆功能,在不同时刻具有不同的状态。
经典神经网络
- ANN,人工神经网络
- RBF NN,径向基函数神经网络
- DBN,深度信念网络
- GAN,生成对抗网络,Dropout
- DNN,深度神经网络
- FCN,全卷积网络
- CNN,卷积神经网络,MCNN多列卷积神经网络,ResNets残差网络,Inception,Xception
- RNN,循环神经网络,BRNN双向循环神经网络、DRNN深层循环神经网络
- LSTM,长短期记忆网络
- AE,自编码器
神经网络架构搜索(NAS),常见的搜索方法包括:随机搜索、贝叶斯优化、进化算法、强化学习、基于梯度的算法。
模型应用应用
语义分割和实例分割主要是unet、maskrcnn等
目前还包括anchor free的yolox,FCOS等
以及现在基于transformer的图像分类检测网络
自然语言处理主要基于RNN和transformer的,现在transformer的更多,Embedding,应用广泛的像是BERT、GPT等
模型库(SOTA Motivation Benkmark)
sota=目前该领域表现最好的算法;
论文motivation=论文所提方法的具体表现(也就是你想要达到什么效果,且通过论文的方法能够实现);
benckmark=用于对比的各种技术指标;
baseline=对比算法
eg:论文基于某种motivation(要比对比算法更快/更高/更强),选择了该领域的sota(目前最强的方法)作为本文的baseline(对比算法),在运行速度这个benchmark(某一种技术指标)上,表现更好,并且其余指标能够基本持平。
模型库
华为Mindspare
Loading...