模型选择

预训练和微调

预训练:在大规模无标注文本数据上进行模型的训练,目标是让模型学习自然语言的基础表达、上下文信息和语义知识,为后续任务提供一个通用的、丰富的语言表示基础。
微调:在预训练模型的基础上,可以根据特定的下游任务对模型进行微调。现在你经常会听到各行各业的人说:我们的优势就是领域知识嘛!我们比不过国内外大模型,我们可以拿开源模型做垂直领域嘛!做垂类模型!—— 啥叫垂类?指的其实就是根据领域数据微调开源模型这件事儿。
首先,预训练模型能够将大量的通用语言知识迁移到各种下游任务上,作为应用人员,我们不需要自己寻找语料库,从头开始训练大模型,这减少了训练时间和数据需求;其次,微调过程可以快速地根据特定任务进行优化,简化了模型部署的难度;最后,预训练 + 微调的架构具有很强的可扩展性,可以方便地应用于各种自然语言处理任务,大大提高了 NLP 技术在实际应用中的可用性和普及程度,给我们带来了巨大的便利。
推荐你从 HuggingFace 下载并导入模型。因为啊,前天百川,昨天千问,今天流行 Llama,明天不就流行别的了嘛。模型总在变,但是 HuggingFace 一直在那里,支持着各种开源模型。我们学东西,尽量选择学一次能够复用的知识。
 
模型的后缀有 GGML 或者 GPTQ,就说明模型已经被量化过,其中 GPTQ 是一种仅适用于 GPU 的特定格式。GGML 专为 CPU 和 Apple M 系列设计,但也可以加速 GPU 上的某些层。
notion image
PyTorch 是一个流行的深度学习框架,常用于模型的训练和微调。 HuggingFace 是一个开源社区,提供了大量预训练模型和微调工具,尤其是 NLP 任务。 LangChain 则擅长于利用大语言模型的推理功能,开发新的工具或应用,完成特定的任务。
Llama2,开源的可商用类 ChatGPT 模型,Facebook 链接GitHub 链接
HuggingFace Transformer 文档
AutoGPTQ 基于 GPTQ 算法的大模型量化工具包
Llama CPP 支持 GGML,目标是在 MacBook(或类似的非 GPU 的普通家用硬件环境)上使用 4 位整数量化运行 Llama 模型
Loading...
目录
文章列表
王小扬博客
产品
Think
Git
软件开发
计算机网络
CI
DB
设计
缓存
Docker
Node
操作系统
Java
大前端
Nestjs
其他
PHP