模型选择
预训练和微调
预训练:在大规模无标注文本数据上进行模型的训练,目标是让模型学习自然语言的基础表达、上下文信息和语义知识,为后续任务提供一个通用的、丰富的语言表示基础。
微调:在预训练模型的基础上,可以根据特定的下游任务对模型进行微调。现在你经常会听到各行各业的人说:我们的优势就是领域知识嘛!我们比不过国内外大模型,我们可以拿开源模型做垂直领域嘛!做垂类模型!—— 啥叫垂类?指的其实就是根据领域数据微调开源模型这件事儿。
首先,预训练模型能够将大量的通用语言知识迁移到各种下游任务上,作为应用人员,我们不需要自己寻找语料库,从头开始训练大模型,这减少了训练时间和数据需求;其次,微调过程可以快速地根据特定任务进行优化,简化了模型部署的难度;最后,预训练 + 微调的架构具有很强的可扩展性,可以方便地应用于各种自然语言处理任务,大大提高了 NLP 技术在实际应用中的可用性和普及程度,给我们带来了巨大的便利。
推荐你从 HuggingFace 下载并导入模型。因为啊,前天百川,昨天千问,今天流行 Llama,明天不就流行别的了嘛。模型总在变,但是 HuggingFace 一直在那里,支持着各种开源模型。我们学东西,尽量选择学一次能够复用的知识。
模型的后缀有 GGML 或者 GPTQ,就说明模型已经被量化过,其中 GPTQ 是一种仅适用于 GPU 的特定格式。GGML 专为 CPU 和 Apple M 系列设计,但也可以加速 GPU 上的某些层。
PyTorch 是一个流行的深度学习框架,常用于模型的训练和微调。
HuggingFace 是一个开源社区,提供了大量预训练模型和微调工具,尤其是 NLP 任务。
LangChain 则擅长于利用大语言模型的推理功能,开发新的工具或应用,完成特定的任务。
Llama2,开源的可商用类 ChatGPT 模型,Facebook 链接、GitHub 链接
HuggingFace Transformer 文档
AutoGPTQ 基于 GPTQ 算法的大模型量化工具包
Llama CPP 支持 GGML,目标是在 MacBook(或类似的非 GPU 的普通家用硬件环境)上使用 4 位整数量化运行 Llama 模型
Loading...