高质量中文预训练模型集合(持续更新,最新2024-04)
在自然语言处理领域中,预训练语言模型(Pretrained Language Models)已成为非常重要的基础技术,本仓库主要收集目前网上公开的一些高质量中文预训练模型(感谢分享资源的大佬),并将持续更新…
最新的模型汇总地址github: https://github.com/lonePatient/awesome-pretrained-chinese-nlp-models
Expand Table of Contents
更新日志
基础大模型
对话大模型
多模态对话大模型
大模型评估基准
在线体验大模型
开源模型库平台
开源数据集库
开源中文指令数据集
Other-Awesome
NLU系列
BERT
RoBERTa
ALBERT
NEZHA
XLNET
MacBERT
WoBERT
ELECTRA
ZEN
ERNIE
ERNIE3
RoFormer
StructBERT
Lattice-BERT
Mengzi-BERT
ChineseBERT
TaCL
MC-BERT
二郎神
PERT
MobileBERT
GAU-α
DeBE ...
Arxiv今日(2024-04-26)最新论文
本篇博文主要展示每日从Arxiv论文网站获取的最新论文列表,每天早上11:30点定时自动更新,主要按照NLP、CV、ML、AI、IR五个大方向区分,若需要邮件定时接收,请在评论区留下你的邮箱号。
说明:每日论文数据从arxiv网站获取,每天早上11:30左右定时自动更新。
友情提示: 如何您需要邮箱接收每日论文数据,请在评论处留下你的邮箱,同样每天11:30左右邮件定时自动发送。
目录
概览
自然语言处理
机器学习
计算机视觉
信息检索
人工智能
概览 (2024-04-26)
今日共更新431篇论文,其中:
56篇自然语言处理(NLP: cs.CL)
108篇计算机视觉(CV: cs.CV)
69篇机器学习(ML: cs.LG)
29篇人工智能(AI: cs.AI)
1篇信息检索(IR: cs.IR)
其它主题168篇
自然语言处理
NLP-0-标题: Make-it-Real: Unleashing Large Multimodal Models Ability for Painting 3D Objects with Realistic Materials
链接 ...
Arxiv今日(2024-04-25)最新论文
本篇博文主要展示每日从Arxiv论文网站获取的最新论文列表,每天早上11:30点定时自动更新,主要按照NLP、CV、ML、AI、IR五个大方向区分,若需要邮件定时接收,请在评论区留下你的邮箱号。
说明:每日论文数据从arxiv网站获取,每天早上11:30左右定时自动更新。
友情提示: 如何您需要邮箱接收每日论文数据,请在评论处留下你的邮箱,同样每天11:30左右邮件定时自动发送。
目录
概览
自然语言处理
机器学习
计算机视觉
信息检索
人工智能
概览 (2024-04-25)
今日共更新439篇论文,其中:
82篇自然语言处理(NLP: cs.CL)
101篇计算机视觉(CV: cs.CV)
86篇机器学习(ML: cs.LG)
18篇人工智能(AI: cs.AI)
4篇信息检索(IR: cs.IR)
其它主题148篇
自然语言处理
NLP-0-标题: CT-GLIP: 3D Grounded Language-Image Pretrain ing with CT Scans and Radiology Reports for Full-Body Scenario ...
Arxiv今日(2024-04-24)最新论文
本篇博文主要展示每日从Arxiv论文网站获取的最新论文列表,每天早上11:30点定时自动更新,主要按照NLP、CV、ML、AI、IR五个大方向区分,若需要邮件定时接收,请在评论区留下你的邮箱号。
说明:每日论文数据从arxiv网站获取,每天早上11:30左右定时自动更新。
友情提示: 如何您需要邮箱接收每日论文数据,请在评论处留下你的邮箱,同样每天11:30左右邮件定时自动发送。
目录
概览
自然语言处理
机器学习
计算机视觉
信息检索
人工智能
概览 (2024-04-24)
今日共更新439篇论文,其中:
82篇自然语言处理(NLP: cs.CL)
101篇计算机视觉(CV: cs.CV)
86篇机器学习(ML: cs.LG)
18篇人工智能(AI: cs.AI)
4篇信息检索(IR: cs.IR)
其它主题148篇
自然语言处理
NLP-0-标题: CT-GLIP: 3D Grounded Language-Image Pretrain ing with CT Scans and Radiology Reports for Full-Body Scenario ...
Arxiv今日(2024-04-23)最新论文
本篇博文主要展示每日从Arxiv论文网站获取的最新论文列表,每天早上11:30点定时自动更新,主要按照NLP、CV、ML、AI、IR五个大方向区分,若需要邮件定时接收,请在评论区留下你的邮箱号。
说明:每日论文数据从arxiv网站获取,每天早上11:30左右定时自动更新。
友情提示: 如何您需要邮箱接收每日论文数据,请在评论处留下你的邮箱,同样每天11:30左右邮件定时自动发送。
目录
概览
自然语言处理
机器学习
计算机视觉
信息检索
人工智能
概览 (2024-04-23)
今日共更新704篇论文,其中:
104篇自然语言处理(NLP: cs.CL)
184篇计算机视觉(CV: cs.CV)
122篇机器学习(ML: cs.LG)
31篇人工智能(AI: cs.AI)
6篇信息检索(IR: cs.IR)
其它主题257篇
自然语言处理
NLP-0-标题: SpaceByte: Towards Deleting Tokenization from Large Language Modeling
链接: https://arxiv.org/abs/2404.14408 ...
Arxiv今日(2024-04-22)最新论文
本篇博文主要展示每日从Arxiv论文网站获取的最新论文列表,每天早上11:30点定时自动更新,主要按照NLP、CV、ML、AI、IR五个大方向区分,若需要邮件定时接收,请在评论区留下你的邮箱号。
说明:每日论文数据从arxiv网站获取,每天早上11:30左右定时自动更新。
友情提示: 如何您需要邮箱接收每日论文数据,请在评论处留下你的邮箱,同样每天11:30左右邮件定时自动发送。
目录
概览
自然语言处理
机器学习
计算机视觉
信息检索
人工智能
概览 (2024-04-22)
今日共更新342篇论文,其中:
48篇自然语言处理(NLP: cs.CL)
84篇计算机视觉(CV: cs.CV)
61篇机器学习(ML: cs.LG)
27篇人工智能(AI: cs.AI)
0篇信息检索(IR: cs.IR)
其它主题122篇
自然语言处理
NLP-0-标题: Data Alignment for Zero-Shot Concept Generation in Dermatology AI
链接: https://arxiv.org/abs/2404.13043
作者: S ...
Arxiv今日(2024-04-19)最新论文
本篇博文主要展示每日从Arxiv论文网站获取的最新论文列表,每天早上11:30点定时自动更新,主要按照NLP、CV、ML、AI、IR五个大方向区分,若需要邮件定时接收,请在评论区留下你的邮箱号。
说明:每日论文数据从arxiv网站获取,每天早上11:30左右定时自动更新。
友情提示: 如何您需要邮箱接收每日论文数据,请在评论处留下你的邮箱,同样每天11:30左右邮件定时自动发送。
目录
概览
自然语言处理
机器学习
计算机视觉
信息检索
人工智能
概览 (2024-04-19)
今日共更新375篇论文,其中:
59篇自然语言处理(NLP: cs.CL)
107篇计算机视觉(CV: cs.CV)
54篇机器学习(ML: cs.LG)
46篇人工智能(AI: cs.AI)
6篇信息检索(IR: cs.IR)
其它主题103篇
自然语言处理
NLP-0-标题: BLINK: Multimodal Large Language Models Can See but Not Perceive
链接: https://arxiv.org/abs/2404.12390
作者: ...
Arxiv今日(2024-04-18)最新论文
本篇博文主要展示每日从Arxiv论文网站获取的最新论文列表,每天早上11:30点定时自动更新,主要按照NLP、CV、ML、AI、IR五个大方向区分,若需要邮件定时接收,请在评论区留下你的邮箱号。
说明:每日论文数据从arxiv网站获取,每天早上11:30左右定时自动更新。
友情提示: 如何您需要邮箱接收每日论文数据,请在评论处留下你的邮箱,同样每天11:30左右邮件定时自动发送。
目录
概览
自然语言处理
机器学习
计算机视觉
信息检索
人工智能
概览 (2024-04-18)
今日共更新403篇论文,其中:
57篇自然语言处理(NLP: cs.CL)
103篇计算机视觉(CV: cs.CV)
67篇机器学习(ML: cs.LG)
33篇人工智能(AI: cs.AI)
5篇信息检索(IR: cs.IR)
其它主题138篇
自然语言处理
NLP-0-标题: Related Work and Citation Text Generation: A Survey
链接: https://arxiv.org/abs/2404.11588
作者: Xiangci Li, ...
26条Prompt参考
论文介绍了26条指导原则,目标是简化为不同规模的大语言模型制定问题的概念,检验它们的能力,并增强用户对于不同规模的模型在接受不同提示时的行为理解。研究者在LLaMA-1/2(7B、13B和70B)和GPT-3.5/4上进行了广泛实验,以验证这些原则在指令和提示设计上的有效性。
论文中指出:大语言模型如ChatGPT在多个领域和任务中展现出卓越的能力,但在普通用户设计最优指令或提示时,它们的应用和使用有时可能并不清晰。而他们的工作是为开发人员或普通用户揭示与LLMs询问和交互时时“神秘的黑盒”,并通过简单地策划更好的提示来进一步提高预训练LLMs的响应质量。研究团队提出了26条用于LLM提示的原则,接下来让我们一起来看看吧~
论文地址:https://arxiv.org/pdf/2312.16171.pdf
26条原则
不需要对LLM客气,因此无需使用诸如"请",“如果您不介意”,“谢谢您”,"我想要"等短语,直接切入主题。
在提示中融入预期的受众群体,例如,假设受众是该领域的专家。
将复杂的任务拆分为一系列简单的提示,在交互式对话中逐步进行 ...
使用LoRA(低秩自适应)微调LLM的实用技巧
增加数据量和模型的参数量是公认的提升神经网络性能最直接的方法。目前主流的大模型的参数量已扩展至千亿级别,「大模型」越来越大的趋势还将愈演愈烈。
这种趋势带来了多方面的算力挑战。想要微调参数量达千亿级别的大语言模型,不仅训练时间长,还需占用大量高性能的内存资源。
为了让大模型微调的成本「打下来」,微软的研究人员开发了低秩自适应(LoRA)技术。LoRA 的精妙之处在于,它相当于在原有大模型的基础上增加了一个可拆卸的插件,模型主体保持不变。LoRA 随插随用,轻巧方便。
对于高效微调出一个定制版的大语言模型来说,LoRA 是最为广泛运用的方法之一,同时也是最有效的方法之一。
如果你对开源 LLM 感兴趣,LoRA 是值得学习的基本技术,不容错过。
上个月,我分享了一篇有关 LoRA 实验的文章,主要基于我和同事在 Lightning AI 共同维护的开源 Lit-GPT 库,讨论了我从实验中得出的主要经验和教训。此外,我还将解答一些与 LoRA 技术相关的常见问题。如果你对于微调定制化的大语言模型感兴趣,我希望这些见解能够帮助你快速起步。
简而言之,我在这篇文章中讨论的主要要点包含:
虽 ...