高质量中文预训练模型集合
在自然语言处理领域中,预训练语言模型(Pretrained Language Models)已成为非常重要的基础技术,本仓库主要收集目前网上公开的一些高质量中文预训练模型(感谢分享资源的大佬),并将持续更新…
最新的模型汇总地址github: https://github.com/lonePatient/awesome-pretrained-chinese-nlp-models
Expand Table of Contents
更新日志
基础大模型
对话大模型
多模态对话大模型
大模型评估基准
在线体验大模型
开源模型库平台
开源数据集库
开源中文指令数据集
Other-Awesome
NLU系列
BERT
RoBERTa
ALBERT
NEZHA
XLNET
MacBERT
WoBERT
ELECTRA
ZEN
ERNIE
ERNIE3
RoFormer
StructBERT
Lattice-BERT
Mengzi-BERT
ChineseBERT
TaCL
MC-BERT
二郎神
PERT
MobileBERT
GAU-α
DeBE ...
Arxiv今日(2023-11-30)最新论文
本篇博文主要展示每日从Arxiv论文网站获取的最新论文列表,每天早上11:30点定时自动更新,主要按照NLP、CV、ML、AI、IR五个大方向区分,若需要邮件定时接收,请在评论区留下你的邮箱号。
说明:每日论文数据从arxiv网站获取,每天早上11:30左右定时自动更新。
友情提示: 如何您需要邮箱接收每日论文数据,请在评论处留下你的邮箱,同样每天11:30左右邮件定时自动发送。
目录
概览
自然语言处理
机器学习
计算机视觉
信息检索
人工智能
概览 (2023-11-30)
今日共更新472篇论文,其中:
61篇自然语言处理(NLP: cs.CL)
178篇计算机视觉(CV: cs.CV)
66篇机器学习(ML: cs.LG)
18篇人工智能(AI: cs.AI)
4篇信息检索(IR: cs.IR)
其它主题145篇
自然语言处理
NLP-0-标题: MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training
链接: https://arxiv.org/abs/2311.1 ...
Arxiv今日(2023-11-28)最新论文
本篇博文主要展示每日从Arxiv论文网站获取的最新论文列表,每天早上11:30点定时自动更新,主要按照NLP、CV、ML、AI、IR五个大方向区分,若需要邮件定时接收,请在评论区留下你的邮箱号。
说明:每日论文数据从arxiv网站获取,每天早上11:30左右定时自动更新。
友情提示: 如何您需要邮箱接收每日论文数据,请在评论处留下你的邮箱,同样每天11:30左右邮件定时自动发送。
目录
概览
自然语言处理
机器学习
计算机视觉
信息检索
人工智能
概览 (2023-11-28)
今日共更新519篇论文,其中:
48篇自然语言处理(NLP: cs.CL)
133篇计算机视觉(CV: cs.CV)
102篇机器学习(ML: cs.LG)
47篇人工智能(AI: cs.AI)
0篇信息检索(IR: cs.IR)
其它主题189篇
自然语言处理
NLP-0-标题: One Pass Streaming Algorithm for Super Long Token Attention Approximation in Sublinear Space
链接: https://a ...
Arxiv今日(2023-11-27)最新论文
本篇博文主要展示每日从Arxiv论文网站获取的最新论文列表,每天早上11:30点定时自动更新,主要按照NLP、CV、ML、AI、IR五个大方向区分,若需要邮件定时接收,请在评论区留下你的邮箱号。
说明:每日论文数据从arxiv网站获取,每天早上11:30左右定时自动更新。
友情提示: 如何您需要邮箱接收每日论文数据,请在评论处留下你的邮箱,同样每天11:30左右邮件定时自动发送。
目录
概览
自然语言处理
机器学习
计算机视觉
信息检索
人工智能
概览 (2023-11-27)
今日共更新392篇论文,其中:
36篇自然语言处理(NLP: cs.CL)
121篇计算机视觉(CV: cs.CV)
95篇机器学习(ML: cs.LG)
28篇人工智能(AI: cs.AI)
5篇信息检索(IR: cs.IR)
其它主题107篇
自然语言处理
NLP-0-标题: PaSS: Parallel Speculative Sampling NEURIPS2023
链接: https://arxiv.org/abs/2311.13581
作者: Giovanni Monea, ...
Arxiv今日(2023-11-24)最新论文
本篇博文主要展示每日从Arxiv论文网站获取的最新论文列表,每天早上11:30点定时自动更新,主要按照NLP、CV、ML、AI、IR五个大方向区分,若需要邮件定时接收,请在评论区留下你的邮箱号。
说明:每日论文数据从arxiv网站获取,每天早上11:30左右定时自动更新。
友情提示: 如何您需要邮箱接收每日论文数据,请在评论处留下你的邮箱,同样每天11:30左右邮件定时自动发送。
目录
概览
自然语言处理
机器学习
计算机视觉
信息检索
人工智能
概览 (2023-11-24)
今日共更新392篇论文,其中:
36篇自然语言处理(NLP: cs.CL)
121篇计算机视觉(CV: cs.CV)
95篇机器学习(ML: cs.LG)
28篇人工智能(AI: cs.AI)
5篇信息检索(IR: cs.IR)
其它主题107篇
自然语言处理
NLP-0-标题: PaSS: Parallel Speculative Sampling NEURIPS2023
链接: https://arxiv.org/abs/2311.13581
作者: Giovanni Monea, ...
Arxiv今日(2023-11-23)最新论文
本篇博文主要展示每日从Arxiv论文网站获取的最新论文列表,每天早上11:30点定时自动更新,主要按照NLP、CV、ML、AI、IR五个大方向区分,若需要邮件定时接收,请在评论区留下你的邮箱号。
说明:每日论文数据从arxiv网站获取,每天早上11:30左右定时自动更新。
友情提示: 如何您需要邮箱接收每日论文数据,请在评论处留下你的邮箱,同样每天11:30左右邮件定时自动发送。
目录
概览
自然语言处理
机器学习
计算机视觉
信息检索
人工智能
概览 (2023-11-23)
今日共更新392篇论文,其中:
36篇自然语言处理(NLP: cs.CL)
121篇计算机视觉(CV: cs.CV)
95篇机器学习(ML: cs.LG)
28篇人工智能(AI: cs.AI)
5篇信息检索(IR: cs.IR)
其它主题107篇
自然语言处理
NLP-0-标题: PaSS: Parallel Speculative Sampling NEURIPS2023
链接: https://arxiv.org/abs/2311.13581
作者: Giovanni Monea, ...
Arxiv今日(2023-11-22)最新论文
本篇博文主要展示每日从Arxiv论文网站获取的最新论文列表,每天早上11:30点定时自动更新,主要按照NLP、CV、ML、AI、IR五个大方向区分,若需要邮件定时接收,请在评论区留下你的邮箱号。
说明:每日论文数据从arxiv网站获取,每天早上11:30左右定时自动更新。
友情提示: 如何您需要邮箱接收每日论文数据,请在评论处留下你的邮箱,同样每天11:30左右邮件定时自动发送。
目录
概览
自然语言处理
机器学习
计算机视觉
信息检索
人工智能
概览 (2023-11-22)
今日共更新364篇论文,其中:
37篇自然语言处理(NLP: cs.CL)
110篇计算机视觉(CV: cs.CV)
80篇机器学习(ML: cs.LG)
33篇人工智能(AI: cs.AI)
3篇信息检索(IR: cs.IR)
其它主题101篇
自然语言处理
NLP-0-标题: LowResource at BLP-2023 Task 2: Leveraging Bangla Bert for Low Resource Sentiment Analysis of Bangla Langua ...
Arxiv今日(2023-11-21)最新论文
本篇博文主要展示每日从Arxiv论文网站获取的最新论文列表,每天早上11:30点定时自动更新,主要按照NLP、CV、ML、AI、IR五个大方向区分,若需要邮件定时接收,请在评论区留下你的邮箱号。
说明:每日论文数据从arxiv网站获取,每天早上11:30左右定时自动更新。
友情提示: 如何您需要邮箱接收每日论文数据,请在评论处留下你的邮箱,同样每天11:30左右邮件定时自动发送。
目录
概览
自然语言处理
机器学习
计算机视觉
信息检索
人工智能
概览 (2023-11-21)
今日共更新274篇论文,其中:
27篇自然语言处理(NLP: cs.CL)
73篇计算机视觉(CV: cs.CV)
56篇机器学习(ML: cs.LG)
9篇人工智能(AI: cs.AI)
4篇信息检索(IR: cs.IR)
其它主题105篇
自然语言处理
NLP-0-标题: Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2
链接: https://arxiv.org/abs/2311.10702
作者: Ha ...
OpenAI如何优化LLM的效果
精简版:
两个优化方向:上下文优化和 LLM优化
三种优化方法:Prompt Engineering → RAG → Fine-tuning
提示工程(Prompt Engineering) 是开始优化的最佳起点。它适合于早期的测试和学习,尤其是当与评估结合使用时,它为进一步的优化建立了基准。但提示工程并不适合于引入新信息,或者可靠地复刻一个复杂的风格或方法。
检索增强生成(RAG) 适合引入新的信息,以及通过控制内容来减少幻觉。RAG 可以认为是一种 Dynamic Prompt Engineering,或者注入额外的信息。HyDE 在某些应用中能提升效果,值得了解下。使用 Ragas 度量标准对 RAG 进行性能评估。
模型精调(Fine-tuning) 可以改进模型性能,降低指令的复杂度。但它不适合给模型添加新知识。
这三种优化方法不是互斥的,可以联合使用,多次迭代直至最优。
优化的两个方向
分享讲述了 LLM 优化时需要考虑的两个方向:上下文优化(Context Optimization) 和 LLM优化。
上下文优化: 模型需要知道什么信息才能 ...
How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition
SFT是目前最常见的调节模型效果的手段,然而它虽然看起来简单(准备好数据->启动),真正优化起效果来却困难重重,尤其是当我们有一堆能力项要优化时(推理能力、闲聊能力等),事情往往不会像我们预想的那样发展,单独调节能力和混合调节能力完全是两个难度。
论文地址: https://arxiv.org/pdf/2310.05492.pdf
数据(数学推理,翻译,代码,通用能力等),来解锁大模型多样化的能力。然而由于不同能力项的数据的来源、领域、分布,以及数据规模的不同,这些因素都将对模型性能产生剧烈的影响。因此,SFT的数据组成问题旨在探究模型能力与各种能力项数据之间的关系,包括不同能力项的数据量、数据配比、模型参数量和微调训练策略等,这对未来全面提升大模型的奠定了坚实的基础。
本文聚焦于SFT阶段的数学推理能力,代码生成能力,以及通用指令遵循能力,这三个能力的数据集及评测指标的介绍如下:
• GSM8K RFT [1] 是一个增强的数学推理数据集,它基于GSM8K数据集[4]并结合RFT策略整合了多条推理路径。训练集中包含7.5K个问题和110K个回答,我们所有实验数学的评测指标为G ...