Arxiv今日论文 | 2024-10-22
本篇博文主要展示 2024-10-22 从Arxiv.org论文网站获取的最新论文列表,自动更新,按照NLP、CV、ML、AI、IR五个大方向区分,若需要邮件定时接收,请在评论区留下你的邮箱号。
说明:每日论文数据从Arxiv.org获取,每天早上11:00左右定时自动更新。
友情提示: 如何您需要邮箱接收每日论文数据,请在评论处留下你的邮箱。
目录
概览
自然语言处理
人工智能
机器学习
计算机视觉
信息检索
概览 (2024-10-22)
今日共更新956篇论文,其中:
自然语言处理共200篇(Computation and Language (cs.CL))
人工智能共306篇(Artificial Intelligence (cs.AI))
计算机视觉共204篇(Computer Vision and Pattern Recognition (cs.CV))
机器学习共329篇(Machine Learning (cs.LG))
自然语言处理
[NLP-0] xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to ...
26条Prompt参考
论文介绍了26条指导原则,目标是简化为不同规模的大语言模型制定问题的概念,检验它们的能力,并增强用户对于不同规模的模型在接受不同提示时的行为理解。研究者在LLaMA-1/2(7B、13B和70B)和GPT-3.5/4上进行了广泛实验,以验证这些原则在指令和提示设计上的有效性。
论文中指出:大语言模型如ChatGPT在多个领域和任务中展现出卓越的能力,但在普通用户设计最优指令或提示时,它们的应用和使用有时可能并不清晰。而他们的工作是为开发人员或普通用户揭示与LLMs询问和交互时时“神秘的黑盒”,并通过简单地策划更好的提示来进一步提高预训练LLMs的响应质量。研究团队提出了26条用于LLM提示的原则,接下来让我们一起来看看吧~
论文地址:https://arxiv.org/pdf/2312.16171.pdf
26条原则
不需要对LLM客气,因此无需使用诸如"请",“如果您不介意”,“谢谢您”,"我想要"等短语,直接切入主题。
在提示中融入预期的受众群体,例如,假设受众是该领域的专家。
将复杂的任务拆分为一系列简单的提示,在交互式对话中逐步进行 ...
使用LoRA(低秩自适应)微调LLM的实用技巧
增加数据量和模型的参数量是公认的提升神经网络性能最直接的方法。目前主流的大模型的参数量已扩展至千亿级别,「大模型」越来越大的趋势还将愈演愈烈。
这种趋势带来了多方面的算力挑战。想要微调参数量达千亿级别的大语言模型,不仅训练时间长,还需占用大量高性能的内存资源。
为了让大模型微调的成本「打下来」,微软的研究人员开发了低秩自适应(LoRA)技术。LoRA 的精妙之处在于,它相当于在原有大模型的基础上增加了一个可拆卸的插件,模型主体保持不变。LoRA 随插随用,轻巧方便。
对于高效微调出一个定制版的大语言模型来说,LoRA 是最为广泛运用的方法之一,同时也是最有效的方法之一。
如果你对开源 LLM 感兴趣,LoRA 是值得学习的基本技术,不容错过。
上个月,我分享了一篇有关 LoRA 实验的文章,主要基于我和同事在 Lightning AI 共同维护的开源 Lit-GPT 库,讨论了我从实验中得出的主要经验和教训。此外,我还将解答一些与 LoRA 技术相关的常见问题。如果你对于微调定制化的大语言模型感兴趣,我希望这些见解能够帮助你快速起步。
简而言之,我在这篇文章中讨论的主要要点包含:
虽 ...
大语言模型应用架构
本文将介绍构建您首个大语言模型应用所需了解的一切,以及您今天就能开始探索的潜在问题领域。
我们旨在帮助您实验大语言模型 (Large Language Model),打造个人应用程序,并挖掘未被充分利用的问题空间。因此,我们特邀了 GitHub 的资深机器学习研究员 Alireza Goudarzi 和首席机器学习工程师 Albert Ziegler,共同探讨当前大语言模型应用的最新架构。
本文将深入讲解如何构建您个人的大语言模型应用的五个关键步骤,当前大语言模型应用的新兴架构,以及您可以立即开始探索的问题领域。
构建大语言模型应用的五个关键步骤
在使用大语言模型(LLM)或任何机器学习(ML)模型构建软件时,与传统软件开发有本质的不同。开发者不再仅仅是将源代码编译成二进制来运行命令,而是需要深入理解数据集、嵌入和参数权重,以产生一致且准确的输出。重要的是要认识到,LLM 的输出结果是基于概率的,并不像传统编程那样可预测。
现在,让我们梳理一下今天构建大语言模型应用程序的主要步骤:👇
1. 首先,专注解决一个问题。关键在于找到一个适中的问题:它需要足够具体,让你能快速迭代并取得进展 ...
OpenAI如何优化LLM的效果
精简版:
两个优化方向:上下文优化和 LLM优化
三种优化方法:Prompt Engineering → RAG → Fine-tuning
提示工程(Prompt Engineering) 是开始优化的最佳起点。它适合于早期的测试和学习,尤其是当与评估结合使用时,它为进一步的优化建立了基准。但提示工程并不适合于引入新信息,或者可靠地复刻一个复杂的风格或方法。
检索增强生成(RAG) 适合引入新的信息,以及通过控制内容来减少幻觉。RAG 可以认为是一种 Dynamic Prompt Engineering,或者注入额外的信息。HyDE 在某些应用中能提升效果,值得了解下。使用 Ragas 度量标准对 RAG 进行性能评估。
模型精调(Fine-tuning) 可以改进模型性能,降低指令的复杂度。但它不适合给模型添加新知识。
这三种优化方法不是互斥的,可以联合使用,多次迭代直至最优。
优化的两个方向
分享讲述了 LLM 优化时需要考虑的两个方向:上下文优化(Context Optimization) 和 LLM优化。
上下文优化: 模型需要知道什么信息才能 ...
How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition
SFT是目前最常见的调节模型效果的手段,然而它虽然看起来简单(准备好数据->启动),真正优化起效果来却困难重重,尤其是当我们有一堆能力项要优化时(推理能力、闲聊能力等),事情往往不会像我们预想的那样发展,单独调节能力和混合调节能力完全是两个难度。
论文地址: https://arxiv.org/pdf/2310.05492.pdf
数据(数学推理,翻译,代码,通用能力等),来解锁大模型多样化的能力。然而由于不同能力项的数据的来源、领域、分布,以及数据规模的不同,这些因素都将对模型性能产生剧烈的影响。因此,SFT的数据组成问题旨在探究模型能力与各种能力项数据之间的关系,包括不同能力项的数据量、数据配比、模型参数量和微调训练策略等,这对未来全面提升大模型的奠定了坚实的基础。
本文聚焦于SFT阶段的数学推理能力,代码生成能力,以及通用指令遵循能力,这三个能力的数据集及评测指标的介绍如下:
• GSM8K RFT [1] 是一个增强的数学推理数据集,它基于GSM8K数据集[4]并结合RFT策略整合了多条推理路径。训练集中包含7.5K个问题和110K个回答,我们所有实验数学的评测指标为G ...
实用的Prompts列表
本博文将记录从互联网收集的Prompts,主要是用于学习目的,感谢相关大佬的贡献。
note
可以试试把你的要求告诉GPT 插件 Prompt Perfect,让它帮你生成个prompt, 或者直接让gpt 按照你的要求生成。
如何让GPT-4帮你写prompt,可以参考该篇博文
GitHub 上有两个项目收集了超级多被破解的 GPTs Prompt: GPTs 和 chatgpt_system_prompt
翻译Prompt
12345678910111213141516171819202122232425262728293031323334353637383940414243444546你是一位精通简体中文的专业翻译,尤其擅长将专业学术论文翻译成浅显易懂的科普文章。请你帮我将以下英文段落翻译成中文,风格与中文科普读物相似。规则:- 翻译时要准确传达原文的事实和背景。- 即使上意译也要保留原始段落格式,以及保留术语,例如 FLAC,JPEG 等。保留公司缩写,例如 Microsoft, Amazon, OpenAI 等。- 人名不翻译- 同时要保留引用的论文,例如 [20] ...
微调语言大模型选LoRA还是全参数?基于LLaMA 2深度分析
本文对比了全参数微调和LoRA,并分析了这两种技术各自的优势和劣势。作者使用了三个真实用例来训练LLaMA 2模型,这提供了比较特定任务的性能、硬件要求和训练成本的基准。本文证明了使用LoRA需要在serving效率和模型质量之间做出权衡,而这取决于具体的任务。
此外,本文还提供了关于如何通过智能提示技术来稳定LoRA训练的深入见解,并进一步验证了采用较低的学习率可以增强最终模型检查点的可靠性。实验是基于经LoRA调整的脚本版本进行的。
最近几个月,开源语言大模型(LLM)之间展开了与OpenAI专有模型的竞争。提升开源LLM性能的一种常用策略是全参数微调,这种方法对模型的所有参数进行了优化。在之前的博客文章中,我们分析了这种全参数微调与GPT-4的提示工程和少样本提示的比较效果。
正如你所料,全参数微调是一项资源密集型任务,需要强大的计算能力来管理优化器状态和检查点。一些上下文信息:通常情况下,优化器状态和梯度所占的内存空间约为模型本身的12倍。即便是拥有70亿参数的最小LLaMA-2模型,也需要大量计算资源来进行微调。因此,该领域出现了所谓的"参数高效微调(也被称为pef ...
Fuyu-8B:A Multimodal Architecture for AI Agents
Transformer一作Ashish Vaswani所在的AI公司Adept,发布了Fuyu-8B,这是一个多模态模型的小版本,为其产品赋能。Fuyu-8B的特点包括:
(1)具有比其他多模态模型更简单的架构和训练程序;
(2)从头开始为数字助手设计,支持任意图像分辨率,能够回答关于图表和图形的问题,并在屏幕图像上进行精细的定位;
(3)响应速度快,对于大图像的响应时间不到100毫秒;
(4) 尽管针对特定用例进行了优化,但在标准的图像理解基准测试中表现良好。
方法
模型架构: Adept致力于为知识工作者构建一个普遍智能的助手。为了实现这一目标,模型需要能够理解用户的上下文并代表用户采取行动。Fuyu的架构是一个普通的Decoder-only变压器,没有图像编码器。图像块直接线性投影到变压器的第一层。
从Huggingface中可以看到如下:
1234567....... self.vision_embed_tokens = nn.Linear( config.patch_size * config.patch_size * config.num_ch ...
ar5iv
用latexml转换arXiv.org论文(Latex源码)显示为HTML5,然后在借助沉浸式翻译,效率提高很多。强烈推荐!
Github地址: github.com/dginev/ar5iv
Converted from TeX with LaTeXML.
Sources upto the end of November 2023. Not a live preview service.
For articles with multiple revisions, only a single version is made available.
When in doubt, always use the main arXiv.org article page.
Goal: incremental improvement until worthy of native arXiv adoption.
Sample: A Simple Proof of the Quadratic Formula (1910.06709)
View any arXiv article UR ...