高质量中文预训练模型集合
Arxiv今日(2023-09-26)最新论文
Colossal-LLaMA-2:千元预算半天训练,效果媲美主流大模型,开源可商用中文LLaMA-2
Arxiv今日(2023-09-22)最新论文
Arxiv今日(2023-09-21)最新论文
Arxiv今日(2023-09-20)最新论文
Arxiv今日(2023-09-19)最新论文
Arxiv今日(2023-09-18)最新论文
Arxiv今日(2023-09-15)最新论文
如何更有效的利用召回的文档
提升LLM的两种方式对比:RAG vs Finetuning
如何工程化落地LLM:五类模式加速 AI 应用开发
Claude 教你写 AI 提示词,可能是最专业的 AI 工程师写的提示工程教程
大语言模型在1688电商场景的算法实践
基于大语言模型的AI Agents—Part 1
LLM推理加速
GPT最佳实践 - 提升Prompt效果的六个策略
ChatGPT提示快速指南
为什么现在大家都在用 MQA 和 GQA?
构建高性能Prompt之路——结构化Prompt
问答系统使用 Embedding 召回的局限及解决方案
在单个GPU上基于QLoRA微调LLaMA2模型
Instruction Tuning 阶段性总结
比LLM更重要的多模态学习
大语言模型100K上下文窗口的秘诀
LLM应用开发的架构参考
开源大模型扩充中文词表
大模型知识&推理评估基准
深度学习调参指南中文版
训个LLM:开源LLM Tokenizer比较
A Survey of Large Language Models
大语言模型的涌现能力:现象与解释
Prompts技巧工程完全指南
从HuggingFace仓库中批量下载模型和数据
在一张 24 GB 的消费级显卡上用 RLHF 微调 20B LLMs
大语言模型BLOOM推理工具测试
BLOOM 训练背后的技术
Zero-Shot Information Extraction via Chatting with ChatGPT
ChatGPT 调研报告
Inverse scaling can become U-shaped
avatar
lonePatient
一个致力于记录技术的博客
Follow Me
公告
记录和分享一些学习和开源内容,若有任何问题可通过留言板或者微信公众号给我留言,谢谢!