闲记算法

发表于2022-08-06|开发算法部署|机器学习•部署•多并发•uWSGI•Flask•负载测试•Python•RPS•多线程•多进程

有一段时间，我一直专注于机器学习的研究工作，为不同的任务开发定制的机器学习解决方案。但是最近，新项目接踵而至，有时自己完成初始部署比寻求其他开发人员的帮助更快。我找到了几种部署方案，它们在规模、易用性、价格等方面各有不同。今天，我们将讨论一种简单而强大的机器学习模型部署方法。它允许我们同时处理多个请求并在需要时扩展应用程序。我们还将讨论数据科学家在将机器学习模型投入生产时的职责，以及如何使用一些方便的 Python 工具对 Web 应用程序进行负载测试。 1、数据科学家的职责你几乎可以为每项任务找到大量开源解决方案。一些现有服务甚至可以处理数据验证和处理、数据存储、模型训练和评估、模型推理和监控等。但是，如果你仍然需要定制解决方案怎么办？你必须自己开发整个基础架构。这就是我一直在思考的问题：数据科学家到底负责什么？它只是模型本身，还是我们必须将其投入生产？通常，数据科学家的职责因公司而异。我和我的首席技术官讨论了这个问题。我们讨论了数据科学家应该具备专业知识的一些案例。他们应该能够将他们的解决方案作为 API 交付，将其容器化，并且理想情况下，开发解决方案以 ...

GAIIC2022商品标题识别二等奖获奖解决思路

发表于2022-07-12|比赛命名实体识别|Dropout•Gaiic•命名实体提取•竞赛•自然语言处理•Ddrop•对抗训练

简介本方案由大华DahuaKG团队提供，在本次竞赛中本方案获二等奖。DahuaKG团队由来自浙江大华技术股份有限公司大数据研究院知识图谱团队的成员组成，大华知识图谱团队专注于行业知识图谱构建和自然语言处理等技术的研究与应用，并致力于相关技术在语义检索、信息提取、文本理解、图挖掘、智能交互等任务上完成产业落地，为大华数据智能解决方案提供NLP和知识图谱相关领域的算法支撑。整体上，我们基于预训练语言模型NeZha构建商品标题实体识别模型，通过继续预训练加微调的训练范式学习模型参数，并有效结合数据增强、损失函数优化、对抗训练等手段逐步提升模型性能。该方案简单有效，复现流程不超过36小时，线上推断1万条样本仅需254秒（NVIDIA T4，单卡）。赛题介绍赛题链接：https://www.heywhale.com/home/competition/620b34ed28270b0017b823ad 本赛题要求选手用模型抽取出商品标题文本中的关键信息，是典型的命名实体识别任务。要求准确抽取商品标题中的相关实体，有助于提升检索、推荐等业务场景下的用户体验和平台效率，是电商平台一项核心的基础任 ...

英文学术论文撰写投稿技巧

发表于2022-05-12|学术会议论文技巧|论文•英文•写作技巧•投稿技巧

很多初学者同学在投稿的时候经常会出现一些共有的小错误，为了节省大家的时间和帮助大家能够尽快的定位一些小的问题。本项目总结了我们在自己投稿过程中的经验和一些身边老师同学的投稿经验，希望能对大家有所帮助，由于我们的水平有限，如有疏漏，还望谅解。谢谢大家。本项目的特色：写前必看：包含一些常见的错误，每个错误均配有例子，可以在动手写论文之前快速浏览。终稿必查：包含一些例子，方便快速定位是否自己的论文有错误。百家之言：整理了一些网络上公开的写作资源（并不完全，欢迎补充），方便大家系统学习。免责声明本项目列举的所有技巧仅供参考，并不保证正确。本文主要关注于顶会论文，论文写作以实际需求为准。熟悉写作技巧可能会使写作没有明显的失误，而优秀的论文需要不断打磨。所有内容仅仅来自于笔者的个人经验、互联网数据、笔者团队日常科研工作中的相关积累，以及笔者团队身边各位大佬的言传身教。有任何问题，欢迎提交 Issue 或 PR。另本项目所用徽章来自互联网，如侵犯了您的图片版权请联系我们删除，谢谢。解释下文中，标注"Attention"的内容，是目前组织者认为有（较为）明 ...

Language Models are Few-Shot Learners

发表于2021-11-18|深度学习自然语言处理大型语言模型|NLP•预训练•深度学习•语言模型•Few-Shot•GPT

最近的工作表明，通过对大量文本进行预训练，然后对特定任务进行微调，在许多NLP任务和基准方面取得了实质性进展。虽然这种方法在体系结构中通常是任务无关的，但它仍然需要数千或上万个示例的特定于任务的微调数据集。相比之下，人类通常只能通过几个例子或简单的指令来执行一项新的语言任务，而当前的NLP系统在很大程度上仍难以做到这一点。在这里，论文展示了扩展语言模型可以极大地提高任务无关性、few-shot性能，有时甚至可以与以前最先进的微调方法相媲美。具体而言，论文训练了GPT-3，这是一个具有1750亿个参数的自回归语言模型，比以往任何非稀疏语言模型都多10倍，并在few-shot设置下测试了其性能。所有任务应用GPT-3模型时均不进行任何梯度更新或微调，而只是通过与模型的文本交互指定任务和少样本学习演示。GPT-3在许多NLP数据集上都取得了很好的性能，包括机器翻译、问答和完形填空任务，以及一些需要即时推理或领域适应的任务，例如解读单词、在句子中使用新单词或执行3位数算术。同时，论文还确定了一些GPT-3的zero-shot学习仍然困难的数据集，以及一些GPT-3面临与大型网络语料库培训相关的 ...

使用Anaconda管理Python环境

发表于2021-10-30|开发常用命令|Python•Conda•Anaconda

conda 最大的优势在于可以解决依赖，非常省心。例如，当你想安装支持 GPU 版本的 TensorFlow 时，一般需要先安装 TensorFlow，再安装 cuda 框架，最好安装 cudnn 神经网络加速工具。而使用 Conda 安装时，只需要 conda install tensorflow，一切自动搞定。下面主要记录开发过程中涉及的命令：常用命令查看安装了哪些包 1conda list 查看当前存在哪些虚拟环境 123conda env list conda info -e# 前面有个‘*’的代表当前环境检查更新当前conda 1conda update conda Python创建虚拟环境 conda create -n your_env_name python=x.x anaconda命令创建python版本为x.x，名字为your_env_name的虚拟环境。your_env_name文件可以在Anaconda安装目录envs文件下找到。 12#conda create -n your_env_name python=x.xconda create -n ml ...

(转)美团基于知识图谱的剧本杀标准化建设与应用

发表于2021-10-28|知识图谱行业应用|知识图谱

剧本杀作为爆发式增长的新兴业务，在商家上单、用户选购、供需匹配等方面存在不足，供给标准化能为用户、商家、平台三方创造价值，助力业务增长。本文介绍了美团到店综合业务数据团队从0到1快速建设剧本杀供给标准化的过程及算法方案。我们将美团到店综合知识图谱（GENE，GEneral NEeds net）覆盖至剧本杀行业，构建剧本杀知识图谱实现供给标准化建设，包括剧本杀供给挖掘、标准剧本库构建、供给与标准剧本关联等环节，并在多个场景进行应用落地，希望给大家带来一些帮助或启发。背景剧本杀行业近年来呈爆发式增长态势，然而由于剧本杀是新兴行业，平台已有的类目体系和产品形态，越来越难以满足飞速增长的用户和商户需求，主要表现在下面三个方面：平台类目缺失：平台缺少专门的“剧本杀”类目，中心化流量入口的缺失，导致用户决策路径混乱，难以建立统一的用户认知。用户决策效率低：剧本杀的核心是剧本，由于缺乏标准的剧本库，也未建立标准剧本和供给的关联关系，导致剧本信息展示和供给管理的规范化程度低，影响了用户对剧本选择决策的效率。商品上架繁琐：商品信息需要商户人工一一录入，没有可用的标准模板用以信息预填，导致商户 ...

Revisiting Self-Training for Few-Shot Learning of Language Model

发表于2021-10-07|深度学习自然语言处理预训练语言模型|NLP•Prompt•Few-Shot•Self-Training•Semi-Supervised•预训练语言模型•SFLM•Hard-Prompt•EMNLP2021

本篇博文我们主要关注prompt模式在半监督学习场景下的应用，特别是针对少量标注和无标注数据。在实际应用环境中，获得高质量的标注数据是比较耗时和昂贵的，往往都是小部分标注数据和大量的无标注数据，半监督学习（Semi-supervised learning，SSL）是一种学习方法，其使用少量标注的数据和大量未标注的数据进行学习，从而得到一个高质量模型。之前prompt应用大部分都是在few-shot下的有监督训练，如LM-BFF，或者结合大量无标注数据下半监督训练，如PET。本文作者提出一种名为SFLM的方法，通过对没有标注的样本（prompt结构）进行弱增强和强增强，首先对弱增强产生的数据通过模型产生伪标签，当模型的预测得分高于一定的阈值时，伪标签作为该样本标签，并与强增强数据模型预测结果进行计算损失。实验结果表明，只依赖于少数领域内的未标注的数据情况下，SFLM在6个句子分类和6个句子对分类基准任务上达到了最好的效果。论文地址: https://arxiv.org/pdf/2110.01256.pdf 论文源码地址: https://github.com/MatthewCYM/ ...

Learning to Prompt for Vision-Language Models

发表于2021-09-21|深度学习多模态算法|NLP•预训练•CV•多模态•Prompt•计算机视觉•Soft-Prompt•CLIP

本篇博文我们主要关注prompt在视觉语言模型中的一个应用。我们知道一个好的prompt需要专业的领域知识以及大量实验进行优化，并且prompt的轻微变化可能会对性能产生巨大的影响。因此在实际应用时主要的挑战是如何对不同的下游任务构建特定的prompt。本文作者提出了一种context optimization（CoOP）的方法，通过构造soft prompt方式，即prompt参数化可学习，结合离散标签使用continuous representation建模上下文，并在保持预训练学习的参数固定的同时从数据中进行端到端学习优化，让网络学习更好的prompt。这样，与任务相关的prompt设计就可以完全自动化了。实验结果表明，CoOP在11个数据集上有效地将预训练的视觉语言模型转化为数据高效的视觉任务学习模型，只需少量样本微调就能击败手工设计的提示符，并且在使用更多样本微调时能够获得显著的性能提升。论文地址: https://arxiv.org/abs/2109.01134 论文源码地址: https://github.com/KaiyangZhou/CoOp 方法对于预训练 ...

(转)格局打开，带你解锁 prompt 的花式用法

发表于2021-09-20|深度学习自然语言处理预训练语言模型|NLP•Prompt•预训练语言模型

今天我想要分享的是在工业实践中使用 prompt 的一些实践和心得体会。话不多说，我们直接开始。初次关注到 prompt 是在去年GPT-3发布之后，我读到了一篇论文，It’ s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners ，了解我的小伙伴都会知道，虽然我是一个预训练语言模型的使用者，甚至生产者，但对于超大规模的语言模型，我一直持相对否定的态度，所以这篇文章的标题就相当吸引我，并且读下来之后，隐隐感觉，将文本理解任务转换为预训练的任务形式，再使用预训练语言模型，去做这个任务，这个思路简直太无懈可击了！利用它，我们可以更轻松地完成很多工作，又不必去面对例如样本类别均衡之类的数据分布上的困扰。但当时却没有勇气直接应用起来。到了今年，prompt 成为了一个相当火热的方向，在那篇 prompt 综述[1]出来了之后，我们知道，prompt 已经成气候了，它已经被很多工作验证是有用的了，也终于下定了决心，在我们的项目中尝试使用它，并看一下它到底有多么神奇。用过之后，不得不说，真香 ...

(转)美团商品知识图谱的构建及应用

发表于2021-07-31|知识图谱行业应用|知识图谱

在互联网新零售的大背景下，商品知识图谱作为新零售行业数字化的基石，提供了对于商品相关内容的立体化、智能化、常识化的理解，对上层业务的落地起到了至关重要的作用。相比于美团大脑中围绕商户的知识图谱而言，在新零售背景下的商品知识图谱需要应对更加分散、复杂的数据和业务场景，而这些不同的业务对于底层知识图谱都提出了各自不同的需求和挑战。美团作为互联网行业中新零售的新势力，业务上已覆盖了包括外卖、商超、生鲜、药品等在内的多个新零售领域，技术上在相关的知识图谱方面进行了深入探索。本文将对美团新零售背景下零售商品知识图谱的构建和应用进行介绍。背景近年来，人工智能正在快速地改变人们的生活，背后其实有两大技术驱动力：深度学习和知识图谱。我们将深度学习归纳为隐性的模型，它通常是面向某一个具体任务，比如说下围棋、识别猫、人脸识别、语音识别等等。通常而言，在很多任务上它能够取得很优秀的结果，同时它也有一些局限性，比如说它需要海量的训练数据，以及强大的计算能力，难以进行跨任务的迁移，并且不具有较好的可解释性。在另一方面，知识图谱作为显示模型，同样也是人工智能的一大技术驱动力，它能够广泛地适用于不同的任务。相比 ...