2022年3月15日
作者:李露,西北工业大学 据不完全统计,网民们平均每人每周收到的垃圾邮件高达10封左右。垃圾邮件浪费网络资源的同时,还消耗了我们大量的时间。大家对此深恶痛绝,于是识别垃圾邮件并对其进行过滤成为各邮件服务商的重要工作之一。 垃圾邮件识别问题本质上是一个文本分类问题,给定文档p(可能含有……
阅读全文
2022年3月15日
1 背景 作业帮大数据团队主要负责建设公司级数仓,向公司各个重要产品线(拉新、教学、BI等)提供面向业务的数据信息,如到课时长、答题情况等。在过去半年多时间内,我们基于Apache Doris,构建了数仓实时查询系统。本文总结并分享下期间的工作内容,也欢迎大家一起讨论。 典型的数仓从逻辑……
阅读全文
2022年3月15日
分享嘉宾:蒋能学 网易云音乐 编辑整理:桑小晰 深交所 出品平台:DataFunTalk 导读: 本次分享的主题为网易云音乐广告算法实践,内容围绕以下五个部分: 网易云音乐广告系统简介 广告点击率预估模型 广告转化率预估模型 用户向量建模与应用 总结与建议 01 网易云音乐广告系统简介 1. 网易云音乐广告特点 M……
阅读全文
2022年3月15日
作者:__ 编译:ronghuaiyang 导读: 非常简单直白的语言解释了BERT中的嵌入层的组成以及实现的方式。 介绍 在本文中,我将解释BERT中嵌入层的实现细节,即 token 嵌入、Segment 嵌入和 Position 嵌入。 简介 这是一张来自论文的图,它恰当地描述了 BERT 中每一个嵌入层的功能: 与大多数旨在解决 nlp……
阅读全文
2022年3月15日
公众号 欢迎关注:CS的陋室 搜索做了很多年,但是在各种技术革新下也还总有东西做,总有提升点,虽然现在媒体炒的少了,但是至今仍然各种公司仍花费大力气来做这个搜索。这次和大家介绍的东西,来自于美团技术团队分享的一篇文章,这篇文章讨论了搜索的理解和召回,有意思的是他还对整个他们的现状分析……
阅读全文
2022年3月15日
作者:Edwin Chen 编译:ronghuaiyang 导读 导读 用CTR来评估推荐算法是一个非常常用的度量,但并非是最好的度量。 假设你正在为一个新在线网站构建一个推荐算法。你如何衡量它的质量,以确保它发送给用户相关和个性化的内容?刚开始的时候,你希望点击率可以进行衡量,但经过一番思考,它……
阅读全文
2022年3月15日
文章作者:阿里B2B算法团队 内容来源:牛技 出品平台:DataFun 背景 以电商场景优化用户点击为例,推荐系统的任务是从海量的候选商品中选出用户最感兴趣且最可能点击的商品。为了提升检索的效率,通常分为两阶段来检索。召回/候选生成(Matching/Candidate Generatio……
阅读全文
2022年3月15日
1、诊断Spark程序内存的消耗 A、 Spark程序 中 内存 都花费在哪里? Ø每个Java对象,都有一个对象头,会占用16个字节,主要是包括了一些对象的元信息,比如指向它的类的指针。如果一个对象本身很小,比如就包括了一个int类型的field,那么它的对象头实际上占用的内存比对象自己还……
阅读全文
2022年3月15日
分享嘉宾:朱彦樵 中国科学院自动化研究所 编辑整理:吴祺尧 加州大学圣地亚哥分校 出品平台:DataFunSummit 导读: 本文跟大家分享下图自监督学习中最近比较热门的研究方向:图对比学习,在近期的进展以及组内在此方向上最近的一些工作。主要内容包括:① 图对比学习的基础知识介绍与方法梳理;……
阅读全文
2022年3月15日
作者:Robbe Sneyders 编译:ronghuaiyang 给大家介绍一下如何在生产中部署基于嵌入的机器学习模型。 由于最近大量的研究,机器学习模型的性能在过去几年里有了显著的提高。虽然这些改进的模型开辟了新的可能性,但是它们只有在可以部署到生产应用中时才开始提供真正的价值。这是机器学习社区目……
阅读全文