2022年3月14日
分享嘉宾:闵薇@eBay 编辑整理:郭磊 出品平台:DataFunTalk 导读: 随着eBay全球支付管理系统的推广,为其保驾护航的支付风控体系在保护用户资金安全,防止盗卡盗号,减少平台损失方面起着至关重要的作用。而传统的算法不足以解决具有关联信息的图网络数据,依赖于GNNs的发展,使……
阅读全文
2022年3月14日
分享嘉宾:李雅亮博士 阿里巴巴 编辑整理:陈东 东南大学 出品平台:DataFunTalk 导读: 本次分享的主题为大规模预训练模型的压缩和蒸馏,主要是从自动机器学习的角度,介绍大规模预训练模型的压缩和蒸馏。将介绍阿里巴巴达摩院关于模型压缩的三个连续承接性的工作: 工作1:AdaBERT:Ta……
阅读全文
2022年3月14日
百度安全策略团队 稿 导读:互联网黑产不断发展壮大,作弊模式逐渐变得规模化、产业化,团伙作弊行为日益猖獗。为了进一步提升百度账号的安全和用户体验,维护公司核心利益,百度账号安全策略团队结合自身在账号安全领域的优势,构建了可以处理海量数据、具备丰富扩展性的关联图谱黑产团伙挖掘能力,充分……
阅读全文
2022年3月14日
以下文章来源于大数据技术与数仓 ,作者西贝 本文会从一个商务分析案例入手,说明SQL窗口函数的使用方式。通过本文的5个需求分析,可以看出SQL窗口函数的功能十分强大,不仅能够使我们编写的SQL逻辑更加清晰,而且在某种程度上可以简化需求开发。 数据准备 本文主要分析只涉及一张订单表orde……
阅读全文
2022年3月14日
分享嘉宾:付海涛 京东 技术专家 编辑整理:苏文进 怪兽充电 出品平台:DataFunTalk 导读: Flink是目前流式处理领域的热门引擎,在实时数仓、实时风控、实时推荐等多个场景有着广泛的应用。京东于2018年开始基于Flink+k8s深入打造高性能、稳定、可靠、易用的实时计算平台,支撑……
阅读全文
2022年3月14日
作者:Kawin Ethayarajh 编译:ronghuaiyang 原文: 英文原文: https://kawine.github.io/blog/nlp/2020/02/03/contextual.html 导读: 具有上下文信息的词表示到底有多大程度的上下文化?这里给出了定量的分析。 将上下文信息放到词嵌入中 — 就像BERT,ELMo和GPT-2 — 已经证明了是NLP的一个分水岭的想法了。使用具有上下文信息的词表示来替换静态……
阅读全文
2022年3月14日
文末彩蛋:七月在线干货组最新升级的《2021大厂最新AI面试题 [含答案和解析, 更新到前121题]》免费送! \ 1、讲一下改进的tf-idf TF-IDF中的IDF是一种试图抑制噪声的加权,单纯的以为文本频率小的单词就越重要,文本频率越大的单词就越无用,这一方式会在同类语料库中存在巨大……
阅读全文
2022年3月14日
本文根据阿里云技术专家郭泽晖在中国HBase技术社区第3届MeetUp杭州站中分享的《云上HBase冷热分离实践》编辑整理而成。 今天分享的内容分为两个方面,首先会介绍下冷数据的经典场景,以及如果使用开源的HBase应该如何实现,最后介绍下HBase在云端的实现方案。 冷数据定义就是……
阅读全文
2022年3月14日
来源:爱奇艺技术产品团队 为弥补目前社区在生产环境可用的支持 GBDT 模型、GBDT+FM 二分类模型及 GBDT+FM 多分类模型 部署的推理系统的空白,爱奇艺设计开发了灵活、高性能的 XGBoost Serving 推理系统,并在内部多个业务落地使用。近期,爱奇艺决定将这一系统 开源,本文将详细介绍项目 开发背景、系统实践、系统特性和架构……
阅读全文
2022年3月14日
导读: 大型广告系统工程方面的主要挑战就是海量数据,快速响应,数据实时和高可用度的要求。本次分享介绍了阿里创新事业群智能营销平台在如何构建高性能、高可用、高效率,低成本的广告系统架构方面所做的诸多工作及实践经验。主要包括: ❶ 智能营销平台的业务 ❷ 投放引擎的概念以及在广告平台所处的位置……
阅读全文