2022年3月15日
导读:本篇文章是[ 2021年网易云音乐实时计算平台发展和挑战]的姊妹篇,由网易云音乐数据平台开发专家大愚分享,为大家介绍云音乐实时数仓技术改造以及未来的一些规划。 云音乐从2018年开始搭建实时计算平台,经过两年的发展实时计算已经渗透到云音乐的各个业务当中: 运营需要实时的统计报表做……
阅读全文
2022年3月15日
分享嘉宾:王瑞欣 知乎 算法工程师 编辑整理:郭真继 出品平台:DataFunTalk 导读: 搜索,是用户获取信息,找答案最方便快捷的方式。一次用户搜索会经历 Query 解析、召回、排序多个环节,排序作为最后整个过程一环,对用户的体验有最直接的影响。今天分享的内容是知乎搜索排序模型的演进。 主要内容包……
阅读全文
2022年3月15日
分享嘉宾:刘吉博士 百度 资深研究员 编辑整理:Hoh Xil 出品平台:DataFunTalk 导读: 本文由百度资深研究员刘吉博士分享,主题为百度数据联邦平台及其应用研究。主要内容包括:① 数据联邦平台的架构;② 基于数据联邦平台的应用研究;③ 联邦学习;④ 可解释性。 01 数据联邦平台的架构 1. 问题描述 在……
阅读全文
2022年3月15日
分享嘉宾:苏嘉博士 华为云 编辑整理:熊丹妮 武汉天喻信息 出品平台:DataFunTalk 导读: 随着人工智能技术特别是深度学习的普及,医疗行业也迎来一波革命的热潮,本文将讨论如何利用AI技术将领域知识融入到医疗推理任务当中,为AI+医疗提供一种行之有效的解决方案。主要内容包括: 智慧医疗……
阅读全文
2022年3月15日
作者 | 闲鱼技术 - 雨成 文章来源 | 闲鱼技术团队 1.现状 闲鱼作为一款闲置交易APP,在二手交易市场中是当之无愧的佼佼者。闲鱼从2014年诞生到现在七整年间持续增长,在这高速增长的背后带来的是每天近百亿的曝光点击浏览等数据,在这些数据规模如此庞大的背后也会带来诸多关于实时性的问题: 用户反……
阅读全文
2022年3月15日
文章作者:张俊林 新浪微博 AI Lab 资深算法专家 内容来源:深度学习前沿笔记@知乎专栏 出品社区:DataFun 这两天,XLNet 貌似也引起了 NLP 圈的极大关注,从实验数据看,在某些场景下,确实 XLNet 相对 Bert 有很大幅度的提升。就像我们之前说的,感觉 Bert 打开两阶段模式的魔法盒开关后,在这条路上,会有越来越……
阅读全文
2022年3月15日
2018-12-10 1. 引言 自然语言理解(natural language understanding,NLU)是人工智能的核心难题之一,同时也是文本和语音搜索的核心。本文主要阐述了NLU在贝壳找房中的探索和实践,以及如何为贝壳的搜索场景赋能。在文章开始之前我们先来道一道NLU在贝壳房源搜索中的任务和实现难点。 贝壳房……
阅读全文
2022年3月15日
一、背景 对于互联网应用和企业大型应用而言,多数都尽可能地要求做到7*24小时不间断运行,而要做到完全不间断运行可以说“难于上青天”。为此,对应用可用性程度的衡量标准一般有3个9到5个9。 对于一个功能和数据量不断增加的应用,要保持比较高的可用性并非易事。为了实现高可用,「付钱拉」从……
阅读全文
2022年3月15日
周思丞 58技术 01 导语 本文介绍了文本表征算法在58信安场景下的探索和实践。信息安全场景下业务种类繁多,在对用户发帖内容进行审核时,通过对文本建模得到其表征,既可以用于对文本的直接分类算法,也可以通过聚类算法快速得将文本信息归类。 02 背景 58集团业务线广泛,平台每日会产生千万量级以上的……
阅读全文
2022年3月15日
硬件选择 Elasticsearch(后文简称 ES)的基础是 Lucene,所有的索引和文档数据是存储在本地的磁盘中,具体的路径可在 ES 的配置文件 ../config/elasticsearch.yml 中配置,如下: # ----------------------------------- Paths ------------------------------------ # # Path to directory where to store the data (separate multiple locations by comma): # path.data: /path/to/data # # Path to log files: # path.logs: /path/to/logs 磁盘在现代服务器上通常都是瓶颈。Elasticsearch 重度……
阅读全文