2022年3月15日
本文选自“字节跳动基础架构实践”系列文章。 “字节跳动基础架构实践”系列文章是由字节跳动基础架构部门各技术团队及专家倾力打造的技术干货内容,和大家分享团队在基础架构发展和演进过程中的实践经验与教训,与各位技术同学一起交流成长。 混沌工程是通过故障注入的方式帮助系统寻找薄弱点,从而提高……
阅读全文
2022年3月15日
分享嘉宾:陈戊超、高赟 阿里 技术专家 文章整理:有感情的打字机 内容来源:Flink Forward ASIA 出品平台:DataFun 导读:Flink 是一个分布式 计算引擎,支持 批流一体 的数据处理。在实际生产中的人工智能使用场景中,Flink 在包括 特征工程,在线学习,在线预测 等方面都有一些独特优势,为了更好的……
阅读全文
2022年3月15日
分享嘉宾:李明磊博士 华为云 NLP算法专家 编辑整理:付一韬 出品平台:DataFunTalk 导读: 随着移动互联网的普及,网络上每天产生大量的文本数据,蕴含着巨大的有价值信息。情感分析作为自然语言处理中的一个重要研究方向。在实践中有着广泛的应用,如商品评论分析、政治、金融、旅游等领域中……
阅读全文
2022年3月15日
导读:大多数人会认为研发语音识别技术是一条艰难的道路,投入会巨大,道路会很漫长。我们于2019年11月组建了3人团队自主研发语音识别技术,包括2名算法工程师和1名后端工程师,历经半年,自研语音识别引擎效果超过第三方采购厂商,成功打造了58语音识别引擎。本文将分享我们自研语音识别技……
阅读全文
2022年3月15日
摘要:如果Consumer端消费消息失败,那么RocketMQ是如何对失败的异常情况进行处理? 前面两篇RocketMQ消息消费(一)/(二)篇,主要从Push/Pull两种消费模式的简要流程、长轮询机制和Consumer端负载均衡这几点内容出发,介绍了RocketMQ消息消费的正……
阅读全文
2022年3月15日
日志收集系统应该说是到达一定规模的公司的标配了,一个能满足业务需求、运维成本低、稳定的日志收集系统对于运维的同学和日志使用方的同学都是非常nice的。然而这时理想中的日志收集系统,现实往往不是这样的…本篇的主要内容是:首先吐槽一下公司以前的日志收集和上传;介绍新的实……
阅读全文
2022年3月15日
_怎样赢得机器学习比赛:你拿别人的结果和你自己的结果与做集成。 _ —— Vitaly Kuznetsov NIPS2014。 集成模型是一种能在各种的机器学习任务上提高准确率的强有力技术。在这篇文章中,我会分享我在Kaggle比赛中的集成方法。 在第一部分中,我们会讨论从提交文件中建立集成。主要包括: 投票集成 平均 排名……
阅读全文
2022年3月15日
张俊林 导读: 推荐或者 CTR 预估任务有一个很突出的特点:存在海量稀疏特征。海量意味着数量巨大,稀疏意味着即使在很大的训练数据里,大量特征出现频次也非常低,这往往是由于引入了大量 ID 类特征带来的。对于 DNN 排序系统,是否能够找到好的特征 Embedding 表达方式,对于系统效果是至关重要的。 虽然说,如何更好地表……
阅读全文
2022年3月15日
Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得。那为什么会有这么高的评价呢?是因为它有重大的理论或者模型创新吗?其实并没有,从模型创新角度看一般,创新不算大。但是架不住效果太好了,基本刷新了很多NLP的任务的最好性能……
阅读全文
2022年3月15日
写在前面 本篇文章我们学习Linux IO中的零拷贝技术,最后的参考链接中介绍的非常好,大家都可以看一下 传统IO过程 考虑这样一个过程:我们从磁盘中读取一个文件数据,然后将数据通过网络传输到另一个机器。对用户来说可能就是简单的理解为两步操作。 File.read(fileDesc, buf, len); Socket.send(socket, buf, len); 但是,如果我们看传输中涉及的内核……
阅读全文