超强整理非科班硕士的算法面经阿里腾讯字节美团
写在前面
结束秋招已经很长一段时间了,如今也已经入职一段时间了,应大佬邀请整理一下面经,回馈一下有志于从事算法工作的学弟学妹们,毕竟自己也是曾经站在巨人的肩膀上,得到一些帮助,受益匪浅。
笔者背景,C9 硕,非科班,互联网领域公司投递的岗位主要是“机器学习”(数据挖掘、搜索广告推荐方向,偶尔也投递一下 nlp 方向,cv 也懂一些),教育和金融领域的公司也投了几家(分别是竞赛教练和量化研究岗)。
因为秋招 19 年开始地特别早,所以投递的时间比较早,而且规划和定位比较明确(地点不想去的尽量不投(例如北京))。秋招一共面了 14 家左右大厂(只投递杭州、上海、深圳岗位),放弃了几家外企的面试。
「几点建议」:
- 多出去看看走走,能收获很多不一样的东西。
- 遇事不慌,戒骄戒躁。
- 注重积累,持续学习。
- 很多时候认真就输了,但不认真也就真的输了。
- 学会鼓励与成就他人。
- 常怀敬畏之心,敬畏一切。
阿里(杭州)
一面(60min)
- XGBoost 和 Lightgbm 的优化点,与传统 GDBT 的区别与联系?
- 为什么二阶泰勒展开?为什么梯度下降地更快更准?
- 展开有没有效果的损失?
- LSTM 和 GRU 原理,与 RNN 的区别与联系?
- LR 与 SVM 的区别与联系?
- 生成模型与判别模型的区别?
- 牛顿法与梯度下降法的区别?
- 了解过哪些评估指标?
- L1、L2 正则化区别,为什么可以用在特征选择上?
- 亿级数组中找 TopK
- 其他就是比赛介绍,面试官自己做过类似的比赛,所以比较感兴趣。
- 数据清洗、特征工程、模型、模型融合
二面(45min)
- 简单地介绍下 LR?
- 类别不平衡有哪些解决方法?
- 展开有没有效果的损失?
- 介绍下常用的几种聚类方法?区别与联系?
- 硬间隔与软间隔的区别?
- 参数模型与非参数模型的区别?
- 了解提升方法吗?介绍下最基础的 AdaBoost 以及提升树?
- 了解过哪些 embedding 技术?
- word2vec 中两种方法的区别与联系?
- 二叉树路径总和,找出所有路径
- 再是比赛和项目介绍,聊业务聊了很久。
交叉面(30min)
- 说说 EM 与 Kmeans 的区别与联系?
- 多类别不平衡可以怎么解决?
- XGBoost 和 Lightgbm 与传统 GDBT 的区别与联系?
- 有哪些主流的优化方法?
- kmeans 如何确定类的数量?如何优化计算效率?
- SVM 效果一定比 LR 好吗?
- Softmax 与 Negative Sampling 的区别与联系?
- 过拟合都有哪些解决方法?
- 当今 embedding 技术有哪些挑战与机遇?
- 问了一些业务方面的问题该如何去思考设计方案,答得不是很好
腾讯(深圳)
一面(50min)
- Lightgbm 的优化点,与传统 GDBT 的区别与联系?
- Xgboost 都有哪些改进的地方?
- Xgboost 和 Lightbgm 的特征和数据的分布式分别是怎么做的?各自存在什么问题?
- 简单地介绍下 SVM?
- 了解哪些词向量的方法?
- 决策树都有哪些分裂指标?
- 把知道的优化方法都说一说?
- 特征选择都有哪些方法?
- 了解过 Bert,GPT 和 ELMo 之类的模型吗?
- 问了业务方面的问题,给了两个场景,问如何识别外挂?
- 其它就是比赛及项目方面的问题。
二面(45min)
- 简单地介绍下 word2vec?说下具体训练过程?
- gbdt 怎么做分类?
- 卷积神经网络的具体原理?
- 说说过拟合都有哪些解决方法,越多越好?
- AdaBoost,random forest 和 gbdt 的区别与联系?
- word2vec 中两种方法的适用场景和优缺点?
- 简单说说 HMM?
- 了解过多模态?
- 再是比赛和项目介绍。
- 给了几个业务场景题,这块一时想不到什么方案,答得一般。
三面(30min)
- 简单介绍一下 word2vec 和 fasttext?
- 为什么随机森林比较好?
- dropout 为什么可以防止过拟合?
- 梯度消失和爆炸都有哪些解决方法?
- SVM 适用于什么样的数据分布?哪种分布它不 work?
- 了解过 transformer?讲讲 multi-head
- xgboost,rf 和 LR 的适用场景?
- 简单说说 Bayes?
- 聊业务,开放题设计方案
百度(上海)
一面(45min)
- LR 与 SVM 两个算法的适用场景以及它们之间的区别与联系?
- Boosting 和 Bagging 的区别与联系?
- rf 和 gbdt 各自优化的是偏差还是方差?
- 解释一下 AUC 的计算方法和它代表的意义?
- L1、L2 正则化区别与联系?
- 快排和归并
- 其他就是比赛和项目介绍。
- 数据清洗、特征工程、模型、模型融合
二面(45min)
- 说说 xgboost 的分裂指标?xgboost 与 GBDT 的区别?
- AUC 有哪些计算方法?
- BERT,GPT 和 ELMo 的区别与联系?
- FM,deepfm 原理?
- 了解哪些 graph embedding 方法?
- 注意力机制的原理?
- BN 都有哪些作用?
- Softmax 与 Negative Sampling 的区别与联系?
- word2vec 中两种方法的区别与联系?
- 堆排和亿级数组中找中位数。
三面(40min)
- 聊比赛项目经历,说说遇到的挑战和困难,还有改进的余地吗?
- 说说在研究生期间的工作,你碰到过最困难的事是什么,以及是怎么解决的?
- 对各大公司推荐引擎有比较深入的了解吗?
- 如果给你一个好看视频的场景,你会如何解决?
- 职业规划相关
华为(杭州)
华为云,直接在六月的时候被叫过去进行顶尖人才专场面试。
一面(40min)
围绕简历,然后问了业务中大数据方面的解决方案有没有想法,中间问了些数据清洗及特征工程方面的问题,还穿插了很多模型压缩与实时流方面的问题,说到时进来做面向芯片的 AI 加速算法,普及了华为在这方面的前景与优势。
二面(30min)
简历提问,然后介绍华为近些年取得的巨大成就,聊聊业务,人生,价值观以及兴趣爱好。
蘑菇街(杭州)
一面(50min)
- 自我介绍
- 梯度消失与梯度爆炸的解决方法?
- 把知道的优化算法及各自的优缺点都说说看?
- 围绕项目谈论,一些细节,一些知识(特征工程与模型融合)
- 特征种类,正则化之类的?参数有哪些?怎么做特征工程,特征选择等
- 手写代码及测试,斐波那契数列。
二面(35min)
- 自我介绍
- EM 与 kmeans 的区别与联系?
- 说说 transformer 中 multi-head 的作用?
- 说说处理超长文本一般都有哪些方法?
- lightgbm 都有哪些优化的点?
- 围绕项目谈论
- 手写代码及测试,二叉树层次遍历。
hr 面
- 工作中优缺点
- 选择公司的侧重点
- 自己的 offer
字节(上海)
一面(35min)
- 自我介绍
- 比赛项目:任务,角色,使用方法,模型,调参
- 讲讲 xgboost?
- tfidf 有哪些优化方法?
- 实现 tfidf;判断链表是否有环
二面(30min)
- 自我介绍
- 比赛项目
- CNN 的反向传播细节?
- 了解 Bert 和 XLNet?
- 电梯调度(所有人在 1 楼进电梯,当电梯停在 i 层时则所有人走出电梯步行到自己所在的楼层中,求所有人爬的楼层数目和的最小值)
网易互娱(杭州)
数据挖掘 US
一面(45min)
- 自我介绍
- 项目:(比赛 + 项目)怎么做的
- lstm 解决了 rnn 的什么问题,为什么会有这个问题?
- 激活函数都有哪些?
- relu 的问题是什么,怎么解决?
- 平衡二叉树是什么?
- 给一个游戏的场景,比如荒野行动,推荐系统应该怎么做?
- 会使用 hadoop 和 spark 这些吗?
- 说一下业界推荐系统的流程是怎么样的?
二
- 原文作者:知识铺
- 原文链接:https://index.zshipu.com/geek/post/%E4%BA%92%E8%81%94%E7%BD%91/%E8%B6%85%E5%BC%BA%E6%95%B4%E7%90%86%E9%9D%9E%E7%A7%91%E7%8F%AD%E7%A1%95%E5%A3%AB%E7%9A%84%E7%AE%97%E6%B3%95%E9%9D%A2%E7%BB%8F%E9%98%BF%E9%87%8C%E8%85%BE%E8%AE%AF%E5%AD%97%E8%8A%82%E7%BE%8E%E5%9B%A2/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com