AI 资讯Hacker News·2 小时前

技术面试应拒绝那些错误的工程师

原标题：Technical Interviews Reject the Wrong Engineers

速览

文章指出许多技术面试未能有效筛选出真正优秀的工程师，反而错误地拒绝了合适的人选或留下了不合适的人。作者分析了导致这一问题的常见面试误区，并提出了改进建议。正确的面试流程对于构建高效、高质量的工程团队至关重要。

AI 深度解读

技术面试为何会淘汰错误的工程师：从筛选机制到评估框架的深度解读

背景

在科技行业，招聘往往被视为一种“过滤器”：通过多轮面试、提出足够多的问题，让优秀的候选人脱颖而出。然而，这种直觉式的筛选机制实际上存在严重缺陷。它倾向于选拔那些擅长应试而非真正具备工程能力的人，拒绝那些无法在高压观察下表现良好的人，并且当筛选失败时，其隐性成本远超大多数团队的认知。

作者基于15年的观察与研究，结合50年的相关学术成果，指出当前的技术面试体系存在系统性偏差。许多公司引用“糟糕招聘的成本”这一统计数据来合理化低效的面试流程，但这些数据往往缺乏实证来源。与此同时，传统的白板面试、结对编程以及性格测试（如MBTI）在预测工作绩效方面表现不佳，甚至可能引入偏见。

核心内容

1. “糟糕招聘成本”的迷思与真实数据

业界常引用美国劳工部（DOL）估计的“糟糕招聘成本为首年薪资的30%”以及哈佛商业评论（HBR）关于“80%离职率源于糟糕招聘决策”的说法。然而，作者追溯发现，这些具体数字均无原始文献支持，属于无限循环引用的谣言，类似于“学习金字塔”效应。

真实的学术研究提供了更精确但较少戏剧性的数据：

替换成本：美国进步中心（Center for American Progress）2012年的一项综述显示，所有职位的中位数替换成本约为年薪的21%。对于年薪低于7.5万美元的岗位，这一比例保持稳定；但对于高级职位，替换成本可飙升至年薪的213%。
毒性员工的代价：Housman和Minor在2015年对11家公司50,000名员工的研究发现，避免雇佣一名“毒性员工”（toxic worker）带来的回报，大约是雇佣一名“明星员工”（star performer）的两倍。毒性员工的直接替换成本约为12,489美元，而顶级1%的员工仅增加约5,303美元的价值。更重要的是，毒性行为具有传染性，会拉低整个团队的绩效。

因此，招聘的最大风险并非错失优秀人才，而是让破坏性人员进入团队。大多数面试流程旨在寻找人才，却极少设计用于检测毒性。

2. 传统面试工具的失效

白板面试（Whiteboard Interviews）：这是一种在观察者压力下解决通常可以查阅资料的问题的测试。2020年Behroozi等人的研究发现，在传统白板面试中，候选人的表现水平仅为私下解决相同问题时的一半。更严重的是，该研究指出在公开条件下所有女性候选人均失败，而在私下条件下所有女性候选人都通过了。这表明白板面试本质上不是人才过滤器，而是“焦虑过滤器”。
结对编程（Pair Programming）：虽然比白板面试更好，但仍存在扭曲。结对编程旨在协作产生代码，而非在时间压力下评估陌生人。面试中缺乏共享的上下文、词汇和信任，候选人是在被掌握其职业命运的人监视下表演。将面试中的结对编程称为“对话”是一种误称。
隐性知识（Tacit Knowledge）的缺失：熟练工程师的大部分知识是隐性的，包括模式识别、对设计未来问题的预判以及权衡取舍。标准面试测试的是显性知识（如解释算法、描述模式），擅长“谈论代码”的人往往比擅长“编写代码”的人在面试中表现更好。

3. 性格测试的科学性批判

许多公司试图通过性格评估增加科学性，但主流工具存在严重问题：

MBTI（迈尔斯-布里格斯类型指标）：其出版商明确声明将其用于招聘是不道德的。皮廷格（Pittenger, 2005）的研究显示，35%的人在五周后重测会得到不同的结果。美国国家科学院审查了20多项研究，认为证据不足以支持其使用。其预测效度极低（r = .10-.20），与抛硬币无异。
成长型思维（Growth Mindset）：最大的元分析（Sisk et al., 2018，涵盖365,915名参与者）发现，思维模式与成就的相关性仅为r = .10，仅解释1%的方差。当仅分析最高质量的六项研究时，效应量降至d = 0.02，几乎可以忽略不计。且存在利益冲突，与干预措施有财务关联的研究者报告了显著更大的效应。目前没有任何同行评审证据表明成长型思维能预测工作场所的工作绩效。

4. 真正有效的评估框架

大五人格（The Big Five）：这是唯一拥有超过三十年元分析支持的模型（开放性、尽责性、外向性、宜人性、神经质）。
- 尽责性（Conscientiousness）：是跨职业预测工作绩效的最佳指标。
- 软件工程的特异性：在高复杂度工作中，尽责性的预测力较弱。开放性（Openness）和尽责性均能预测编程能力，且随着软件工作对创造力要求的提高，开放性的重要性日益增加。内向性也与编程技能呈正相关。
- 局限性：即使是最好的性格测量也只能解释4-6%的绩效方差，且易受伪装影响。极高的尽责性可能导致僵化、完美主义的工程师。因此，大五人格应作为多方法流程中的一个输入，而非独立的门槛。
技能具体评估优于职级标签：大多数公司将工程师简单划分为初级、中级、高级等职级，这掩盖了技能的复杂性。例如，一名高级工程师可能在API设计上是专家，在前端性能优化上是新手。
德雷福斯模型（Dreyfus Model）：该模型描述了技能获得的五个阶段：新手、高级初学者、胜任者、熟练者和专家。不同阶段的区别不在于知识量，而在于思维方式。例如，在“胜任者”阶段（通常需2-3年经验），从业者将问题分解为组件，应用规则，逐步构建解决方案，并重视显性推理。

关键要点

招聘风险重构：避免雇佣毒性员工的收益是雇佣明星员工的两倍。招聘流程应增加检测毒性行为的信号，而不仅仅是寻找高绩效者。
数据谣言澄清：“糟糕招聘成本为30%”和“80%离职源于糟糕招聘”等流行说法缺乏实证来源，实际替换成本因职位级别而异（21%-213%）。
面试形式偏差：
- 白板面试测试的是抗压能力和焦虑管理，而非工程能力，且对女性候选人存在显著偏见。
- 结对编程在面试语境下因缺乏信任和上下文共享而失真。
- 标准面试过度测试显性知识，忽略了工程师核心的隐性知识（模式识别、权衡判断）。
性格测试的无效性：
- MBTI用于招聘被其出版商视为不道德，且信效度极低。
- 成长型思维与工作绩效无显著相关性，不应作为面试评估依据。
科学评估建议：
- 使用大五人格模型，特别是关注尽责性和开放性，但需结合其他方法，因为单一指标解释力有限。
- 摒弃单一的职级标签（如“高级”），采用基于德雷福斯模型的技能具体评估，关注候选人在特定任务上的思维阶段和能力表现。

意义与影响

这篇文章对科技行业的招聘实践提出了根本性的挑战。它指出，当前的技术面试不仅效率低下，而且可能在无意中筛选出那些擅长表演而非实际解决问题的候选人，同时漏掉了真正具备深度工程直觉的人才。

对于招聘团队而言，这意味着需要重新设计面试流程：

去焦虑化：减少高压观察下的实时编码测试，转向更贴近实际工作场景的评估（如代码审查、系统设计讨论、过往项目深度复盘）。
毒性检测：在评估技术能力的同时，引入专门机制来识别潜在的破坏性行为和文化不匹配。
科学用工具：摒弃MBTI等伪科学工具，谨慎使用大五人格作为辅助参考，而非决定性门槛。
精细化评估：根据德雷福斯模型，针对不同技能维度进行具体评估，而不是依赖模糊的

查看原文 →fagnerbrack.com