2026-04-230

面试总结

面试介绍总结:百度poi商业化数据清洗平台(架构级别描述)

项目描述 or 项目定位

主要负责地图 商业化POI 数据清洗,平台整体是一个多阶段的数据处理流水线。数据以文件形式在各个处理环节之间流转,每一步都会读取上一步的结果文件进行处理,并生成新的结果文件。整个流程包括数据请求、结构解析、diff判断、策略判重、人工审核以及数据上线等

架构设计

  • 系统采用“调度系统 + Celery + 文件流转”的架构:
    • 调度系统负责流程控制和状态管理
    • Celery 负责具体任务的异步执行
    • 文件作为各个阶段的数据载体

为什么使用 Celery:

  1. 每个处理步骤都是耗时操作,Celery可以实现异步执行,避免阻塞主流程
  2. 支持多worker并发处理,提高批量数据处理效率
  3. 支持分布式扩展,随着数据量增长可以横向扩容worker就可以了
  4. 通过redis作为broke任务队列实现削峰填谷,避免系统过载
  5. 提供失败重试机制,提高任务执行的稳定性

cpu异常如何排查 golang为例,可能存在的问题

  • 存在死循环或者忙等待
  • gorontinue的数量太多
  • GC过于频繁:大量对象创建导致 GC 压力大
  • 锁竞争严重
  • 频繁的系统调用
  • Channel 阻塞 / select 空转

本文作者:曹子昂

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!