高级架构师实战 如何用最小的代价完成爬虫需求
发布时间:2022-05-18 09:59:54 所属栏目:安全 来源:互联网
导读:今天要讨论的话题是开发的爬虫项目有通用性吗、是否可以花费较小的代价完成一个新的爬虫需求和在维护运营过程中,是否能够工具化,构建基于配置化的分布式爬虫应用等。 一、缘起 在我工作的多家公司,有众多的领域,如房产,电商,广告等领域。尽管业务相差
今天要讨论的话题是开发的爬虫项目有通用性吗、是否可以花费较小的代价完成一个新的爬虫需求和在维护运营过程中,是否能够工具化,构建基于配置化的分布式爬虫应用等。 一、缘起 在我工作的多家公司,有众多的领域,如房产,电商,广告等领域。尽管业务相差很大,但都涉及到爬虫领域。开发爬虫项目多了后,自然而然的会面对一个问题—— 二、项目需求 立项之初,我们从使用的脚度试着提几个需求。 1. 分布式抓取 由于抓取量可能非常庞大,一台机器不足以处理百万以上的抓取任务,因此分布式爬虫应用是首当其冲要面对并解决的问题。 2. 模块化,轻量 我们将爬虫应用分成“应用层,服务层,业务处理层,调度层” 四个脚色。 3. 可管理,可监控 管理监控是一个体系,即配置可管理化,运行实时监控化。在系统正常运行时,可以变更爬虫的配置,一旦实时监控爬虫出现异常,可实时修正配置进行干预。所有的一切,均可以通过UI界面进行操作。 三 模块分解 针对业务需求,我们将系统分解成多个应用模块。 (编辑:应用网_丽江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |