1
0
mirror of https://github.com/chai2010/advanced-go-programming-book.git synced 2025-05-24 12:32:21 +00:00

update cr

This commit is contained in:
Xargin 2018-08-22 12:54:35 +08:00
parent 8a96e1de97
commit 3f5a227dad

View File

@ -12,8 +12,7 @@
想像一下,你们的信息分析系统运行非常之快。获取信息的速度成为了瓶颈,虽然可以用上 Go 语言所有优秀的并发特性,将单机的 CPU 和网络带宽都用满,但还是希望能够加快爬虫的爬取速度。在很多场景下,速度是有意义的:
对于价格战期间的电商们来说,还是希望能够在对手价格变动后第一时间获取到其最新价格,再靠机器自动调整本家的商品价格。
对于类似头条之类的 feed 流业务,信息的时效性也非常重要。如果我们慢吞吞地爬到的新闻是昨天的新闻,那对于用户来说就没有任何意义。
1. 对于价格战期间的电商们来说,还是希望能够在对手价格变动后第一时间获取到其最新价格,再靠机器自动调整本家的商品价格。
2. 对于类似头条之类的 feed 流业务,信息的时效性也非常重要。如果我们慢吞吞地爬到的新闻是昨天的新闻,那对于用户来说就没有任何意义。
所以我们需要分布式爬虫。从本质上来讲,分布式爬虫是一套任务分发和执行系统。而常见的任务分发,因为上下游存在速度不匹配问题,必然要借助消息队列。