update cr

2025-05-23 20:02:22 +00:00 · 2018-08-24 16:13:46 +08:00 · 2018-08-24 16:13:46 +08:00 · adf3e46f71
commit adf3e46f71
parent a856fba78f
2 changed files with 9 additions and 1 deletions
--- a/ch6-cloud/ch6-09-crawler.md
+++ b/ch6-cloud/ch6-09-crawler.md
@ -8,6 +8,10 @@

 ## 基于 colly 的单机爬虫

+有很多程序员比较喜欢在 v2ex 上讨论问题，发表观点，有时候可能懒癌发作，我们希望能直接命令行爬到 v2ex 在 Go tag 下的新贴，只要简单写一个爬虫即可。
+
+《Go 语言编程》一书给出了简单的爬虫示例，经过了多年的发展，现在使用 Go 语言写一个网站的爬虫要更加方便，比如用 colly 来实现爬取 v2ex 前十页内容：
+
 ```go
 package main

@ -78,7 +82,11 @@ func main() {

 想像一下，你们的信息分析系统运行非常之快。获取信息的速度成为了瓶颈，虽然可以用上 Go 语言所有优秀的并发特性，将单机的 CPU 和网络带宽都用满，但还是希望能够加快爬虫的爬取速度。在很多场景下，速度是有意义的：

-1. 对于价格战期间的电商们来说，还是希望能够在对手价格变动后第一时间获取到其最新价格，再靠机器自动调整本家的商品价格。
+1. 对于价格战期间的电商们来说，希望能够在对手价格变动后第一时间获取到其最新价格，再靠机器自动调整本家的商品价格。
 2. 对于类似头条之类的 feed 流业务，信息的时效性也非常重要。如果我们慢吞吞地爬到的新闻是昨天的新闻，那对于用户来说就没有任何意义。

 所以我们需要分布式爬虫。从本质上来讲，分布式爬虫是一套任务分发和执行系统。而常见的任务分发，因为上下游存在速度不匹配问题，必然要借助消息队列。
+
+![dist-crawler](../images/ch6-dist-crawler.png)
+
+上游的主要工作是根据预先配置好的起点来爬取所有的目标“列表页”。
--- a/images/ch6-dist-crawler.png
+++ b/images/ch6-dist-crawler.png