From cd04b06d5cb6bc36ac9db1db44c20bd83126ff07 Mon Sep 17 00:00:00 2001 From: Xargin Date: Fri, 24 Aug 2018 16:18:07 +0800 Subject: [PATCH] update cr --- ch6-cloud/ch6-09-crawler.md | 4 +++- 1 file changed, 3 insertions(+), 1 deletion(-) diff --git a/ch6-cloud/ch6-09-crawler.md b/ch6-cloud/ch6-09-crawler.md index 0d80f6a..29cd341 100644 --- a/ch6-cloud/ch6-09-crawler.md +++ b/ch6-cloud/ch6-09-crawler.md @@ -89,4 +89,6 @@ func main() { ![dist-crawler](../images/ch6-dist-crawler.png) -上游的主要工作是根据预先配置好的起点来爬取所有的目标“列表页”。 +上游的主要工作是根据预先配置好的起点来爬取所有的目标“列表页”,列表页的 html 内容中会包含有所有详情页的链接。详情页的数量一般是列表页的 10~100 倍,所以我们将这些详情页链接作为“任务”内容,通过 mq 分发出去。 + +针对页面爬取来说,在执行时是否偶尔会有重复其实不太重要,因为任务结果是幂等的(这里我们只爬页面内容,不考虑评论部分)。