1
0
mirror of https://github.com/chai2010/advanced-go-programming-book.git synced 2025-05-24 04:22:22 +00:00
advanced-go-programming-book/ch5-web/ch5-09-gated-launch.md
2018-12-24 11:31:00 +08:00

10 KiB
Raw Blame History

5.9 灰度发布和 A/B test

中型的互联网公司往往有着以百万计的用户,而大型互联网公司的系统则可能要服务千万级甚至亿级的用户需求。大型系统的请求流入往往是源源不断的,任何风吹草动,都一定会有最终用户感受得到。例如你的系统在上线途中会拒绝一些上游过来的请求,而这时候依赖你的系统没有做任何容错,那么这个错误就会一直向上抛出,直到触达最终用户。形成一次对用户切切实实的伤害。这种伤害可能是在用户的 app 上弹出一个让用户摸不着头脑的诡异字符串,用户只要刷新一下页面就可以忘记这件事。但也可能会让正在心急如焚地和几万竞争对手同时抢夺秒杀商品的用户,因为代码上的小问题,丧失掉了先发优势,与自己蹲了几个月的心仪产品失之交臂。对用户的伤害有多大,取决于你的系统对于你的用户来说有多重要。

不管怎么说在大型系统中容错是重要的能够让系统按百分比分批次到达最终用户也是很重要的。虽然当今的互联网公司系统名义上会说自己上线前都经过了充分慎重严格的测试但就算它们真得做到了代码的bug总是在所难免的。即使代码没有bug分布式服务之间的协作也是可能出现“逻辑”上的非技术问题的。

这时候灰度发布就显得非常重要了灰度发布也称为金丝雀发布传说17世纪的英国矿井工人发现金丝雀对瓦斯气体非常敏感瓦斯达到一定浓度时金丝雀即会死亡但金丝雀的致死量瓦斯对人并不致死因此金丝雀被用来当成他们的瓦斯检测工具。互联网系统的灰度发布一般通过两种方式实现

  1. 通过分批次部署实现灰度发布
  2. 通过业务规则进行灰度发布

在对系统的旧功能进行升级迭代时,第一种方式用的比较多。新功能上线时,第二种方式用的比较多。当然,对比较重要的老功能进行较大幅度的修改时,一般也会选择按业务规则来进行发布,因为直接全量开放给所有用户风险实在太大。

5.9.1 通过分批次部署实现灰度发布

假如服务部署在15个实例(可能是物理机,也可能是容器)上我们把这15个实例分为四组按照先后顺序分别有1-2-4-8台机器保证每次扩展时大概都是二倍的关系。

online group

图 5-20 分组部署

为什么要用2倍这样能够保证我们不管有多少台机器都不会把组划分得太多。例如1024台机器实际上也就只需要1-2-4-8-16-32-64-128-256-512部署十次就可以全部部署完毕。

这样我们上线最开始影响到的用户在整体用户中占的比例也不大,比如 1000 台机器的服务我们上线后如果出现问题也只影响1/1000的用户。如果10组完全平均分那一上线立刻就会影响1/10的用户1/10的业务出问题那可能对于公司来说就已经是一场不可挽回的事故了。

在上线时最有效的观察手法是查看程序的错误日志如果较明显的逻辑错误一般错误日志的滚动速度都会有肉眼可见的增加。这些错误也可以通过metrics一类的系统上报给公司内的监控系统所以在上线过程中也可以通过观察监控曲线来判断是否有异常发生。

如果有异常情况,首先要做的自然就是回滚了。

5.9.2 通过业务规则进行灰度发布

常见的灰度策略有多种较为简单的需求例如我们的策略是要按照千分比来发布那么我们可以用用户id、手机号、用户设备信息等等来生成一个简单的哈希值然后再求模用伪代码表示一下

// pass 3/1000
func passed() bool {
	key := hashFunctions(userID) % 1000
	if key <= 2 {
		return true
	}

	return false
}

5.9.2.1 可选规则

常见的灰度发布系统会有下列规则提供选择:

  1. 按城市发布
  2. 按概率发布
  3. 按百分比发布
  4. 按白名单发布
  5. 按业务线发布
  6. 按 UA 发布(APP、Web、PC)
  7. 按分发渠道发布

因为和公司的业务相关所以城市、业务线、UA、分发渠道这些都可能会被直接编码在系统里不过功能其实大同小异。

按白名单发布比较简单,功能上线时,可能我们希望只有公司内部的员工和测试人员可以访问到新功能,会直接把账号、邮箱写入到白名单,拒绝其它任何账号的访问。

按概率发布则是指实现一个简单的函数:

func isTrue() bool {
	return true/false according to the rate provided by user
}

其可以按照用户指定的概率返回 true/false当然true 的概率 + false 的概率 = 100%。这个函数不需要任何输入。

按百分比发布,是指实现下面这样的函数:

func isTrue(phone string) bool {
	if hash of phone matches {
		return true
	}

	return false
}

这种情况可以按照指定的百分比返回对应的true和false和上面的单纯按照概率的区别是这里我们需要调用方提供给我们一个输入参数我们以该输入参数作为源来计算哈希并以哈希后的结果来求模并返回结果。这样可以保证同一个用户的返回结果多次调用是一致的在下面这种场景下必须使用这种结果可预期的灰度算法图 5-21所示。

set 和 get 流程不应该因为灰度走到不同版本的 API

图 5-21 先set然后马上get

如果采用随机策略,可能会出现像图 5-22这样的问题:

set 和 get 流程不应该因为灰度走到不同版本的 API

图 5-22 先set然后马上get

举个具体的例子网站的注册环节可能有两套API按照用户ID进行灰度分别是不同的存取逻辑。如果存储时使用了V1版本的API而获取时使用V2版本的API那么就可能出现用户注册成功后反而返回注册失败消息的诡异问题。

5.9.3 如何实现一套灰度发布系统

前面也提到了,提供给用户的接口大概可以分为和业务绑定的简单灰度判断逻辑。以及输入稍微复杂一些的哈希灰度。我们来分别看看怎么实现这样的灰度系统(函数)。

5.9.3.1 业务相关的简单灰度

公司内一般都会有公共的城市名字和id的映射关系如果业务只涉及中国国内那么城市数量不会特别多且id可能都在10000范围以内。那么我们只要开辟一个一万大小左右的bool数组就可以满足需求了

var cityID2Open = [12000]bool{}

func init() {
	readConfig()
	for i:=0;i<len(cityID2Open);i++ {
		if city i is opened in configs {
			cityID2Open[i] = true
		}
	}
}

func isPassed(cityID int) bool {
	return cityID2Open[cityID]
}

如果公司给cityID赋的值比较大那么我们可以考虑用map来存储映射关系map的查询比数组稍慢但扩展会灵活一些

var cityID2Open = map[int]struct{}{}

func init() {
	readConfig()
	for _, city := range openCities {
		cityID2Open[city] = struct{}{}
	}
}

func isPassed(cityID int) bool {
	if _, ok := cityID2Open[cityID]; ok {
		return true
	}

	return false
}

按白名单、按业务线、按UA、按分发渠道发布本质上和按城市发布是一样的这里就不再赘述了。

按概率发布稍微特殊一些,不过不考虑输入实现起来也很简单:


func init() {
	rand.Seed(time.Now().UnixNano())
}

// rate 为 0~100
func isPassed(rate int) bool {
	if rate >= 100 {
		return true
	}

	if rate > 0 && rand.Int(100) > rate {
		return true
	}

	return false
}

注意初始化种子。

5.9.3.2 哈希算法

求哈希可用的算法非常多比如md5crc32sha1等等但我们这里的目的只是为了给这些数据做个映射并不想要因为计算哈希消耗过多的cpu所以现在业界使用较多的算法是murmurhash下面是我们对这些常见的hash算法的简单benchmark

hash.go:

package main

import (
	"crypto/md5"
	"crypto/sha1"

	"github.com/spaolacci/murmur3"
)

var str = "hello world"

func md5Hash() [16]byte {
	return md5.Sum([]byte(str))
}

func sha1Hash() [20]byte {
	return sha1.Sum([]byte(str))
}

func murmur32() uint32 {
	return murmur3.Sum32([]byte(str))
}

func murmur64() uint64 {
	return murmur3.Sum64([]byte(str))
}

hash_test.go

package main

import "testing"

func BenchmarkMD5(b *testing.B) {
	for i := 0; i < b.N; i++ {
		md5Hash()
	}
}

func BenchmarkSHA1(b *testing.B) {
	for i := 0; i < b.N; i++ {
		sha1Hash()
	}
}

func BenchmarkMurmurHash32(b *testing.B) {
	for i := 0; i < b.N; i++ {
		murmur32()
	}
}

func BenchmarkMurmurHash64(b *testing.B) {
	for i := 0; i < b.N; i++ {
		murmur64()
	}
}

~/t/g/hash_bench git:master  go test -bench=.
goos: darwin
goarch: amd64
BenchmarkMD5-4          10000000 180 ns/op
BenchmarkSHA1-4         10000000 211 ns/op
BenchmarkMurmurHash32-4 50000000  25.7 ns/op
BenchmarkMurmurHash64-4 20000000  66.2 ns/op
PASS
ok _/Users/caochunhui/test/go/hash_bench 7.050s

可见murmurhash相比其它的算法有三倍以上的性能提升。

5.9.3.3 分布是否均匀

对于哈希算法来说,性能是一方面的问题,另一方面还要考虑哈希后的值是否分布均匀。

我们先以15810000000开头造一千万个和手机号类似的数字然后将计算后的哈希值分十个桶并观察计数是否均匀

package main

import (
	"fmt"

	"github.com/spaolacci/murmur3"
)

var bucketSize = 10

func main() {
	var bucketMap = map[uint64]int{}
	for i := 15000000000; i < 15000000000+10000000; i++ {
		hashInt := murmur64(fmt.Sprint(i)) % uint64(bucketSize)
		bucketMap[hashInt]++
	}
	fmt.Println(bucketMap)
}

func murmur64(p string) uint64 {
	return murmur3.Sum64([]byte(p))
}
map[7:999475 5:1000359 1:999945 6:1000200 3:1000193 9:1000765 2:1000044 \
4:1000343 8:1000823 0:997853]

偏差都在1/100以内可以接受。