十年網(wǎng)站開發(fā)經(jīng)驗 + 多家企業(yè)客戶 + 靠譜的建站團(tuán)隊
量身定制 + 運(yùn)營維護(hù)+專業(yè)推廣+無憂售后,網(wǎng)站問題一站解決
導(dǎo)語:當(dāng)面臨存儲選型時是選擇關(guān)系型還是非關(guān)系型數(shù)據(jù)庫? 如果選擇了非關(guān)系型的redis,redis常用數(shù)據(jù)類型占用內(nèi)存大小如何估算的? redis的性能瓶頸又在哪里?
我們提供的服務(wù)有:成都網(wǎng)站設(shè)計、成都網(wǎng)站制作、外貿(mào)網(wǎng)站建設(shè)、微信公眾號開發(fā)、網(wǎng)站優(yōu)化、網(wǎng)站認(rèn)證、工布江達(dá)ssl等。為上千多家企事業(yè)單位解決了網(wǎng)站和推廣的問題。提供周到的售前咨詢和貼心的售后服務(wù),是有科學(xué)管理、有技術(shù)的工布江達(dá)網(wǎng)站制作公司
背景前段時間接手了一個業(yè)務(wù),響應(yīng)時間達(dá)到 10s左右。 閱讀源碼后發(fā)現(xiàn),每一次請求都是查詢多個分表數(shù)據(jù)(task1,task2….),然后再join其他表(course,teacher..), 時間全部花在了大量磁盤I/O上。 腦袋一拍,重構(gòu),上redis!
為什么選擇redis拍腦袋做技術(shù)方案肯定是不行的,得用數(shù)據(jù)和邏輯說服別人才可以。
以redis一組K-V為例(”hello” -> “world”),一個簡單的set命令最終會產(chǎn)生4個消耗內(nèi)存的結(jié)構(gòu)。
關(guān)于Redis數(shù)據(jù)存儲的細(xì)節(jié),又要涉及到內(nèi)存分配器(如jemalloc),簡單說就是存儲170字節(jié),其實內(nèi)存分配器會分配192字節(jié)存儲。
那么總的花費(fèi)就是
一個dictEntry,24字節(jié),jemalloc會分配32字節(jié)的內(nèi)存塊
一個redisObject,16字節(jié),jemalloc會分配16字節(jié)的內(nèi)存塊
一個key,5字節(jié),所以SDS(key)需要5+9=14個字節(jié),jemalloc會分配16字節(jié)的內(nèi)存塊
綜上,一個dictEntry需要32+16+16+16=80個字節(jié)。
上面這個算法只是舉個例子,想要更深入計算出redis所有數(shù)據(jù)結(jié)構(gòu)的內(nèi)存大小,可以參考 這篇文章 。 筆者使用的是哈希結(jié)構(gòu),這個業(yè)務(wù)需求大概一年的數(shù)據(jù)量是200MB,從使用redis成本上考慮沒有問題。筆者這個需求背景讀多寫少,冷數(shù)據(jù)占比比較大,但數(shù)據(jù)結(jié)構(gòu)又很復(fù)雜(涉及多個維度數(shù)據(jù)總和),因此只要啟動定時任務(wù)離線增量寫入redis,請求到達(dá)時直接讀取redis中的數(shù)據(jù),無疑可以減少響應(yīng)時間。
redis瓶頸和優(yōu)化
最終存儲到redis中的數(shù)據(jù)結(jié)構(gòu)如下圖。
采用同步的方式對三個月(90天)進(jìn)行HGETALL操作,每一天花費(fèi)30ms,90次就是2700ms! redis操作讀取應(yīng)該是ns級別的,怎么會這么慢? 利用多核cpu計算會不會更快?
于是我把代碼改了一版,原來是90次I/O,現(xiàn)在通過redis pipeline操作,一次請求半個月,那么3個月就是6次I/O。 很開心,時間一下子少了1000ms。
我使用是golang的 redisgo 的客戶端,翻閱源碼發(fā)現(xiàn),redisgo執(zhí)行pipeline邏輯是 把命令和參數(shù)寫到golang原生的bufio中,如果超過bufio默認(rèn)最大值(4096字節(jié)),就發(fā)起一次I/O,flush到內(nèi)核態(tài)。
redisgo編碼pipeline規(guī)則 如下圖, *表示后面參數(shù)加命令的個數(shù),$表示后面的字符長度 ,一條HGEALL命令實際占45字節(jié)。
那其實90天數(shù)據(jù),一次I/O就可以搞定了(90 * 45 < 4096字節(jié))!
果然,又快了1000ms,耗費(fèi)時間達(dá)到了1秒以內(nèi)
簡單寫了一個壓測程序,通過比較請求量和qps的關(guān)系,來看一下吞吐量和qps的變化,從而選擇一個適合業(yè)務(wù)需求的值。
package main import ( "crypto/rand" "fmt" "math/big" "strconv" "time" "github.com/garyburd/redigo/redis" ) const redisKey = "redis_test_key:%s" func main() { for i := 1; i < 10000; i++ { testRedisHGETALL(getPreKeyAndLoopTime(i)) } } func testRedisHGETALL(keyList [][]string) { Conn, err := redis.Dial("tcp", "127.0.0.1:6379") if err != nil { fmt.Println(err) return } costTime := int64(0) start := time.Now().Unix() for _, keys := range keyList { for _, key := range keys { Conn.Send("HGETALL", fmt.Sprintf(redisKey, key)) } Conn.Flush() } end := time.Now().Unix() costTime = end - start fmt.Printf("cost_time=[%+v]ms,qps=[%+v],keyLen=[%+v],totalBytes=[%+v]", 1000*int64(len(keyList))/costTime, costTime/int64(len(keyList)), len(keyList), len(keyList)*len(keyList[0])*len(redisKey)) } //根據(jù)key的長度,設(shè)置不同的循環(huán)次數(shù),平均計算,取除網(wǎng)絡(luò)延遲帶來的影響 func getPreKeyAndLoopTime(keyLen int) [][]string { loopTime := 1000 if keyLen < 10 { loopTime *= 100 } else if keyLen < 100 { loopTime *= 50 } else if keyLen < 500 { loopTime *= 10 } else if keyLen < 1000 { loopTime *= 5 } return generateKeys(keyLen, loopTime) } func generateKeys(keyLen, looTime int) [][]string { keyList := make([][]string, 0) for i := 0; i < looTime; i++ { keys := make([]string, 0) for i := 0; i < keyLen; i++ { result, _ := rand.Int(rand.Reader, big.NewInt(100)) keys = append(keys, strconv.FormatInt(result.Int64(), 10)) } keyList = append(keyList, keys) } return keyList }windows上單機(jī)版redis結(jié)果如下:
擴(kuò)展 (分布式方案下pipeline操作)需求最終是完成了,可是轉(zhuǎn)念一想,現(xiàn)在都是集群版的redis,pipeline批量請求的key可能分布在不同的機(jī)器上,但pipeline請求最終可能只被一臺redis server處理,那不就是會讀取數(shù)據(jù)失敗嗎? 于是,筆者查找?guī)讉€通用的redis 分布式方案,看看他們是如何處理這pipeline問題的。
github.com/go-redis就是這樣做的,有興趣可以閱讀下源碼。
總結(jié)在做需求的過程中,發(fā)現(xiàn)了很多東西不能拍腦袋決定,而是前期做技術(shù)方案的時候,想清楚,調(diào)研好,用數(shù)據(jù)和邏輯去說服自己。