數(shù)字互聯(lián)網(wǎng)時(shí)代,搜索引擎已成為天然的流量入口。
在電商網(wǎng)站購(gòu)物,我們會(huì)通過(guò)兩種渠道鎖定產(chǎn)品,一種是通過(guò)搜索引擎或篩選器,快速定位到目標(biāo)商品;另一種是系統(tǒng)推薦,根據(jù)客戶喜好、瀏覽足跡、用戶購(gòu)買率等推薦大家可能感興趣的商品。
前一種使用場(chǎng)景是目標(biāo)商品明確,可通過(guò)文字、語(yǔ)音、掃碼等方式快速搜索到;后一種則是用戶沒有明確的購(gòu)物需求,像逛街一樣,漫無(wú)目的得瀏覽著商品。這時(shí)推薦系統(tǒng),越懂得用戶,越能激發(fā)用戶的購(gòu)買欲。

今天小豬創(chuàng)夢(mèng)電商小編就來(lái)看一下幾大主流電商的搜索引擎系統(tǒng)。
先來(lái)說(shuō)說(shuō),電商系統(tǒng)為什么需要搜索引擎?
電商系統(tǒng)的商品數(shù)量『龐大』,搜索頁(yè)的pv高。某寶2013年有7億線上商品, List的pv 7億+相當(dāng)與每秒有 8000個(gè)請(qǐng)求
電商的搜索引擎并沒有爬蟲系統(tǒng),因?yàn)樗械臄?shù)據(jù)都是結(jié)構(gòu)化的,一般都是Mysql或者 Oracle 的數(shù)據(jù)庫(kù),所以不用像百度一樣用「爬蟲」去不斷去別的網(wǎng)站找內(nèi)容。
電商搜索引擎的過(guò)濾功能,其實(shí)比搜索功能要常用,甚至大于搜索本身。什么是過(guò)濾功能?一般我們網(wǎng)站買東西的時(shí)候,搜了一個(gè)關(guān)健詞,比如運(yùn)動(dòng)鞋,然后所有相關(guān)品牌或者其他分類的選擇就會(huì)呈現(xiàn)在我們面前。對(duì)百度而言,搜什么詞就是什么詞,如果是新聞的話,可能在時(shí)間上會(huì)有一個(gè)過(guò)濾的選項(xiàng)。
電商搜索引擎支持各種維度的排序,包括支持人氣、銷量、信用、價(jià)格、發(fā)貨地等屬性的排序,且對(duì)數(shù)據(jù)的實(shí)時(shí)性要求非常高。電商搜索對(duì)數(shù)據(jù)的實(shí)時(shí)性要求主要體現(xiàn)在價(jià)格和庫(kù)存兩個(gè)方面。
電商搜索引擎的效果不僅要考慮買家(信息消費(fèi)方,結(jié)果多樣性),還得考慮賣家(信息提供方,爆光率)。
電商搜索引擎另一個(gè)特點(diǎn)就是不能丟品,比如我們?cè)谔詫殹⑻熵堥_了個(gè)店鋪,然后好不容易搞了一次活動(dòng),但是卻搜不到了,這是無(wú)法忍受的。除此之外,電商搜索引擎與推薦系統(tǒng)和廣告系統(tǒng)是相互融合的。
保證高可用,容災(zāi)、異常保護(hù)、降級(jí)(降級(jí):qps維度、在clustermap上來(lái)做,正常來(lái)說(shuō),我們有20列,如果系統(tǒng)負(fù)載高的話查詢只分部到10列,這樣就高了1倍的qps) 異常保護(hù):latency 、在searcher上來(lái)做,如果系統(tǒng)負(fù)載較高的話,searcher上會(huì)直接丟棄一些耗時(shí)的query
綜上所述,電商系統(tǒng)中搜索引擎的必要性顯而易見。
電商平臺(tái)的搜索引擎方式:
小豬創(chuàng)夢(mèng)電商小編查看了淘寶、京東、亞馬遜和當(dāng)當(dāng)?shù)闹黜?yè),發(fā)現(xiàn)此類電商平臺(tái)的搜索引擎大同小異,都提供兩種搜索方式,一是利用搜索框直接進(jìn)行文字搜索,二是根據(jù)商品的類目進(jìn)行搜索。
搜索框的主流查詢?cè)~(Query)還是文字為主,這是因?yàn)樗阉饕孀ト『退饕慕^大部分內(nèi)容也是以文字方式組織的,淘寶和京東的Query擴(kuò)展到了圖片,可以上傳圖片搜同款,更加精確到具體商品。
另外,我們看到搜索框的下方有熱搜詞,這種設(shè)置有兩種目的:一是減少用戶的輸入操作;二是營(yíng)銷需要,產(chǎn)生廣告效應(yīng),可推介。
搜索框中也加入了類目聯(lián)合搜索,淘寶網(wǎng)是商品來(lái)源的大類篩選,而亞馬遜和當(dāng)當(dāng)具體到了個(gè)性化類目,可以和類目關(guān)鍵詞完全匹配,聯(lián)合關(guān)鍵詞和類目雙重搜索。
在搜索框輸入關(guān)鍵字時(shí),系統(tǒng)會(huì)匹配一個(gè)query list,或者一些分類建議,方便用戶向檢索系統(tǒng)提供給準(zhǔn)確的query以及分類范圍,減少用戶進(jìn)行重復(fù)搜索的次數(shù)。
除了Query檢索,用戶按照商品類目搜索的頻率也很高。說(shuō)到類目,就要涉及到類目屬性體系。一般來(lái)說(shuō),類目體系分前端類目體系和后端類目體系。
電商搜索引擎的Query搜索和類目搜索往往伴隨著過(guò)濾功能。
一般在網(wǎng)站買東西時(shí),搜了一個(gè)關(guān)健詞,例如“毛巾”,之后所有相關(guān)品牌、材質(zhì)等分類的選擇就會(huì)呈現(xiàn)在我們面前,可以根據(jù)必要的條件縮小搜索范圍。
過(guò)濾的方式包含:分類過(guò)濾、標(biāo)簽過(guò)濾、價(jià)格區(qū)間過(guò)濾、地域過(guò)濾、庫(kù)存過(guò)濾、是否自營(yíng)等。另外電商搜索引擎支持各種維度的排序,包含銷量、信用、價(jià)格等屬性的排序,支持更廣緯度的搜索。
在過(guò)濾頁(yè)面,依然有搜索框,滾屏查看商品時(shí),搜索區(qū)會(huì)浮于頁(yè)面之上,比較了淘寶、京東、當(dāng)當(dāng)、蘇寧易購(gòu)和亞馬遜,大家對(duì)搜索框和類目的位置有沒有覺得熟悉呢?對(duì),你想到了,那就是“F型”布局和“熱力圖“。
根據(jù)用戶瀏覽網(wǎng)頁(yè)的可預(yù)測(cè)行為,讓用戶在幾秒鐘內(nèi),快速鎖定搜索引擎,可見搜索引擎在電商平臺(tái)上是如何重要了!
電商平臺(tái)的搜索引擎為什么會(huì)大同小異呢?
此處只說(shuō)UI,那是因?yàn)橛脩袅?xí)慣用他們的經(jīng)驗(yàn)來(lái)感受新的東西,當(dāng)訪問(wèn)一個(gè)新網(wǎng)站時(shí),他們會(huì)憑經(jīng)驗(yàn)去瀏覽一些習(xí)慣的地方,那些地方都是他們之前在其他大多數(shù)網(wǎng)站上經(jīng)常瀏覽的,遵循用戶的這種習(xí)慣,所以相近的平臺(tái)越來(lái)越趨同化。畢竟,我們不需要重復(fù)造輪子嘛。
關(guān)于電商系統(tǒng)搜索引擎后臺(tái)的架構(gòu)設(shè)計(jì)
搜索功能可通過(guò)簡(jiǎn)單的關(guān)鍵字搜索,后端給出一個(gè)非準(zhǔn)確的搜索結(jié)果集,用戶通過(guò)篩選條件再進(jìn)一步過(guò)濾,從而得到用戶最終想要的結(jié)果集。
電商搜索引擎的架構(gòu)因?yàn)殡娚趟阉饕话愕乃阉饕鎱^(qū)別很大,所以在架構(gòu)的設(shè)計(jì)上也獨(dú)具特色。
首先,搜索引擎的實(shí)現(xiàn)方式有很多種,有谷歌、百度、搜狗這種非常大的公司,也有京東、淘寶、當(dāng)當(dāng)這樣的電商搜索引擎,很多中小型的電商可能更喜歡用一個(gè)開源的搜索引擎。
01、頁(yè)面布局
一般搜索頁(yè)的組成包括:
商品搜索詞入口:用戶可以輸入關(guān)鍵字進(jìn)行全文搜索
前臺(tái)類目樹(有些平臺(tái)是前臺(tái)后臺(tái)公用統(tǒng)一的類目):類目分類
搜索引擎由三部分組成:商品屬性篩選、個(gè)性篩選、商品列表組成。
廣告推薦:有商品、店鋪、文章推薦。
02、搜索引擎系統(tǒng)架構(gòu)
該系統(tǒng)真正接受用戶請(qǐng)求并響應(yīng)的系統(tǒng)。為了用戶體驗(yàn)的需要,首先增加Query Processor服務(wù),負(fù)責(zé)查詢意圖分析提升搜索的準(zhǔn)確性。隨著訪問(wèn)量的增長(zhǎng),接著增加緩存模塊,提升請(qǐng)求處理性能。接著隨著數(shù)據(jù)量(商品量)的增長(zhǎng),將CMS服務(wù)從檢索服務(wù)中獨(dú)立出去,成為Detail服務(wù)。數(shù)據(jù)量的進(jìn)一步增長(zhǎng),對(duì)數(shù)據(jù)進(jìn)行類似數(shù)據(jù)庫(kù)分庫(kù)分表的分片操作。這時(shí)候,在線檢索服務(wù)由多個(gè)分片的searcher列組成。自然而然,需要一個(gè)merger服務(wù),將多個(gè)分片的結(jié)果進(jìn)行合并。
03、索引系統(tǒng)
該系統(tǒng)是搜索技術(shù)的核心,在進(jìn)入這個(gè)系統(tǒng)之前,搜索信息仍然是以商品維度進(jìn)行存儲(chǔ)的。索引系統(tǒng)負(fù)責(zé)生成一種以關(guān)鍵字維度進(jìn)行存儲(chǔ)的信息,一般稱之為倒排索引。系統(tǒng)對(duì)于全量和增量的處理是一致的,唯一的區(qū)別在于待處理數(shù)據(jù)量的差異。一般情況下,全量數(shù)據(jù)索引由于數(shù)據(jù)量龐大,采用hadoop進(jìn)行;實(shí)時(shí)數(shù)據(jù)量小,采用單機(jī)進(jìn)行索引生產(chǎn)。
電商搜索引擎系統(tǒng),與網(wǎng)頁(yè)搜索引擎不同,作為線上交易平臺(tái),會(huì)更偏向于用交易數(shù)據(jù)和互動(dòng)數(shù)據(jù)作為排名考量指標(biāo)。如下單付款量、發(fā)貨速度、響應(yīng)速度、好評(píng)率、店鋪收藏量、退貨率等,那么這些指標(biāo)會(huì)不會(huì)變?一定會(huì)變,與搜索引擎一樣,電商平臺(tái)也需要打擊作弊行為,不斷尋找更適合的體現(xiàn)優(yōu)質(zhì)商鋪的方式,讓良幣驅(qū)逐劣幣,才能營(yíng)造一個(gè)健康的購(gòu)物生態(tài)。
