什么是用戶畫像用戶畫像,英文又叫 User Profile,我們經(jīng)??吹皆?PPT 中展現(xiàn)出高大上的用戶畫像,展現(xiàn)的方式是采用標(biāo)簽云的方式繪制一個人的形狀,或者在一個人物形象旁邊列出若干人口統(tǒng)計學(xué)屬性,以此來表達(dá)“用戶畫像”這個概念。 上面這種方式看上去非常炫酷,但實際上這么做的目的只是為了對外展現(xiàn),用戶畫像最應(yīng)該是給機器看,而不是給人看。如果要給機器看,那每個用戶的畫像應(yīng)該就是一個向量。 用戶向量化后的結(jié)果,就是 User Profile,俗稱“用戶畫像”。所以,用戶畫像不是推薦系統(tǒng)的目的,而是在構(gòu)建推薦系統(tǒng)的過程中產(chǎn)生的一個關(guān)鍵環(huán)節(jié)的副產(chǎn)品。 通常大型推薦系統(tǒng)一般都分為召回和排序兩個階段,因為全量物品通常數(shù)量非常大,無法為一個用戶(User)逐一計算每一個物品(Item)的評分,這時候就需要一個召回階段,其實就是預(yù)先篩選一部分物品(Item),從而降低計算量,用戶畫像除了用于最終匹配評分,還要用在召回。所以,構(gòu)建用戶畫像就要以這兩個階段為目的。 用戶畫像關(guān)鍵因素建立用戶畫像有兩個關(guān)鍵點,一個是維度,另一個是量化。這里舉個簡單的例子來說明下。比如有以下幾家旅店,旅店的屬性(標(biāo)簽)如下:
對價格、環(huán)境、距離分別映射一個評分。假定都分為三個級別,價格越低評分越高,環(huán)境越好評分越高,距離越近評分越高,那么映射后的結(jié)果如下:
映射后生成旅店的特征矩陣(維度矩陣),每個旅店都對應(yīng)一個向量,比如旅店A對應(yīng)的向量就是 可以看到,最后會有一個評分列表,分別表示我對每個旅店的預(yù)估評分。了解了上面的例子后,再來看下用戶畫像中關(guān)鍵的兩個因素:維度和量化。 上面例子中選擇的維度分別是:價格、環(huán)境、距離。這幾個維度有以下幾個特點:
在實際生產(chǎn)環(huán)境中,維度名稱并不一定需要由可解釋性,維度數(shù)量以及選擇什么維度也不應(yīng)該都以主觀意愿來決定。 再來看下量化,實際生產(chǎn)環(huán)境中,用戶畫像每個維度的量化,應(yīng)該交給機器,而且以目標(biāo)為導(dǎo)向,以推薦效果好壞來反向優(yōu)化出用戶畫像才有意義。像前面的例子中的先行主觀量化而不考慮推薦效果時非常不合理的。 所以用戶畫像的量化是和第三個關(guān)鍵元素“效果”息息相關(guān)的。前面已經(jīng)說過,不要為了用戶畫像而用戶畫像,它只是推薦系統(tǒng)的一個副產(chǎn)品,所以要根據(jù)使用效果(排序好壞、召回覆蓋等指標(biāo))來指導(dǎo)用戶畫像的量化。 用戶畫像構(gòu)建方法按照對用戶向量化的手段來分,用戶畫像構(gòu)建方法分成三類: 1. 查戶口 查戶口的意思就是說直接使用原始數(shù)據(jù)作為用戶畫像,比如注冊資料中包含的人口統(tǒng)計學(xué)信息,或者瀏覽歷史、購買歷史,除了數(shù)據(jù)清洗等工作外,數(shù)據(jù)本身沒有做任何抽象和處理。通常對于用戶冷啟動等場景非常有用。 2. 堆數(shù)據(jù) 堆數(shù)據(jù)的意思就是說從歷史數(shù)據(jù)中統(tǒng)計過出需要的結(jié)果,常見的興趣標(biāo)簽就屬于這類:從歷史行為數(shù)據(jù)中去挖掘出標(biāo)簽,然后在標(biāo)簽維度上做數(shù)據(jù)統(tǒng)計,用統(tǒng)計結(jié)果作為量化結(jié)果。一般非常炫酷的用戶畫像都是通過這種方法制作的。 3. 黑盒子 黑盒子的意思是說使用機器學(xué)習(xí)方法,學(xué)習(xí)出人類無法直觀理解的稠密向量,也最不被非技術(shù)人員重視,但實際上在推薦系統(tǒng)中承擔(dān)的作用非常大。 比如使用潛語義模型構(gòu)建用戶閱讀興趣,或者使用矩陣分解得到的隱因子,或者使用深度學(xué)習(xí)模型學(xué)習(xí)用戶的 Embedding 向量。這一類用戶畫像數(shù)據(jù)因為通常是不可解釋,不能直接被人看懂。 總結(jié)用戶畫像應(yīng)該是讓機器看的,所以就需要是一種結(jié)構(gòu)化的數(shù)據(jù),可以認(rèn)為是用戶信息的向量化結(jié)果。用戶畫像的關(guān)鍵元素有維度和量化,量化時需要以推薦系統(tǒng)的效果為指導(dǎo)。通常構(gòu)建用戶畫像的方法有三種:采用原始信息(查戶口)、使用統(tǒng)計結(jié)果(可被理解)、使用機器學(xué)習(xí)方法(無法被人理解,但是很重要)。 |
|
|