新聞資訊
熱門推薦
- 2024年半導(dǎo)體行業(yè)人才需求與薪資水平
- 大數(shù)據(jù)分析技術(shù):開啟數(shù)據(jù)驅(qū)動的新時代
- 高端智能制造:引領(lǐng)未來產(chǎn)業(yè)革命
- 國內(nèi)儲能行業(yè):規(guī)模擴張與技術(shù)演進(jìn)
- 獵頭公司教你如何選擇人才工具?
- 面試過程中,HR經(jīng)理如何判斷人選的穩(wěn)定性?
- HR 經(jīng)理面試實戰(zhàn)經(jīng)驗總結(jié)
- 獵頭行業(yè)細(xì)分垂直領(lǐng)域業(yè)務(wù)如何開拓和發(fā)展?
- 寧波獵頭公司引進(jìn)海外高層次人才的途徑
咨詢熱線 400-8325-007
熱門標(biāo)簽
- 寧波獵頭 寧波獵頭公司哪家好 寧波的獵頭公司 寧波有哪些獵頭公司 高級人才 高層次人才 寧波獵頭公司收費標(biāo)準(zhǔn) 寧波本地獵頭公司 寧波獵頭公司收費 寧波十大獵頭公司 青年人才 寧波獵頭公司有哪些 寧波靠譜獵頭公司 火炬計劃 寧波獵頭公司排名 青年人才項目 高端人才 海外高層次人才 國家海外高層次人才引進(jìn)計劃 領(lǐng)軍人才創(chuàng)新 寧波獵頭機構(gòu) 省海外高層次人才 省海外高層次人才引進(jìn)計劃 海外人才 創(chuàng)新人才 寧波獵頭公司 寧波知名獵頭公司 領(lǐng)軍人才創(chuàng)新項目 寧波十大知名獵頭公司 寧波專業(yè)獵頭公司 啟明計劃 國家海外高層次人才 寧波優(yōu)秀獵頭公司 寧波獵頭公司服務(wù)
未來AI技術(shù)應(yīng)用的五大領(lǐng)域
機器學(xué)習(xí)在Quora的五大應(yīng)用場景,我們是如何在每一個功能上應(yīng)用機器學(xué)習(xí)的。
1. 查找信息
Quora通過問答的形式實現(xiàn)知識的分享。分享從用戶提出問題(或者叫“信息需求”)開始。在用戶提問之后,我們的機器學(xué)習(xí)系統(tǒng)開始進(jìn)行問題理解,例如,從問題中抽取信息,便于后續(xù)的處理。
我們十分關(guān)注內(nèi)容的質(zhì)量,不過好的內(nèi)容是從好的問題開始的。我們的機器學(xué)習(xí)系統(tǒng)對問題進(jìn)行質(zhì)量分類,幫助我們識別出高質(zhì)量和低質(zhì)量的問題。除了問題的質(zhì)量,我們還把問題分成不同的類型,這樣我們在后續(xù)流程中就知道該如何處理這些問題。
最后,我們給每個問題打上主題標(biāo)簽,用于標(biāo)記某個問題是屬于哪個主題的。大多數(shù)主題建模系統(tǒng)會處理大量的文本和少量的主題,而我們需要處理簡短的文本和超過百萬的潛在主題,所以這個對于我們來說更加具有挑戰(zhàn)性。
我們提取問題和上下文的特性,例如,問題的提問者、提問的地點,等等。
另外一種可以滿足提問用戶需求的方式是讓他們搜索已有的問題,從而找到可以解答他們疑問的內(nèi)容。我們有兩個這樣的系統(tǒng),一個是提問框,一個是全文檢索。前者在Quora主頁頂部提供了一個提問框,可以列出排名靠前的匹配問題;后者則提供了更加深入的內(nèi)容匹配,可以通過點擊提問框里的“搜索”按鈕來查看匹配的內(nèi)容。這兩個系統(tǒng)使用了不同的排名算法,這些算法具有不同的搜索速度、匹配度以及搜索的深度和廣度。
2. 為問題尋找答案
“問題理解”系統(tǒng)的產(chǎn)出成為下一步處理的重要輸入:從專家那里獲得答案。在這一步,我們?nèi)匀皇褂脵C器學(xué)習(xí)系統(tǒng)來幫我們解決問題。
Request Answers(之前叫Ask To Answer)是Quora的一個產(chǎn)品特性,用戶可以向其他人發(fā)送請求,請求他們來回答指定的問題。我們把這個特性歸結(jié)為一個機器學(xué)習(xí)問題,我們的另一篇博文“Ask To Answer as a Machine Learning Problem”對這個問題進(jìn)行了詳細(xì)的描述。
除了A2A,我們主要通過主頁的問題種子(feed)來對未解答的問題和專家進(jìn)行匹配。種子的問題排名對我們來說是一個非常重要的機器學(xué)習(xí)問題。我們要考慮問題本身的屬性、用戶的屬性,以及其他一系列原始屬性,并將它們作為排名模型的輸入,為用戶生成具有主題化、相關(guān)性和定制化的種子。下面的截圖展示了幾天前我的種子當(dāng)中包含了哪些問題。
3. 閱讀內(nèi)容
從上圖可以看到,種子里不僅包含了問題,還包含了答案。種子的答案排名是我們的另一個非常重要的機器學(xué)習(xí)問題。問題排名和答案排名使用的是相似的底層系統(tǒng),不過因為要達(dá)成的目的不一樣,所以在底層模型里使用的特征是不一樣的。我們會向用戶發(fā)送Email Digests,這也是另外一個機器學(xué)習(xí)的使用場景。以上這些排名問題都是通過高級的機器學(xué)習(xí)系統(tǒng)來解決的,這些系統(tǒng)通過多種模型和大量特征來完成最終的排名。
對于找到感興趣問題的用戶,我們要確保Quora能夠為他們提供最佳的閱讀體驗。問題答案排名也是一個非常重要的機器學(xué)習(xí)問題,它可以確保與問題具有最高相關(guān)度的答案排在最前面。我們在“A Machine Approach to Ranking Answers on Quora”這篇文章里解釋了答案排名的細(xì)節(jié)。我們還對評論進(jìn)行排名,確保讀者可以看到相關(guān)度最高的評論排在最前面。這些排名系統(tǒng)遠(yuǎn)遠(yuǎn)超出了普通的upvote和downvote,它們通過相關(guān)的用戶特征、內(nèi)容質(zhì)量、參與度等信息來完成最終的排名。
我們還希望用戶在閱讀完問題的答案之后,能夠找到更多相關(guān)的內(nèi)容。于是,找出相關(guān)問題就成為了機器學(xué)習(xí)要為我們提供的另一個特性。我們在問題頁面上展示了相關(guān)的問題列表,方便用戶瀏覽問題。相關(guān)主題(Related Topics)和趨勢主題(Trending Topics)也可以幫助讀者更好地瀏覽Quora。我們還在主頁上放置了一些板塊,比如可關(guān)注的主題和可關(guān)注的用戶,它們也都是基于我們對用戶的了解程度而定制的推薦系統(tǒng)。
以上的機器學(xué)習(xí)系統(tǒng)最為重要的元素就是個性化。個性化意味著產(chǎn)品和底層的系統(tǒng)需要與Quora的每一個用戶相關(guān)。我們的用戶理解組件是個性化系統(tǒng)的一個重要組件,我們抽取了用戶的各種特征,比如他們喜歡和不喜歡的主題、他們在各個領(lǐng)域的專長,以及他們的社交網(wǎng)絡(luò)屬性。我們還有各種“用戶實體”關(guān)系系統(tǒng),比如用戶與主題之間的關(guān)系、用戶和用戶之間的關(guān)系,等等。這些個性化的信息不僅可以作為“閱讀”應(yīng)用的輸入,還可以用于為問題尋找匹配的專家。
4. 保持高質(zhì)量的內(nèi)容
在用戶體驗方面,Quora的內(nèi)容質(zhì)量是一個非常關(guān)鍵的因素。我們要確保我們的問題、答案、主題和其他內(nèi)容都是以高質(zhì)量為起點,并且一直保持很高的質(zhì)量。為了做到這一點,我們使用了一些機器學(xué)習(xí)系統(tǒng)來保證網(wǎng)站內(nèi)容的質(zhì)量。
重復(fù)問題檢測:我們檢測具有相同目的的問題,并把它們合并成單個問題。我們已經(jīng)就該問題展開過討論,并發(fā)布了一個重復(fù)問題的數(shù)據(jù)集,我們還開展了Kaggle競賽。惡意內(nèi)容檢測: Quora有一個口號——“Be Nice, Be Respectful”,不過對于一個網(wǎng)絡(luò)社區(qū)來說,這是一個很大的挑戰(zhàn)。我們同時使用機器學(xué)習(xí)和人工審查來識別具有侵犯性的內(nèi)容,這樣就可以保護(hù)我們的用戶,確保他們擁有良好的體驗。垃圾檢測:對于大多數(shù)由用戶生成內(nèi)容的應(yīng)用來說,垃圾檢測是一個無法回避的問題,我們也不例外。我們有一些機器學(xué)習(xí)系統(tǒng)專門解決這個問題。
我們還有其他很多機器學(xué)習(xí)系統(tǒng)用于維持高質(zhì)量的網(wǎng)站內(nèi)容,不過這里不一一例舉了。
5. 廣告優(yōu)化
我們在2023年06月10日啟動了貨幣化(monetization)。我們在問題頁面上展示與問題相關(guān)的廣告。我們通過機器學(xué)習(xí)進(jìn)行廣告CTR預(yù)測,確保所展示的問題與用戶具有最高的相關(guān)度,同時能夠為廣告投放者帶來最高的收益。不過,我們在貨幣化方面才剛剛起步,在未來,我們會繼續(xù)擴展機器學(xué)習(xí)在這方面的應(yīng)用。
除了上述的五個應(yīng)用場景,我們還使用了其他機器學(xué)習(xí)系統(tǒng),不過就不在這里一一累述了。
模型和庫
我們的團隊使用了最好的模型和工具,同時也進(jìn)行了標(biāo)準(zhǔn)化,并能夠重用這些工具。以下列出了一些我們使用的模型(排名不分先后)。
Logistic RegressionElastic NetsGradient Boosted Decision TreesRandom Forests(深度)神經(jīng)網(wǎng)絡(luò)LambdaMART矩陣因子分解 (SVD、BPR、Weighted ALS,等)向量模型和其他NLP技術(shù)k-means及其他聚類技術(shù)其他
我們也支持很多開源和內(nèi)部的庫,比如TensorFlow、sklearn、xgboost、RankLib、nltk、QMF(Quora自己的矩陣因子分解庫)以及其他一些內(nèi)部的庫。
機器學(xué)習(xí)平臺
自2023年06月10日以來,我們組建了自己的機器學(xué)習(xí)平臺團隊。組建該團隊的目標(biāo)是為了簡化機器學(xué)習(xí)工程師的工作,包括離線的工作(訓(xùn)練模型)和在線的工作(提供服務(wù))。在在線工作方面,平臺團隊為機器學(xué)習(xí)工程師們提供了可靠和高可用的構(gòu)建和部署系統(tǒng),工程師們在這個平臺上可以構(gòu)建和部署高性能、低成本的實時機器學(xué)習(xí)應(yīng)用。在離線工作方面,機器學(xué)習(xí)工程師們可以基于這個平臺構(gòu)建數(shù)據(jù)管道,以可重用和標(biāo)準(zhǔn)化的方式快速地抽取特征和訓(xùn)練模型。