国产日产高清影院­_国产精品老女人精品综合­_亚洲性在线看高清h片­_亚洲免费99视频在线观看­_日韩欧美国产高清91

新聞資訊

熱門推薦

咨詢熱線

咨詢熱線 400-8325-007

熱門標(biāo)簽

| 當(dāng)前位置: 首頁 >> 新聞資訊 >> 行業(yè)動態(tài)

未來AI技術(shù)應(yīng)用的五大領(lǐng)域

發(fā)布時間:2023-06-10 19:09:37 作者:玨佳寧波獵頭公司 點擊次數(shù):509

機器學(xué)習(xí)在Quora的五大應(yīng)用場景,我們是如何在每一個功能上應(yīng)用機器學(xué)習(xí)的。

1. 查找信息

Quora通過問答的形式實現(xiàn)知識的分享。分享從用戶提出問題(或者叫“信息需求”)開始。在用戶提問之后,我們的機器學(xué)習(xí)系統(tǒng)開始進(jìn)行問題理解,例如,從問題中抽取信息,便于后續(xù)的處理。

我們十分關(guān)注內(nèi)容的質(zhì)量,不過好的內(nèi)容是從好的問題開始的。我們的機器學(xué)習(xí)系統(tǒng)對問題進(jìn)行質(zhì)量分類,幫助我們識別出高質(zhì)量和低質(zhì)量的問題。除了問題的質(zhì)量,我們還把問題分成不同的類型,這樣我們在后續(xù)流程中就知道該如何處理這些問題。

最后,我們給每個問題打上主題標(biāo)簽,用于標(biāo)記某個問題是屬于哪個主題的。大多數(shù)主題建模系統(tǒng)會處理大量的文本和少量的主題,而我們需要處理簡短的文本和超過百萬的潛在主題,所以這個對于我們來說更加具有挑戰(zhàn)性。

  我們提取問題和上下文的特性,例如,問題的提問者、提問的地點,等等。

另外一種可以滿足提問用戶需求的方式是讓他們搜索已有的問題,從而找到可以解答他們疑問的內(nèi)容。我們有兩個這樣的系統(tǒng),一個是提問框,一個是全文檢索。前者在Quora主頁頂部提供了一個提問框,可以列出排名靠前的匹配問題;后者則提供了更加深入的內(nèi)容匹配,可以通過點擊提問框里的“搜索”按鈕來查看匹配的內(nèi)容。這兩個系統(tǒng)使用了不同的排名算法,這些算法具有不同的搜索速度、匹配度以及搜索的深度和廣度。

2. 為問題尋找答案

問題理解”系統(tǒng)的產(chǎn)出成為下一步處理的重要輸入:從專家那里獲得答案。在這一步,我們?nèi)匀皇褂脵C器學(xué)習(xí)系統(tǒng)來幫我們解決問題。

Request Answers(之前叫Ask To Answer)是Quora的一個產(chǎn)品特性,用戶可以向其他人發(fā)送請求,請求他們來回答指定的問題。我們把這個特性歸結(jié)為一個機器學(xué)習(xí)問題,我們的另一篇博文“Ask To Answer as a Machine Learning Problem”對這個問題進(jìn)行了詳細(xì)的描述。

除了A2A,我們主要通過主頁的問題種子(feed)來對未解答的問題和專家進(jìn)行匹配。種子的問題排名對我們來說是一個非常重要的機器學(xué)習(xí)問題。我們要考慮問題本身的屬性、用戶的屬性,以及其他一系列原始屬性,并將它們作為排名模型的輸入,為用戶生成具有主題化、相關(guān)性和定制化的種子。下面的截圖展示了幾天前我的種子當(dāng)中包含了哪些問題。

  3. 閱讀內(nèi)容

從上圖可以看到,種子里不僅包含了問題,還包含了答案。種子的答案排名是我們的另一個非常重要的機器學(xué)習(xí)問題。問題排名和答案排名使用的是相似的底層系統(tǒng),不過因為要達(dá)成的目的不一樣,所以在底層模型里使用的特征是不一樣的。我們會向用戶發(fā)送Email Digests,這也是另外一個機器學(xué)習(xí)的使用場景。以上這些排名問題都是通過高級的機器學(xué)習(xí)系統(tǒng)來解決的,這些系統(tǒng)通過多種模型和大量特征來完成最終的排名。

對于找到感興趣問題的用戶,我們要確保Quora能夠為他們提供最佳的閱讀體驗。問題答案排名也是一個非常重要的機器學(xué)習(xí)問題,它可以確保與問題具有最高相關(guān)度的答案排在最前面。我們在“A Machine Approach to Ranking Answers on Quora”這篇文章里解釋了答案排名的細(xì)節(jié)。我們還對評論進(jìn)行排名,確保讀者可以看到相關(guān)度最高的評論排在最前面。這些排名系統(tǒng)遠(yuǎn)遠(yuǎn)超出了普通的upvote和downvote,它們通過相關(guān)的用戶特征、內(nèi)容質(zhì)量、參與度等信息來完成最終的排名。

我們還希望用戶在閱讀完問題的答案之后,能夠找到更多相關(guān)的內(nèi)容。于是,找出相關(guān)問題就成為了機器學(xué)習(xí)要為我們提供的另一個特性。我們在問題頁面上展示了相關(guān)的問題列表,方便用戶瀏覽問題。相關(guān)主題(Related Topics)和趨勢主題(Trending Topics)也可以幫助讀者更好地瀏覽Quora。我們還在主頁上放置了一些板塊,比如可關(guān)注的主題和可關(guān)注的用戶,它們也都是基于我們對用戶的了解程度而定制的推薦系統(tǒng)。

以上的機器學(xué)習(xí)系統(tǒng)最為重要的元素就是個性化。個性化意味著產(chǎn)品和底層的系統(tǒng)需要與Quora的每一個用戶相關(guān)。我們的用戶理解組件是個性化系統(tǒng)的一個重要組件,我們抽取了用戶的各種特征,比如他們喜歡和不喜歡的主題、他們在各個領(lǐng)域的專長,以及他們的社交網(wǎng)絡(luò)屬性。我們還有各種“用戶實體”關(guān)系系統(tǒng),比如用戶與主題之間的關(guān)系、用戶和用戶之間的關(guān)系,等等。這些個性化的信息不僅可以作為“閱讀”應(yīng)用的輸入,還可以用于為問題尋找匹配的專家。

4. 保持高質(zhì)量的內(nèi)容

在用戶體驗方面,Quora的內(nèi)容質(zhì)量是一個非常關(guān)鍵的因素。我們要確保我們的問題、答案、主題和其他內(nèi)容都是以高質(zhì)量為起點,并且一直保持很高的質(zhì)量。為了做到這一點,我們使用了一些機器學(xué)習(xí)系統(tǒng)來保證網(wǎng)站內(nèi)容的質(zhì)量。

重復(fù)問題檢測:我們檢測具有相同目的的問題,并把它們合并成單個問題。我們已經(jīng)就該問題展開過討論,并發(fā)布了一個重復(fù)問題的數(shù)據(jù)集,我們還開展了Kaggle競賽。惡意內(nèi)容檢測: Quora有一個口號——“Be Nice, Be Respectful”,不過對于一個網(wǎng)絡(luò)社區(qū)來說,這是一個很大的挑戰(zhàn)。我們同時使用機器學(xué)習(xí)和人工審查來識別具有侵犯性的內(nèi)容,這樣就可以保護(hù)我們的用戶,確保他們擁有良好的體驗。垃圾檢測:對于大多數(shù)由用戶生成內(nèi)容的應(yīng)用來說,垃圾檢測是一個無法回避的問題,我們也不例外。我們有一些機器學(xué)習(xí)系統(tǒng)專門解決這個問題。

我們還有其他很多機器學(xué)習(xí)系統(tǒng)用于維持高質(zhì)量的網(wǎng)站內(nèi)容,不過這里不一一例舉了。

5. 廣告優(yōu)化

我們在2023年06月10日啟動了貨幣化(monetization)。我們在問題頁面上展示與問題相關(guān)的廣告。我們通過機器學(xué)習(xí)進(jìn)行廣告CTR預(yù)測,確保所展示的問題與用戶具有最高的相關(guān)度,同時能夠為廣告投放者帶來最高的收益。不過,我們在貨幣化方面才剛剛起步,在未來,我們會繼續(xù)擴展機器學(xué)習(xí)在這方面的應(yīng)用。

除了上述的五個應(yīng)用場景,我們還使用了其他機器學(xué)習(xí)系統(tǒng),不過就不在這里一一累述了。

模型和庫

我們的團隊使用了最好的模型和工具,同時也進(jìn)行了標(biāo)準(zhǔn)化,并能夠重用這些工具。以下列出了一些我們使用的模型(排名不分先后)。

Logistic RegressionElastic NetsGradient Boosted Decision TreesRandom Forests(深度)神經(jīng)網(wǎng)絡(luò)LambdaMART矩陣因子分解 (SVD、BPR、Weighted ALS,等)向量模型和其他NLP技術(shù)k-means及其他聚類技術(shù)其他

我們也支持很多開源和內(nèi)部的庫,比如TensorFlow、sklearn、xgboost、RankLib、nltk、QMF(Quora自己的矩陣因子分解庫)以及其他一些內(nèi)部的庫。

機器學(xué)習(xí)平臺

自2023年06月10日以來,我們組建了自己的機器學(xué)習(xí)平臺團隊。組建該團隊的目標(biāo)是為了簡化機器學(xué)習(xí)工程師的工作,包括離線的工作(訓(xùn)練模型)和在線的工作(提供服務(wù))。在在線工作方面,平臺團隊為機器學(xué)習(xí)工程師們提供了可靠和高可用的構(gòu)建和部署系統(tǒng),工程師們在這個平臺上可以構(gòu)建和部署高性能、低成本的實時機器學(xué)習(xí)應(yīng)用。在離線工作方面,機器學(xué)習(xí)工程師們可以基于這個平臺構(gòu)建數(shù)據(jù)管道,以可重用和標(biāo)準(zhǔn)化的方式快速地抽取特征和訓(xùn)練模型。

 


本文標(biāo)簽

相關(guān)文章

离岛区| 贺兰县| 江达县| 吉安市| 葵青区| 延庆县| 中卫市| 西峡县| 青海省| 曲阜市| 察雅县| 宿松县| 阜平县| 新乐市| 皋兰县| 莆田市| 竹溪县| 井冈山市| 大竹县| 大冶市| 来凤县| 澎湖县| 德惠市| 高平市| 宜兰县| 昌邑市| 华蓥市| 宣威市| 油尖旺区| 甘肃省| 三台县| 江油市| 新巴尔虎左旗| 阿巴嘎旗| 恩施市| 德钦县| 读书| 瑞昌市| 涟源市| 高陵县| 保靖县|