新聞資訊

未來AI技術(shù)應(yīng)用的五大領(lǐng)域

發(fā)布時間：2023-06-10 19:09:37 作者：玨佳寧波獵頭公司點擊次數(shù)：509

機器學(xué)習(xí)在Quora的五大應(yīng)用場景，我們是如何在每一個功能上應(yīng)用機器學(xué)習(xí)的。

1. 查找信息

Quora通過問答的形式實現(xiàn)知識的分享。分享從用戶提出問題（或者叫“信息需求”）開始。在用戶提問之后，我們的機器學(xué)習(xí)系統(tǒng)開始進(jìn)行問題理解，例如，從問題中抽取信息，便于后續(xù)的處理。

我們十分關(guān)注內(nèi)容的質(zhì)量，不過好的內(nèi)容是從好的問題開始的。我們的機器學(xué)習(xí)系統(tǒng)對問題進(jìn)行質(zhì)量分類，幫助我們識別出高質(zhì)量和低質(zhì)量的問題。除了問題的質(zhì)量，我們還把問題分成不同的類型，這樣我們在后續(xù)流程中就知道該如何處理這些問題。

最后，我們給每個問題打上主題標(biāo)簽，用于標(biāo)記某個問題是屬于哪個主題的。大多數(shù)主題建模系統(tǒng)會處理大量的文本和少量的主題，而我們需要處理簡短的文本和超過百萬的潛在主題，所以這個對于我們來說更加具有挑戰(zhàn)性。

　　我們提取問題和上下文的特性，例如，問題的提問者、提問的地點，等等。

另外一種可以滿足提問用戶需求的方式是讓他們搜索已有的問題，從而找到可以解答他們疑問的內(nèi)容。我們有兩個這樣的系統(tǒng)，一個是提問框，一個是全文檢索。前者在Quora主頁頂部提供了一個提問框，可以列出排名靠前的匹配問題；后者則提供了更加深入的內(nèi)容匹配，可以通過點擊提問框里的“搜索”按鈕來查看匹配的內(nèi)容。這兩個系統(tǒng)使用了不同的排名算法，這些算法具有不同的搜索速度、匹配度以及搜索的深度和廣度。

2. 為問題尋找答案

“問題理解”系統(tǒng)的產(chǎn)出成為下一步處理的重要輸入：從專家那里獲得答案。在這一步，我們?nèi)匀皇褂脵C器學(xué)習(xí)系統(tǒng)來幫我們解決問題。

Request Answers（之前叫Ask To Answer）是Quora的一個產(chǎn)品特性，用戶可以向其他人發(fā)送請求，請求他們來回答指定的問題。我們把這個特性歸結(jié)為一個機器學(xué)習(xí)問題，我們的另一篇博文“Ask To Answer as a Machine Learning Problem”對這個問題進(jìn)行了詳細(xì)的描述。

除了A2A，我們主要通過主頁的問題種子（feed）來對未解答的問題和專家進(jìn)行匹配。種子的問題排名對我們來說是一個非常重要的機器學(xué)習(xí)問題。我們要考慮問題本身的屬性、用戶的屬性，以及其他一系列原始屬性，并將它們作為排名模型的輸入，為用戶生成具有主題化、相關(guān)性和定制化的種子。下面的截圖展示了幾天前我的種子當(dāng)中包含了哪些問題。

　　3. 閱讀內(nèi)容

從上圖可以看到，種子里不僅包含了問題，還包含了答案。種子的答案排名是我們的另一個非常重要的機器學(xué)習(xí)問題。問題排名和答案排名使用的是相似的底層系統(tǒng)，不過因為要達(dá)成的目的不一樣，所以在底層模型里使用的特征是不一樣的。我們會向用戶發(fā)送Email Digests，這也是另外一個機器學(xué)習(xí)的使用場景。以上這些排名問題都是通過高級的機器學(xué)習(xí)系統(tǒng)來解決的，這些系統(tǒng)通過多種模型和大量特征來完成最終的排名。

對于找到感興趣問題的用戶，我們要確保Quora能夠為他們提供最佳的閱讀體驗。問題答案排名也是一個非常重要的機器學(xué)習(xí)問題，它可以確保與問題具有最高相關(guān)度的答案排在最前面。我們在“A Machine Approach to Ranking Answers on Quora”這篇文章里解釋了答案排名的細(xì)節(jié)。我們還對評論進(jìn)行排名，確保讀者可以看到相關(guān)度最高的評論排在最前面。這些排名系統(tǒng)遠(yuǎn)遠(yuǎn)超出了普通的upvote和downvote，它們通過相關(guān)的用戶特征、內(nèi)容質(zhì)量、參與度等信息來完成最終的排名。

我們還希望用戶在閱讀完問題的答案之后，能夠找到更多相關(guān)的內(nèi)容。于是，找出相關(guān)問題就成為了機器學(xué)習(xí)要為我們提供的另一個特性。我們在問題頁面上展示了相關(guān)的問題列表，方便用戶瀏覽問題。相關(guān)主題（Related Topics）和趨勢主題（Trending Topics）也可以幫助讀者更好地瀏覽Quora。我們還在主頁上放置了一些板塊，比如可關(guān)注的主題和可關(guān)注的用戶，它們也都是基于我們對用戶的了解程度而定制的推薦系統(tǒng)。

以上的機器學(xué)習(xí)系統(tǒng)最為重要的元素就是個性化。個性化意味著產(chǎn)品和底層的系統(tǒng)需要與Quora的每一個用戶相關(guān)。我們的用戶理解組件是個性化系統(tǒng)的一個重要組件，我們抽取了用戶的各種特征，比如他們喜歡和不喜歡的主題、他們在各個領(lǐng)域的專長，以及他們的社交網(wǎng)絡(luò)屬性。我們還有各種“用戶實體”關(guān)系系統(tǒng)，比如用戶與主題之間的關(guān)系、用戶和用戶之間的關(guān)系，等等。這些個性化的信息不僅可以作為“閱讀”應(yīng)用的輸入，還可以用于為問題尋找匹配的專家。

4. 保持高質(zhì)量的內(nèi)容

在用戶體驗方面，Quora的內(nèi)容質(zhì)量是一個非常關(guān)鍵的因素。我們要確保我們的問題、答案、主題和其他內(nèi)容都是以高質(zhì)量為起點，并且一直保持很高的質(zhì)量。為了做到這一點，我們使用了一些機器學(xué)習(xí)系統(tǒng)來保證網(wǎng)站內(nèi)容的質(zhì)量。

重復(fù)問題檢測：我們檢測具有相同目的的問題，并把它們合并成單個問題。我們已經(jīng)就該問題展開過討論，并發(fā)布了一個重復(fù)問題的數(shù)據(jù)集，我們還開展了Kaggle競賽。惡意內(nèi)容檢測： Quora有一個口號——“Be Nice, Be Respectful”，不過對于一個網(wǎng)絡(luò)社區(qū)來說，這是一個很大的挑戰(zhàn)。我們同時使用機器學(xué)習(xí)和人工審查來識別具有侵犯性的內(nèi)容，這樣就可以保護(hù)我們的用戶，確保他們擁有良好的體驗。垃圾檢測：對于大多數(shù)由用戶生成內(nèi)容的應(yīng)用來說，垃圾檢測是一個無法回避的問題，我們也不例外。我們有一些機器學(xué)習(xí)系統(tǒng)專門解決這個問題。

我們還有其他很多機器學(xué)習(xí)系統(tǒng)用于維持高質(zhì)量的網(wǎng)站內(nèi)容，不過這里不一一例舉了。

5. 廣告優(yōu)化

我們在2023年06月10日啟動了貨幣化（monetization）。我們在問題頁面上展示與問題相關(guān)的廣告。我們通過機器學(xué)習(xí)進(jìn)行廣告CTR預(yù)測，確保所展示的問題與用戶具有最高的相關(guān)度，同時能夠為廣告投放者帶來最高的收益。不過，我們在貨幣化方面才剛剛起步，在未來，我們會繼續(xù)擴展機器學(xué)習(xí)在這方面的應(yīng)用。

除了上述的五個應(yīng)用場景，我們還使用了其他機器學(xué)習(xí)系統(tǒng)，不過就不在這里一一累述了。

模型和庫

我們的團隊使用了最好的模型和工具，同時也進(jìn)行了標(biāo)準(zhǔn)化，并能夠重用這些工具。以下列出了一些我們使用的模型（排名不分先后）。

Logistic RegressionElastic NetsGradient Boosted Decision TreesRandom Forests(深度)神經(jīng)網(wǎng)絡(luò)LambdaMART矩陣因子分解 (SVD、BPR、Weighted ALS，等)向量模型和其他NLP技術(shù)k-means及其他聚類技術(shù)其他

我們也支持很多開源和內(nèi)部的庫，比如TensorFlow、sklearn、xgboost、RankLib、nltk、QMF（Quora自己的矩陣因子分解庫）以及其他一些內(nèi)部的庫。

機器學(xué)習(xí)平臺

自2023年06月10日以來，我們組建了自己的機器學(xué)習(xí)平臺團隊。組建該團隊的目標(biāo)是為了簡化機器學(xué)習(xí)工程師的工作，包括離線的工作（訓(xùn)練模型）和在線的工作（提供服務(wù)）。在在線工作方面，平臺團隊為機器學(xué)習(xí)工程師們提供了可靠和高可用的構(gòu)建和部署系統(tǒng)，工程師們在這個平臺上可以構(gòu)建和部署高性能、低成本的實時機器學(xué)習(xí)應(yīng)用。在離線工作方面，機器學(xué)習(xí)工程師們可以基于這個平臺構(gòu)建數(shù)據(jù)管道，以可重用和標(biāo)準(zhǔn)化的方式快速地抽取特征和訓(xùn)練模型。

上一篇：萬億級預(yù)制菜市場未來的走向
下一篇：寧波獵頭公司為什么不穩(wěn)定？