機器之心報道
機器之心編輯部
近年來,伴隨著廣告主的需求變化和相關技術發展,計算經濟學理論、博弈論和人工智能技術被越來越多地應用到廣告拍賣機制、投放策略中。
決策智能在商業場景中的意義逐漸凸顯。用戶看到的每一次商品展現、商家的每一次廣告出價、平臺的每一次流量分配,背后都有龐大且復雜的決策智能做支撐。
這些動作的目標在于優化用戶購物體驗,讓廣告投放的決策過程更加智能,同時讓廣告主、媒體在平臺實現長期繁榮。廣告主希望在有限的資源投入下最大化營銷效果,平臺希望能夠建立更好的生態。然而流量環境、其他參競廣告形成的競爭環境的復雜性、以及廣告投放策略中出價、目標人群、資源位、投放時間等變量的巨大組合復雜度,使得最優廣告投放策略的計算與執行充滿了挑戰。
這些問題如何解決?效益最大化的目標具體如何分解?這些有關于決策智能的重要議題,也是領域內的研究者和從業者最關心的。
為了深入探討「數智商業場景中的決策智能」這一主題,近日,阿里媽媽博見社聯合機器之心,邀請到了北京大學鄧小鐵教授、中科院蔡少偉研究員和阿里媽媽CTO鄭波老師三位領域內的資深學者和專家,展開了一系列主題分享。
以下為鄧小鐵教授、蔡少偉研究員、鄭波老師的主題分享內容,機器之心在不改變原意的前提下進行了整理。
鄧小鐵教授:計算經濟學的幾個最新研究進展
我今天粗糙地介紹一下計算經濟學,這是一個很有歷史的研究領域,最早可以追溯到1930年。后來的計算經濟學從另外一個角度出發,將經濟學變成計算,之前的計算經濟學就是通過計算做經濟學研究,這次講一講其中的思路。
我們從計算的角度來考慮經濟學,有幾個主要關鍵問題:首先是優化,機器學習都是優化,從中可以看到很多優化體系。優化之后,還有一個問題叫做均衡,以前我們做計算經濟學是從計劃經濟的思路去做的,但當時也有一派是從世界銀行做發展中國家的發展,他們給發展中國家定計劃,從優化投入產出的思路展開。從計算角度算均衡會是很困難的問題,所以出現了一個概念,叫做可計算的一般均衡。
最近,我們也越來越多可以看到動力學系統,因為這個世界很多東西并不是均衡的狀態,特別突出看到均衡的場景是在數字經濟活動中,其中包括經濟學層面的東西,比如定價。在數字經濟中,每時每秒都可以看到交易數據和價格波動。我們可以清清楚楚看得數據的變化,而不是一年過去之后再把經濟數據統計出來。
計算經濟學的整個框架下還有很多東西。每一個經濟主體都要優化,它們共同博弈的不動點即是均衡。平臺也會博弈均衡這件事情,特別是互聯網廣告平臺,做廣告的人到平臺上來,將廣告要通過平臺、媒體發放出去。對于媒體,要把廣告位置提供出來,利用自身對某一類人群的吸引力。對于平臺,要想的是如何將大家的興趣更好地匹配。阿里媽媽作為國內最大的廣告平臺,同樣面臨著博弈均衡的問題,需要安排好各方面利益,以實現社會效益最大化,同時也實現機制設計最大收益。
我們可以從三個角度來談優化。
首先是經濟智能體刻畫的問題。很多機器學習的東西都寫成優化的問題,比如怎樣用機器學習的方法算出來制約的約束條件,包括有些環境中的約束條件。
Gitcoin將推出Grants Protocol,允許任何社區啟動包含社區決策的贈款計劃:10月8日消息,Gitcoin宣布將推出新產品Grants Protocol,這是一個目前處于封閉測試階段的工具,允許任何社區啟動自己的、包含社區決策的贈款計劃,而原有的Gitcoin Grants將繼續作為Web3公共產品運行。在接下來的幾個月中,Gitcoin將與其設計合作伙伴開啟初始輪次贈款。[2022/10/8 12:49:47]
在非完全信息下,有很多條件是未知的,原來的經濟學考慮不了如此復雜的東西,比如博弈對手的效益函數是什么、博弈對手的策略空間是什么、博弈對手都有哪些,非完全信息也是非常重要的對經濟活動的刻畫。
很多假設可以刻畫非完全信息,比如經濟人知道對手的效益函數、約束以及其他各種信息。關于彼此的效益函數有一個commonknowledge:我們知道distribution。但這個distribution怎么來的呢?這就走進入機器學習范疇:為什么player要告訴彼此、告訴我們它知道什么?針對這些,在計算角度上就有一些很合理的問題。
博弈動力學,這是計算經濟學的第三步。從實體經濟的經濟學來講,很多活動是經過了6000年演化發展過來的,是大家慢慢地博弈,直到均衡。在數字經濟中,想一下子到達均衡會是很大的挑戰。
廣告平臺優化是阿里媽媽在做的事情。我們講了這么多難的計算任務,什么時候能夠做好呢?在單參數的情況下,已有的理論能夠支撐,但是多參數怎么做到,理論上還沒有現成的定義。
很重要的一點是,整個經濟學體系已經建好了,但經濟學用到互聯網中會產生一個很大的缺陷——它是靜態的。大家肯定知道,業界的事情不是靜態的,比如說「雙十一」大促會產生很多挑戰,如何設計紅包的價格,根據市場已知模型如何建立這些東西,這些成為了今天計算經濟學重要的挑戰:一是近似求解優化,一是均衡計劃,一是平臺競爭動力學。
近似計算的難度很大,我們最多知道的均衡的解可以算到三分之一,最多是33%的錯誤率,跟最優相差33%,所以均衡計算確實挺難的。自動設計方法論、隱藏對手模型學習,是這方面的框架,這里都是跟信息容量相關的東西。
另外就是與市場上的未知對手博弈。我們要考慮至少兩個company,建立一個模型來設計它們之間的博弈,這里都是單調的,并不知道所有的信息。根據已知的信息看市場的波動、價格設計變化,我們基于此設計一個隱函數的優化模型,用機器學習方法做分析。
多方認知次序的先后給我們帶來博弈的認知層次。近年來,一些研究討論了很多一價拍賣為什么比二價拍賣好。Myerson假設所有人知道所有人的價值分布,發展了一套最優拍賣理論,但我們實際上不知道公共知識。我們自己的研究是從另外一個角度來考慮的,出發點是沒有先驗的共同知識,把原來用的概率方法建立Myerson最優拍賣理論的假設放棄掉。
在沒有這套拍賣均衡的基礎假設的環境下,最優解可以如何實現均衡?可以發現,泛化一價拍賣收益是跟Myerson相等的。這里應對買家以最優效益為目標公布的價值分布,賣家設計的Myerson最優收益,等價于它已泛化一價拍賣的期望拍賣收益。
市場分析:交易員在美聯儲決策前削減美元空頭頭寸:投資者在美聯儲宣布政策決定之前減少對美元的做空,因擔心偏向鷹派的政策可能被低估。此舉導致空頭再度陷入與強韌美元的角斗。德意志銀行首席國際策略師Alan Ruskin表示,如果美聯儲主席鮑威爾周三開始就抑制通脹發聲,投資者就應建立美元兌加元和日元的看漲頭寸。Brown Brothers Harriman策略師Win Thin表示,鑒于美國收益率面臨的風險偏于上行,美元可能會受益于債市對美聯儲和通脹前景的重新定價。[2021/6/16 23:40:19]
最終的結論是,Myerson和GFP是等價的,它們要比VCG要好,但是在IID情況下是相等的,SymmetricBNE和GSP也是等價的。
計算經濟學用到的另外一個概念是馬爾可夫博弈,一種在動態環境下的博弈,特別是無窮輪博弈求解的問題。我們對問題從三個方向進行了處理:一是為計算做了有理化的簡化,把目標限制在近似解;二是用時間折現率保證無窮輪收益的收斂性;三是數學上的分階段求以及將策略不同輪的變化局限在一輪的變化。如此,無窮求和的難點得以克服。
我們進一步在馬爾可夫博弈的應用方面簡化了計算的難度。對于比特幣的共識機制的設計,有清晰的馬爾可夫獎勵分析,而且講了一個很好的故事。按照機制設計規定,大多數人支持它就是對。但后面發現,大多數支持并不保證經濟學上的安全,有四分之一的人通過自私挖礦攻擊就可以推翻多數原則。
遠見挖礦策略:「螳螂捕蟬,黃雀在后」
對于數字經濟設計環節的問題,我們最新的工作是可以用InsightfulminingEquilibrium克服,用遠見挖礦的策略實現最優,最后是馬爾科夫博弈的構架,形成了馬爾科夫獎勵過程,增加一個認知層級,從誠實礦池、自私礦池,再越過一個層級,達到遠見礦池的結果。
同樣地,許多互聯網公司要處理動態的東西而非靜態的東西,如今世界經濟學不再是以前的經濟學,此外還通過數學使得機器學習方法論和博弈論緊密結合在了一起。我們因此克服了只能處理靜態經濟學的情形,演進到了能夠處理動態的情形。
蔡少偉研究員:一種求解大規模稀疏組合優化問題的高效方法
大家好,今天我分享的題目是大規模稀疏組合優化的高效方法。很多決策問題的核心都涉及組合優化問題,人們很關注如何選擇合適的組合方案來達到目標最優化。
求解組合優化主要有兩類方法:一類是啟發式方法,包括啟發式搜索和啟發式構造,比如大家經常用的貪心算法就可以看作啟發式構造的一種,貪心準則就是啟發式;另外一種是分支限界為代表的精確算法。
啟發式方法的好處是對規模不敏感,所以可以用近似求解大規模的問題,缺點是往往不知道求出的解離最優解有多大的差距,也可能已經找到最優解了,但是你不知道。BranchAndBound是完備性的,如果你給它充足時間算到停下來,可以求出最優解并且證明這是最優解。但這個方法是有代價的,會對規模比較敏感,因為這類算法是指數爆炸的,往往不適用于大規模問題。
不管是做搜索還是做構造,啟發式算法框架大多很簡單,主要是依賴于啟發式怎么設計,要根據哪個準則去做。分支限界方法主要在于怎么做「界」,大家看論文也會發現,很多BranchAndBound的論文在做bounding技術,怎么把這個界做得更緊,可以更好對解空間進行剪枝。
浙江現代數字金融科技研究院理事長周子衡:數字貨幣支持決策活動:1月19日消息,浙江現代數字金融科技研究院理事長周子衡于第十四屆亞洲金融論壇中表示,數字貨幣支持決策活動,原有的銀行貨幣只支持資金的劃轉。所以,經濟數字化意味著決策活動的數字化,它就必然要在貨幣方面有所突破。
第十四屆亞洲金融論壇是由香港特區政府和香港貿易發展局主辦,本屆論壇主題為“重塑世界經濟新格局”。(新浪財經)[2021/1/19 16:30:22]
后來我想,可不可以把這兩個結合一下?也就是說,既能夠保持對規模不敏感,又能把bounding技術加進去。大家很容易想到,可以用預處理的方法,或者先做Heuristics再做BranchAndBound,把Heuristics結果作為初始解等等。我們在這方面提出了一個新的方法——嵌套地在Heuristics和BranchAndBound中去迭代。
簡單來說,這個方法先粗糙地做一個Heuristicsolving,求一個初步結果。一般來說,做bounding需要上下界,Heuristics會粗糙得到一個下界,接下來通過設計上界的函數。假設這個問題規模比較大,包括很多元素,我們可以淘汰一些,使得問題縮小一圈。之后再精致一點,繼續做Heuristicsolving,這樣可能改進下界。在這個基礎上,算法可以再做一些bounding,一直嵌套地做下去。于是這個算法就變成半精確算法,有可能可以證明這是最優解的,因為在某一步發現問題空間足夠小,不需要Heuristicsolving而是可以直接精確求解。另外,如果沒有求出最優解,也可以知道最優解的區間在哪里。
接下來舉兩個例子解釋這個方法。
第一個是「最大團問題」。團是圖論里很經典的概念,在一個圖里,點和點之間都有邊相連的子圖,就稱為團,最大團問題是找到最大規模的團。如果給它一個加權,對每個頂點賦予一個權重,這樣的最大加權團問題是要找到總權重最大的團。下圖這個例子中,分別是四團、三團,三團的權重更大一些,也就是這個圖的最大加權團。
按照該框架來做這個事情,我們需要兩個子算法,一個做啟發式求解,在團里稱為FindClique,另外一個是化簡算法,稱為ReduceGraph。我們可以用FindClique找到一個團,這個團會比之前找到的要好。當這個更好的團走到ReduceGraph,我們知道的是:最大團至少有這么大。也是在這一步做化簡,如果圖經過化簡變為空,那么說明找到的團就是最優解;如果沒有變為空,那么可以減少一些點,再回去調整找團的算法。這里的算法不一定是固定的算法,可以動態地變化。
我們的一項工作選了「constructandcut」的方法,可以理解為多次貪心的算法。
多次貪心的作用在于,每一次貪心構造可以很快,可以從不同的起點出發,而且如果在某次構造過程中算出來,當前的團再怎么擴展都不可能超過之前找到的團,我們就可以停止。最終目的是希望找到比以前大一些的團,啟發式要不要做得更精致以及順序如何調整,依賴于圖的規模,就像剝洋蔥一樣,剝到某一層再精化,以便有更大精力把更好的團找出來。當圖不能再化簡的時候,我們可以采取精確的算法,比如BranchAndBound。找到一個團之后,根據我們的方法,我們要做bounding把一些點扔掉,方法在于估計點所能發展出來的團有多大,可以有不同方案去解決。
MoonSwap公布四項生態決策 并銷毀125萬MOON:Conflux生態項目MoonSwap公布四項生態決策:1MoonSwap于9月11日下午13:00,正式開啟流動性挖礦。目前開發者團隊已添加完成TimeLock,并且通過慢霧團隊安全審計;2MoonSwap已將125萬MOON注入死亡地址中全部銷毀;3MoonSwap成立MoonEcoDAO,并從歸屬于團隊的MOON中,拿出20%注入MED,繼續推進全球社區激勵計劃;4MoonSwap在聽取社區意見后調整創世挖礦池權重,MOON/ETH池權重占比提升至47%;該項目表示,權重調整操作已經在9月12日09:14進行了操作,由于24hTimelock的存在,將在9月13日09:14生效。MoonSwap將按照既定路線遷移到Conflux,截止發稿前,MoonSwap總鎖倉量已達2.7億美金。[2020/9/12]
這兩個估界技術是作為例子,大家可以利用不同的技術去做。在實驗方面,可以參考下表,對比FastWClq、LSCC+BMS、MaxWClq這些方法,求解到相同精度的時間相差十幾倍甚至上百倍。
接下來看第二個問題:「圖著色問題」。所謂著色是給圖的每個點涂一個顏色,相鄰兩個點不能為同一個顏色,圖著色問題討論的是一個圖最少可以用多少種顏色來著色,最少顏色數叫做圖的色數。圖著色問題有很多應用,特別是在沒有沖突情況下分配資源。
這個問題大思路是一樣的——啟發式求解加一些bounding的技術。不同的是,圖著色問題并不要求子集合,由于要對整張圖進行著色,所以沒有「永遠扔掉」這個概念,每個點最后都要返回去,這個點一定要有一個顏色。這里的reduce是把圖分解為Kernel和Margin:
有一個很簡單的規則,還是與獨立集有關,我如果知道這個圖至少需要用多少種顏色,就是顏色下界,則可以找到?-degreebound的獨立集。這個獨立集的點的度數都比?小,所以叫做?-degreebound。如果找到這樣的獨立集,可以放心移到Margin里面。如果把kernel的solution找出來之后,我們可以很方便把Margin合并進來,如果kernel是最優解,合起來一定也是最優解,這個規則可以迭代地去使用。
我們看一個例子,這個例子里面灰色的四個點是kernel,可以看到至少需要4種顏色。旁邊的三個點放到邊緣上,因為三個點的度數都比4小,我們放心把這三個點挪到旁邊先不管。然后發現剩下這個子圖分解不動,已經很硬核了,可以直接求解出來。稀疏圖的硬核一般都不大,所以可以考慮精確算法求解。如果把核心找出來,因為已知核心至少用四個顏色,對于邊緣中的點,每個點的度數小于4,怎么樣都留有一個顏色給它,走一遍就可以了,線性的時間就可以了。
直到最后,每一次剝離的Margin都要保留下來,而且要標記清楚是第幾層,這是與第一個問題稍微不同的地方。我們要用額外數據結構把這些邊緣圖保留下來,最后一個剝不動的Kernel精確化解決之后,就可以用倒序的方法,先把最后一個Margin給合并進來,根據剛才的規則保留最優性,Kernel是最優的話,合并一個邊緣還會是最優,一路回溯上去,那原圖的解也一定是最優的。
聲音 | 盧森堡財政大臣:Libra讓歐洲決策者“覺醒”:9月17日,盧森堡財政大臣Pierre Gramegna來華接受專訪時表示,剛剛在赫爾辛基討論了Libra問題,不得不說,各國財長和央行家在Libra問題上有某種程度上的覺醒(kind of awakening)。Libra對所有主要國家來說都是個刺激。中國央行很聰明,預判到了這個趨勢,持續努力。現在,在歐洲也有類似的努力。
Gramegna解釋稱,加密貨幣存在已經有幾年,直到不久前,還沒觸發顯著的公共部門反應,中國和韓國除外,各國央行還不太愿意出頭對虛擬貨幣采取行動,稱私人部門的嘗試不應該被抑制。但Libra看起來正觸發更廣泛的反應,因為它潛在可能很快觸達幾十億用戶,應被視作一個“改變游戲的東西”(gamechanger)。它可能對貨幣政策帶來影響,與傳統貨幣的兌換也存在疑問。Gramegna還表示,歐央行現在存有不小的擔心,歐盟各國財長基本也支持公共部門對Libra可以有針對性對策。(財新網)[2019/9/20]
當這個問題變成有框架的之后,就只剩下考慮如何找lowerbound和upperbound。算法的大致思路是:一開始kernel是原圖,需要用到最大團算法找一個lowerbound;剝掉邊緣之后,可以采取貪心圖著色算法,找一個upperbound。
這里其實用到了三種算法。實踐中比較常見組合拳打法,具體到做kernel著色,當這個圖比較大的時候,我們可能通過某種貪心或者比較快的方法去做,最后有可能變成精確算法去做。整個流程中,lowerbound和upperbound都是全局的,如果這兩個相等,就可以停下了。
上圖是實驗結果,可以看出在稀疏大圖上面的效果更好,144個中里有97個可以在一分鐘內證明最優解。跟同類算法相比,我們的算法對比時間也比較快,在比較稀疏大圖上面有特殊方法可以很快求解。大家以前認為,幾百萬頂點的NP難問題肯定要算很久,其實,如果這些圖很大但有一定特點的話,我們還是可以在秒級和分鐘級的時間內解決的。
阿里媽媽CTO鄭波:阿里媽媽持續升級的決策智能技術體系
大家好,作為阿里媽媽技術負責人,我將從業界視角分享一下過去幾年阿里媽媽在決策智能技術上的進展。
阿里媽媽創立于2007年,是阿里巴巴集團的核心商業化部門,也就是在線廣告部門。經過了十幾年的發展,阿里媽媽打造過「搜索廣告淘寶直通車」這樣有影響力的產品,2009年有了展示廣告、AdExchange廣告交易平臺,2014年又出現了數據管理平臺達摩盤,2016年開始做全域營銷。
從技術上看的話,在2015年、2016年前后,阿里媽媽全面擁抱深度學習,從智能營銷引擎OCPX到自研CTR預估核心算法MLR模型,都是隨著深度學習的方法不斷演進的。2018年,深度學習框架X-DeepLearning開源。2019年,Euler圖學習框架開源,信息流產品超級推薦也上線了,「人找貨」進化到了「貨找人」。2020年開始,阿里媽媽針對直播類型的廣告上線,同時開始推出互動激勵廣告,比如大家玩得比較多的互動游戲「雙十一」疊貓貓。曲率空間學習框架也在這一年開源。
2022年,阿里媽媽將整個廣告引擎做了重大升級。廣告引擎平臺EADS和多媒體生產與理解平臺MDL都上線了;在消費者隱私保護上,阿里媽媽的隱私計算技術能力獲得了中國信通院認證。回顧阿里媽媽過去十五年的發展,可以看出,我們是一家「根正苗紅」做計算廣告的公司。
阿里媽媽有什么優勢呢?在非常專業的電商場域,我們對用戶和電商理解是非常強的,業務場景也非常豐富,除了傳統的搜索推薦是傳統,在直播推廣、互動、新形態等數智業務場景上都有涉獵。此外我們的客戶規模屬于全球領先,幾百萬的商家都是阿里媽媽平臺的廣告客戶。這些客戶有非常多的需求,除了商家對經營的需求,還有各種各樣的生態角色涉及其中,比如主播、達人或者代理商、服務商,他們以不同角色在這個平臺里活躍。
我們在AI方面也有比較多的研究。這里介紹一下廣告場景算法技術的特色。如上圖,左邊的倒漏斗型結構,很多做搜索或者推薦同學非常熟悉,這一部分廣告和搜索推薦非常相似,包括廣告召回、粗排序、精排序到機制策略的打分,涉及到信息檢索等大量AI技術,特別是匹配上的TDM等召回模型都用了深度學習的技術。
其中包括決策智能,鑒于平臺包含非常多的角色,各有各的博弈的關系,在多方關系和優化平衡之間,決策智能就派上了用場。用戶體驗、流量成本、預期收益、預算控制、跨域的融合,這些都是需要去博弈平衡的。
在這里我講講典型三個博弈player。平臺上博弈方有非常多,主要有三類:媒體、廣告主、廣告平臺。
這三部分的核心技術可以總結為:從媒體角度,關注釋放哪些媒體資源能夠最好地平衡用戶體驗和商業化收入;從廣告主角度,要優化什么,如何用最小的代價實現營銷目標。那么,廣告平臺的最大目標是什么?長遠來說,廣告平臺更底層的追求目標是讓整個平臺更加地繁榮,賺錢只是短期的事情,讓這個平臺長期繁榮才是最終目標,所以平臺要平衡各方的關系,讓各方的player在平臺上很好地玩下去。
廣告平臺所要優化的目標涉及到很多機制設計。我今天會簡單講一下智能拍賣機制設計、智能出價策略、智能商業化策略三個方向,主要以科普的方式講一講阿里媽媽在這幾年這上面的工作,供大家探討。
智能拍賣機制設計。
先講講智能拍賣機制設計,這是很有趣的課題,已經好多位前輩、大牛得了諾貝爾經濟學獎。我們所談的經典拍賣機制,從時間來看都是上世紀70年代之前出現的,那時候在線廣告還沒有出現,大家研究了很多關于單次拍賣或者靜態拍賣的優化。這些機制通常都是單目標的,而且是針對單次拍賣。
無論是廣告平臺還是媒體,需要平衡用戶體驗和廣告收入,典型的業界問題都是多目標優化,如果平臺上涉及業務比較多,不同業務之間可能有平臺策略和意志在里面,這也是多目標的優化。
從最開始用經典拍賣理論,比如用GSP或者UGSP方式去做流量分發和定價,業界逐漸演進到深度學習去解決這個問題。這些經典算法通過公式去計算平臺對某個目標最優化的一些參數,有了深度學習的工具之后,拍賣機制設計本身也是一個可決策問題,其本身是解決決策問題的算法,但生產決策算法也是決策問題。
三年前,我們基于深度學習設計了一個DeepGSP拍賣機制,在滿足機制良好性質的前提下提升;餓平臺的效果,所謂機制性質良好是指激勵兼容,廣告主不用通過鉆牛角尖或者是黑灰產方式獲利,真實表達自己的意愿就能夠拿到符合出價的流量。保持了激勵兼容性質做的DeepGSP,把原來靜態公式換成了可學習的深度網絡,這是第一階段的工作。
到了第二階段,拍賣機制網絡里很多參數,我們通過訓練優化的方式算出來。但實際上在整個過程中,除了參數計算還有排序,以及廣告分配的過程,是整個系統完整的組成部分。部分模塊其實是不可微的,比如排序模塊,因此深度學習網絡很難模擬它,為了端到端進行拍賣機制設計,我們把拍賣流程可微部分建模到神經網絡,這樣可以有梯度的反向傳導,使得模型訓練更加方便。
智能出價策略。
接下來講一下智能出價策略,這是廣告主用來調節效果或者博弈最主要的工具。中心化的分發無法表達訴求,但是在廣告場景中這是有辦法表達的。出價產品分為三個發展階段:
最初的經典解法也是最古老的出價,希望預算花得比較平滑,讓效果比較有保障,最初的時候業界是通過類似PID的控制算法,這是非常簡單的算法,效果也比較有限。
等到了2014、2015年,再到AlphaGo打敗人類之后,我們看到了強化學習的強大力量。智能出價是一個非常典型的序列決策問題,在預算周期內,前面花的好不好會影響到后面的出價決策,而這正是強化學習的強項,因此第二階段我們用了基于強化學習的bidding,通過MDP建模,直接用強化學習做這個事情。
第三個階段就演進到了SORL這個平臺,它的特點是針對強化學習中離線仿真環境與在線環境不一致。我們直接在在線環境中進行可交互的學習,這是工程設計和算法設計聯合的例子。SORL上線之后,很大程度上解決了強化學習強依賴于仿真平臺的問題。
其他的技術特色還有工程基建部分,包括智能出價模型的訓練框架、流批一體調控系統以及多渠道的投放圖化在線引擎。工程體系和算法同樣重要,離交易中心越近、越實時,越能夠得到好的反饋,對于智能出價來說,工程基建部分越先進,越能幫助廣告主獲得更好的效果。
智能商業化策略。
最后講講與媒體相關的智能商業化策略部分。在商業化策略優化上,最初的嘗試是把廣告結果和自然結果進行加權融合,然后混合起來,根據不同的情況挑選去放。不合理的商業化機制對用戶體驗傷害很大,大家開始意識到這個問題。最近一兩年,動態展現的策略逐漸流行起來了,隨著深度學習等技術發展,我們可以通過優化決策算法做到平衡用戶體驗和商業化收入,在全域流量下去平衡用戶的體驗。
總體而言,在這三大方面,阿里媽媽形成了一張決策智能體系圖,分為三個層面,智能拍賣機制是中間的橋梁,智能商業化策略解決的問題是拿出什么樣的資源拍賣最高效,最能平衡好用戶體驗和商業化收入,智能出價策略是面向流量精細化出價的決策過程,通過出價參數的優化、基于真實環境的強化學習參數尋優,或TargetCPX、MaxReturn等建模的范式進行優化。
面對現在的多輪拍賣和高頻拍賣,很多基礎理論有待進一步突破。說到基礎機制理論突破,鄧老師是這方面的專家,我們期待與鄧老師一起在這方面做出前沿性的研究。從工程實際問題的挑戰角度來看,實際環境要求在200毫秒返回結果,因此效率和效果上需要通過一些平衡,在工業界做得比較久對這個都有感觸。
廣告生態的優化是相對獨立的,平臺的最終目標是希望生態欣欣向榮、和平發展,做好了這幾個,生態是否能達到預期呢?我想二者之間未必直接劃等號。對于生態優化,仍然有很多理論和實際問題需要解決,這也是希望業界朋友們未來能夠一起去探討和解決的。
過去三年,阿里媽媽決策智能方向在頂級國際會議共發表近20篇論文,并與北京大學、上海交大、中科院、浙江大學等多所高校及研究機構展開合作,相關成果得到了工業界和學術界的廣泛關注和跟進,在這個領域實現從跟隨到逐步引領行業的技術發展。
相對于深度學習,決策智能在業界和學術界受到關注并沒有那么多,所以借這個機會讓大家更多了解這個領域,這個領域是非常有趣且有前景的。以上是阿里媽媽在決策智能方面的思考和工作,希望跟業界和學術界朋友一起分享,未來能更多地討論,爭取在決策智能的理論研究和業界實際應用上能夠形成一些突破性的發展。
在日前圓滿落幕的2023東京改裝展上,三菱帶來了全新K-Car——DelicaMini,新車的預告圖已在去年11月發布,其外觀具有戶外風格.
1900/1/1 0:00:00在新近講話中,歐洲央行行長拉加德再次確認,在連續兩次加息50個基點后,歐央行有意下次會議再加50個基點,并且捍衛由數據決定利率路線的方針.
1900/1/1 0:00:00酣睡的人有同一種幸福的模樣,睡不好的人卻各有各的不幸。《中國睡眠研究報告》顯示,中國人的平均睡眠時長從2012年的8.5小時降至2021年的7.06小時.
1900/1/1 0:00:00聽錄音寫單詞 聽力與詞匯:高考必背3500-L04:13來自劉凱老師聽力與詞匯:高考必背3500-L音頻:進度條00:0004:12后退15秒倍速快進15秒 點擊右鍵下載文字版Ⅱ.
1900/1/1 0:00:00北京商報訊11月10日,虛擬貨幣市場持續跌勢,其中,比特幣失守1.6萬美元關口,最低下探至1.56萬美元左右.
1900/1/1 0:00:002023年1月10日,桃李面包(603866.SH)公告,公司于2023年1月10日召開了第六屆董事會第九次會議,審議通過了《關于向全資子公司增資的議案》,同意公司以人民幣25.
1900/1/1 0:00:00