產品描述
品牌 | 武漢世紀喬豐塑膠制品有限公司 | 型號 | 分類垃圾桶 |
材質 | 塑料 | 重量 | 7.3kg |
箱裝數量 | 60升垃圾桶 | 顏色 | 橘紅 |
顏色 | 橙黃 | 顏色 | 波點 |
顏色 | 鈷藍 | 顏色 | 紅色 |
顏色 | 黃色 | 產品性能 | 收納 |
規格 | 490*410*650mm | 厚度 | 多尺寸 |
容積 | 12L以上 | 加工定制 | 是 |
產地 | 武漢 |
加工簡單,易于清潔,適合室內使用。在室外的話,對材料有了要求:即不容易老化。
編者按:本文來自微信公眾號“壹娛觀察”(ID:yiyuguancha),。湯姆·克魯斯和陳凱歌的共同點,不是都離了N次婚,而是在1986年都拍了一部題材的電影。陳凱歌拍的是獻禮片《大閱兵》,他試圖在閱兵訓練這個嚴肅題材中發掘展示戰士們的個性,雜糅著對秩序的渴望與反叛的沖動。《大閱兵》開場就是一個從飛機上俯拍的長鏡頭,攝影師是張藝謀,這是陳凱歌和張藝謀后一次合作。多年后,陳凱歌認為這部作品是失敗的,影片里表現的東西是混亂的。回顧第五代導演,這部作品也往往被忽略。成的是湯姆·克魯斯,《壯志凌云》同樣是拍訓練,但穿插著與女教官的愛情,把個人英雄主義與家國情懷融為一體。24歲的他開著F-14戰斗機,把一個個性十足的空軍戰士形象樹立成了美國青年偶像。電影《碟中諜》在這一年啟動,湯姆·克魯斯拒絕重復自己,就沒有接著拍《壯志凌云2》。沒人料想到他后來憑借著《碟中諜》系列成為真正的好萊塢,就像沒人料想到《大閱兵》里的攝影師張藝謀后一路成為“國師”,承擔起無論北京會開閉幕式還是國慶60周年晚會等一系列國家任務。11996年,部《碟中諜》在中國上映的時候,已經比美國晚了7個月,但這不重要,重要的是《碟中諜》這個名字出現在杭州市委機關報《杭州日報》上,其中一則是杭州電影發行放映公司廣告,湯姆·克魯斯那時候還被稱為:湯姆·考魯斯。《碟中諜》與杭州的關聯在多年之后才開始顯現,畢竟那時候馬云還在往北京的國家體委跑,他的中國黃頁,吃了長相的虧,他常常被認為是個**。更多的人看到部《碟中諜》還是通過影碟機,廣州的《家庭影院技術》雜志把這部電影稱為“的試機佳作”。這是一份的鑒定,他告訴你,如果你的音響足夠好,你會在火車拼死搏殺這段高潮戲里,伴隨著低音的隆隆聲,你還能聽到金屬碰撞聲,零件的飛落聲和氣流的沖擊聲等細微的真實音響。“影碟后半部,湯姆·克魯斯飾演的伊頓韓特潛入情報局竊取間諜名單一段,故事情節與音響效果配合的十分精致,當伊頓從天井的散熱空調孔細繩而下時,背景音樂戛然而止,庫內一片寂靜,此時無聲勝有聲。一滴汗一把刀下落的聲音被夸張的放大,令你不禁怵目驚心。該段錄音要求的信噪比,倘錄音不佳,將使效果大為減色。”《碟中諜》也是湯姆·克魯斯的“克魯斯·瓦格納”制片公司公司部作品,大賣4.58億美元,名利雙收。據說部《碟中諜》在中國的票房是4510萬元,當時你走在影院街道上或許還能看到手繪的阿湯哥電影海報。這還得歸功于中影剛剛開始的引進政策,他們每年以分賬的發行的形式引進10部國外電影,也就是后來俗稱的“十部進口大片”。1996年內地的票房**是8000萬票房的香港電影《故事4簡單任務》,排在《碟中諜》前面的還有《勇敢者的游戲》、《勇闖奪命島》等。這些都不重要,重要的是內地觀眾領略了間諜和中情局的形象,真正本土的諜戰劇在此后十年間逐漸茁壯。作家麥家在部《碟中諜》熱播之前已經寫作了十年,1997年他從轉業到了成都電視臺做編劇,中國諜戰劇熱潮要到2006年熱播的電視劇《暗算》才真正顯現。巧合的是,麥家部長篇《解密》問世時,《碟中諜2》正式與中國觀眾見面。22000年,曾對部《碟中諜》贊不絕口的《家庭影院技術》雜志,給了《碟中諜2》相當負面的評價。它在文章《豪華包裝下的狗尾續貂》里直抒胸臆:我奉勸各位影迷把本片開頭湯姆哥哥不用替身,親自上陣的驚險爬山鏡頭,以及片后幾段激烈的飛車鏡頭錄影下來,留作你家招呼客人作為余興節目外,其余部分都可以扔進垃圾桶里去。這部原定于在1999年北美圣誕上映的大片,推遲到了2000年暑期檔,中國電影院的觀眾則更晚了,要到2002年11月才能看到這部中國香港導演吳宇森指導的作品。《碟中諜2》的中國票房也一般,只有2500萬元,因為大多數中國觀眾早就在2000年拿到了DVD版,包括《杭州日報》、《大眾電影》等主流媒體,也在那個時候已經做了介紹。票房不高的另外一個原因是,中國電影市場在2002年已經進入商業大片時代,這個標志就是張藝謀導演的《英雄》取得了當年票房**,收獲了2.5億元。更重要的是,新修訂的《電影管理條例》開始實行,允許國營電影制片單位以外的人員和機構從事電影攝制業務,這結束了電影業計劃經濟、國有企業一統天下的局面。于冬的博納就成為家獲得電影發行經營許可證的民營公司。2000年的《碟中諜2》是系列作品中口碑差的,以至于《家庭影院技術》雜志批評說,“本片失敗的是選角,兩個反派人物沒有分量,使人懷疑是否湯姆哥哥的片酬太高,都沒有余錢請到其他明星了,于是隨便在澳洲街頭找兩個小混混充數。”即便吳宇森導演3小時版本被砍掉了一個多小時,但《碟中諜2》卻贏得了當年票房**。片中**的驚險的攀巖鏡頭,一共拍了七次,導演吳宇森認為該用替身,但湯姆·克魯斯還是親自上陣,只用一根安全繩做保護。與之相映成趣的是湯姆·克魯斯的高片酬,據說他當時每部《碟中諜》片酬都在7000萬美元左右。用現在的眼光看,這個”天價片酬“相比國內流量明星確實是理所當然,56歲的湯姆·克魯斯為了練習高空低開,可是敢從7620米高空反復跳傘125次。3《碟中諜3》與中國的關系更近一步。2005年11月24日,如果你在浙江西塘古鎮水鄉旅游,你可能會真正近距離感受好萊塢的電影制作。《碟中諜3》在這里取景,當地的村民還充當了臨時演員。當時還是新京報記者的卓偉,也特意趕去了現場,做了全程**記錄。這一年好萊塢票房再度下跌7%,開始在中國尋找新市場,自然是應有之意。湯姆·克魯斯把這部片子的結尾就選在了上海。更重要是,當時的中影集團總經理韓三平也去劇組探了班,為了談成合拍片,這樣制片方的分成會從10%提到30%。中影的確是參與了《碟中諜3》的投資,只是后來的發展卻并不順利。2006年,《碟中諜3》先是取消了上海的首映禮,后來又說擔心審核流程可能會被**,遲遲沒有送審。后的結果其實是卡在了審查,因為片中上海和西塘是勢力藏匿致命化學的地點,形象比較負面,后不得不刪除了6分鐘,包括湯姆·克魯斯被嚴刑拷打和西塘居民搓等鏡頭。等到修改完上映時,已經比美國晚了倆月,《碟中諜3》被動拖進了暑期檔。不僅面對著《的石頭》這樣口碑之作,還與《超人歸來》競爭,《碟中諜3》也成了系列中存在感差的一部,中國票房8200萬元。那一年是中國電影豐收的一年,國產大制作占據票房前三名寶座:張藝謀《滿城盡帶黃金甲》2.91億元、馮小剛《夜宴》1.3億元、于仁泰《霍元甲》1.05億元。4(2002年-2012年中國內地電影票房一覽表)等到《碟中諜4》上映的時候,已經是中國電影產業化改革的第十個年,它面對的是一個更加開放的中國市場。中國當時與美國達成協議,同意在每年引進20部電影的基礎上增加引進14部IMAX或3D電影,美方分賬票房比例升高,這給眾多國內電影制作的生存帶來巨大壓力,但如今回頭看,這無疑刺激了中國電影產業的發展。《碟中諜4》沒有再度與中影攜手,票房6.75億元,派拉蒙怎么也想不到,精心制作的《碟中諜4》會在中國電影市場輸給派拉蒙另一部情懷影片《泰坦尼克號3D版》。后者在中國席卷了9.48億元票房,成為2012年中國海外電影票房**,這與美國市場截然相反。事實上,在派拉蒙出品的兩部電影占據著中國電影市場大量份額,好萊塢大片涌入中國市場之時,國產電影也沒閑著,《人在囧途之泰囧》成為票房黑馬沖進了觀眾的視野中,它以12.67億元的票房成為了當年的內地票房**。中國電影市場也自此開啟了以10億元為計算票房單位的時代。低成本、輕喜劇電影獲得超高票房的奇景也就此展開。”這是**的時代,也是壞的時代“。5部《碟中諜》上映19年后,2015年秋天,阿里巴巴集團董事局**馬云終于和阿湯哥坐在了一起,談笑風生。一個稱贊對方帥,一個羨慕對方的成就。對了,別忘了當年年個發布《碟中諜》廣告的《杭州日報》,華媒控股如今是杭報集團旗下上市公司。就在2015年夏天,華媒控股也和阿里建立戰略合作伙伴關系,在新媒體、本地生活、文化創意、互聯網廣告等領域開展合作。”此類新媒體產品及服務,將以有利于阿里巴巴生態體系完善、有利于華媒控股媒體升級為前提條件。“新媒體業務,也是華媒控股總結年度業績增長時的亮點。這是互聯網影業們風起云涌的時代。阿里影業按照合同約定,將分享《碟中諜5》在的票房,它負責了《碟中諜5》的線上宣傳、衍生品銷售、三大部分,后獲得6870萬元的票房分成,這一成績也是當年業績的亮點。現在是2018年的秋天,《碟中諜6》在內地票房已經超過7億元,這意味著,阿湯哥主演的電影票房已突破100億美元大關,《碟中諜》系列為其貢獻了34億美元。他已經遠遠不止是一個演員而已。《碟中諜》系列不是好萊塢賣座的系列電影,但可能是直觀見證中國電影市場化歷程的一系列作品,它保持著靈活的身段,又不斷嘗試突破極限。阿湯哥說:“我是來這里娛樂人們的,不帶任何保留,這就是我想做的。”
編者按:本文來自“刺猬公社”(ID:ciweigongshe),作者:石燦,。白天,蔣哲涵給人的感覺很陽光,畢竟他擁有1米7的身高和健碩的身材;夜里,他的內心偶爾很孤獨,特別是在一次醉酒后,空虛襲來。“你什么都別說,聽我說,可以嗎?”他打開一個叫soul的社交軟件,在上面匹配到了一個女生。他不知道那個女生是誰,他也不在乎那個女生的身份。在接下來的一段時間里,只要她能夠把蔣哲涵的內心獨白聽完就好。他一邊憧憬接下來的自我傾訴和宣泄,一邊害怕被那個女生拒絕。“你說吧。”那個女生的聲音傳到他耳里。蔣哲涵告訴那個女生,他18歲,剛剛結束一段戀情。他很喜歡、很思念前女友,分手后,他對愛情有了更深的理解……那個女生年齡比他大,蔣哲涵一邊訴說內心的青春情愫,她一邊插話開導他。整個對話進行了一個多小時,“借著酒氣說的那些話,平時我哪敢啊”。而他忽略了一點,那次對話在一個陌生環境,對象是陌生女孩,處于青春期的男孩對女孩抱有一種天然的信任感,哪怕是為了滿足某種社交幻想。他們的整個對話都發生在soul上面,與他們有類似經歷的人成千上萬。次登錄soul,蔣哲涵無需填寫任何資料,回答幾個問題做人格測試就好。進入軟件主頁,會有一個滾動“球體”出現在你的眼前,“球體”由每一個人的名字組成,保有科幻感。soul有星球、廣場、發布、信息和自己五個功能版塊soul有星球、廣場、發布、信息和自己五個功能版塊,“廣場”功能類似微博,整體而言,soul要更加小清新。蔣哲涵身上有一個標簽叫“00后”,智酷的數據顯示,我國有1.6億“00后”和“05后”,目前處于小學階段的人約有6575萬,初中階段4442萬,高中/中專3967萬,離校進入社會4776萬。這一代人大多生長在階層流動性降低、物質生活*、獨享父母疼愛、課業負擔更重、移動互聯網和內容大爆發的年代。智酷的數據還顯示,“05后”使用家長手機得到了七成以上家長的同意,每天有3個小時以上的自由時間。這意味著,他能擁有足夠的渠道和時間接觸互聯網。他們很早就開始探索自我認知了。《騰訊00后研究報告》有數據顯示,66%的“00后”表示“有很多決定都是我自己做的”。移動互聯網讓這一代人能高效地接觸不同領域的信息,并作出判斷;但他們也很孤獨,內心情感豐富敏感,習慣在社交平臺上表達自己的想法,能在那里找到共同記憶。2012年誕生的微信是滿足不了他們的,一款擁有10億月活用戶的軟件不會輕易為某一個群體妥協,任何一個變動都會影響到十多億人,得不償失。微信在今年對產品動過手腳,每一次調整都引起不小的波瀾,其中有很多反對和埋怨的聲音,微信團隊后不得不將部分改動改回原來的模樣。在商業戰爭里,有一種形式叫“側翼戰”。在這種戰斗形式里,攻擊方不會直面自己的對手,而是在對手顧不上的領域構筑自己即戰力,發動突然襲擊,出乎意料,直插要害。在社交領域,soul、一罐等新型社交產品走的就是這條路,他們找了一條非常狹小的賽道——soul講究陌生人靈魂交流,一罐注重陌生人標簽化交流。這兩個狹小的賽道都是QQ和微信里的某一個小功能,被新形勢下的創業者賦予了新的生命,也讓他們在社交領域分得一杯羹。soul創始人張璐,2007年從中山大學本科畢業,在尼爾森市場研究公司任職,參與數據挖掘和分析,消費者行為研究項目。2009年加入Innext管理咨詢公司,任中國區總經理,直接向總部的合伙人匯報。用她的公開介紹來說,“積累了良好的商業嗅覺,價值理解和談判能力。”2016年她決定做soul時,互聯網審美還以“看臉”為主流。她接受媒體采訪時說,“不以臉為必要條件,而用‘圖片音樂’進行心靈匹配,給人們更多想象空間和感知能力,給高素質的人群一個,同時表達,展示自己的平臺。”而她有另一個直接的需求:“作為一個白領高知女性,我們發現想要在互聯網上找到相對干凈,純凈的空間,放眼望去,市面上并沒有非常合適我們的軟件。”她想做一款分分鐘找到“對的人”的分享軟件。“soul是一種比較的社交方式,確保了用戶可以沒有壓力地進行分享、傾訴和溝通。”她在接受《每日商報》采訪時稱。“00后”是soul和一罐的主要目標群體,這類人群在未來的5年里,會成為互聯網的主要年輕消費者。不過,現在他們還在養成階段。soul的野心可不只是“00后”,它將目標人群從12歲到50歲,能吃下的一個都不放過。這類目標人群應該來承接的社交軟件是QQ,因為它擁有更為深厚的低齡化社交土壤。只是,廣告越來越多、界面越來越“臟”、功能越來越重的QQ生活得并不好,它正在喪失低齡化社交老大哥的江湖地位。騰訊2018年第二季度財報顯示,QQ月活躍賬戶數達到8.03億,比去年同期下降5.5%。從2016年的8.99億相比,QQ的月活躍用戶數,已經跌去了差不多1個億,而且跌出了一條斷崖式的曲線,即使有短暫反彈,隨后也在繼續下跌。當然,這并不會影響QQ在實際生活中的使用,比如家長必須要在Q里幫助孩子做家庭作業。但QQ遺失的那部分人,正在成為別人的“座上賓”。QQ團隊對這群人有過“挽留”,他們打造出了學生職業路徑過渡型社交軟件TIM,用它來挽留那些剛畢業的用戶,但效果甚微。TIM的主要對手不是別人,而是微信。從QQ、微博、微信推崇的圖文時代,到快手、抖音的短視頻時代,他們都不放過打造社交關系鏈的念想。從2017年開始,社交的另一個時代來了,不過效果不明顯。2017年,在一次公開演講里,字節跳動CEO張一鳴說,今日頭條即將開啟智能社交時代,今日頭條確實這么做了,主要陣地是今日頭條上的微頭條。邏輯是:依靠一個強大的軟件給子產品吸引流量,放到具體的產品中來,就是今日頭條給微頭條導流。這個邏輯和騰訊做微視一樣,用QQ、QQ空間乃至微信給微視導流。到現在他們都沒有取得十分顯著和持久的效果,至少不能撬動原有的市場利益格局。這并不阻礙智能社交時代的進階之路,QQ、微博、陌陌、微信等主流社交軟件都將人工智能技術引入產品。很大一部分技術應用在了內容分發之外的社交分發上。也就是說,算法給用戶分配了男性者或女性者,發展得順利的話,那就是算法分配男、女朋友了。這股浪潮沒有在主導的產品上大肆體現出來,而是在小而美的社交軟件上體現得愈加明顯,它們沒有提供智能社交功能之外的KPI負擔和思想負擔,毫無顧慮地往前沖,目標明確。soul和一罐的誕生就是代表了這樣一股新生力量——能把智能社交玩出花兒來的力量——它們背后還有Same、探探、對面、派派等。soul讓外界次大范圍知曉,是因為9月13日的微博熱搜。那天,有很多用戶在微博發問:“soul登不上了怎么辦?”9月14日,soul團隊發布公告稱:用于用戶量激增,服務器壓力過載;soul從9月14日到9月21日進行全面的技術升級,暫時停用發布動態和評論動態的功能。此前,soul在知乎等社交平臺大面積投放廣告,讓不少早期種子用戶不開心,他們正在逃離soul。有數據顯示,soul誕生在2016年11月,slogan是“發現心靈契合的陌生人”。在伴侶價值觀層面,一直都提倡靈魂伴侶這個概念,陌陌曾用LBS(地理定位)技術嘗試實現這一愿望,后卻弄成了技術助力“**”,陌生人沒有在道德上遭受譴責,陌陌卻承受了巨大的道德壓力,直到這兩年才緩和過來。soul的目標也是陌生人,它也有“**”的風險,不過它的核心技術不是LBS,而是大數據分發。它在標簽上做文章,用心理測試、個性化標簽試圖展現一個人的畫像。我們可以把soul理解成一個中介,它連接了多個陌生人,當你進入soul的時候,它會給你做簡單的人物測試,將你的個人信息放置到一個巨大的數據容器里;當另一個人進來時,他也做同樣的事情。一旦你在“星球”啟動“機器人匹配”按鈕,想尋找某一個三觀趣味與你相近的人,soul就會在那個巨大的數據容器里,將你們的標簽信息進行匹配,把匹配數值高者推薦給你。你們可以通過文字交流,也可以通過語音交流。soul與陌陌、探探之類的陌生人軟件不一樣,它不要求注冊用戶使用真實頭像和真實姓名。按照soul團隊的理解,他們認為頭像具有欺騙性,真人和照片人物不一定相同。既然如此,他們直接弄了多個統一的漫畫頭像供用戶選擇。名字也如此。在soul和一罐里面,就像是參加一場蒙面舞會,除了既定的外在標簽,其他的內在思想,需要靠才能獲得。這是社交的個階段——相識,讓人與人聊起來,熟絡之后的事情,就不得而知了。一罐走的陌生人社交路線沒有soul那么“花哨”,要呆板得多。靜態的界面,蠕動的標簽,弱化了個人主頁,強化了內容社區,隨意打開一個標簽,里面都是無頭像用戶的動態。它更像是一款反個人中心主義的社交產品。一罐的產品界面一罐的標簽要比soul明顯,在一個罐子里,裝滿了各種簽,像先生的法寶。在中國傳統文化里,流行著一個叫“求簽”的文化,大師擁有千百年職業積淀,他們的吃飯工具是竹筒和簽,大街上、寺廟里都能見到他們的蹤影。你可以把一罐理解為大師的那個裝滿簽的罐。把這個理念放到互聯網時代,一罐團隊就是將千百年的術互聯網社交化了。他們在一罐里放置了人們感興趣的主題,比如喪、吐槽、沙雕、秘密、心愿、找同好、戀愛,每一個標簽都契合了互聯網主流情緒。soul和一罐的一大共同點是隱藏用戶身份,去中心化,把用戶展示在一個更為平等的空間場域中,用“隨即ID機制——內容——社區——社交”的邏輯構建用戶粘性。在一罐里,用戶的每一次發言和評論,都可以采用**名字,如果你的表白失敗,這套機制相當于是給失敗者復活的機會。不看人,只看內容。要知道,內容體現“三觀”。這套機制在職場社交軟件“脈脈”上,被運用得爐火純青,它給發言者提供了適當的安全感,也保證了發言內容的勁爆程度。正當人們沉溺于那些讓人驚喜的信息狂歡時,監管部門在7月25日發了一道命令,讓“脈脈”整改了它原來的“匿名”版塊,原因是有些用戶匿名發布謠言侮辱誹謗他人,侵犯他人名譽、隱私。整改后,“匿名”版塊更名“職言”,很多內容被“脈脈”內容審核部門自行過濾,現在的內容還是職場困惑、職場經驗、職場消息、薪資報酬為主,不過勁爆程度要比之前緩和多了。在“脈脈”瀏覽匿名發言信息有什么好處呢?一位匿名人士告訴刺猬公社(ID:ciweigognshe),他在“脈脈”上,獲知了不少關于他所在公司的內部信息,那些信息對于他的職業規劃來說,富有價值。當然,部分公司管理層可不喜歡這樣,比如透露工資,這在互聯網公司相當于“信息”。“脈脈”對個人動態的分發也是有一手的。個人動態在算法推薦下,會被推到不同人的主頁上。在用戶運營方面,“脈脈”也拿到了不少**信息。前不久,米果文化副董事長、《奇葩說》辯手馬薇薇“分手”上微博熱搜,從現在的跡象來看,這一消息不是在微博曝出來的,而是她在“脈脈”上發布了一條動態說:“我總是帶著悲傷的心情去戀愛,好像開始就看見了結束。別學我。”經過一輪信息認證傳播,才有了微博的狂歡。查閱她的微博和“脈脈”賬號,發現原本生活化的微博成了她的工作動態發布渠道,原本職場化的“脈脈”卻成了她分享個人經驗和心情的主要平臺。哪怕賬號內容不是她個人直接發布,也能看得出來,“脈脈”上的人更喜歡她現在的樣子。“脈脈”的職場實名制度,至少減少了很多噴子的出場機會,因為每一個噴子在懟別人時,都不希望自己的身份是公開的,一旦開噴,你不僅要為自己負責,你還要為你所在的公司名譽負責。這套機制給了人們坦誠交流的心理暗示,也造就了人與人溝通交流的職場道德底線。“脈脈”的核心不是陌生人社交,只是說,它在陌生人社交上開辟了一個新陣地。做職場關系鏈條才是它的愿景。在很長的一段時間里,陌生人社交被人們丟進了垃圾桶里,直到soul、一罐等團隊用很大的精力重拾回來,將算法介入其中。并不是說算法介入就一定能成功,還要看時機。一向受傳統文化影響的人們內斂含蓄,害怕在QQ、微信、微博等大眾化社交軟件上發布個人動態,個人空間被大眾化社交軟件侵襲,壓力無處釋放。不少人會拿飯否、即刻、知乎、豆瓣等軟件當做個人日記本來用,每天匿名寫寫自己的個人感受,吐槽世道,慶幸沒有人看到那些動態,或者是看到后進行簡單評論,成了他們**的歡愉。那些地方也成了他們的私人自留地。他不知道的是,除了停運的飯否外,其他社交軟件基本都加載了人工智能技術,對內容進行多次疊加開發。平臺可不希望一條有價值的內容只有一次生命周期,他們希望那條有價值的內容能被更多人看到。并且,大多社交軟件平臺都希望搭建一個強有力的社交體系,只有這樣,才會有源源不斷的內容產生,商業模式才能運行。這在微博內部,被稱為用戶的個人社交資產。熟人社交已經成為我們不少人的負擔,LBS陌生人社交路線已經被走爛,“算法靈犀測試”模式會成為這個秋天的驚雷嗎?一旦資本對此作出反映,我們會得到一個階段性的答案。
編者按:本文來自微信公眾號“S先生”(ID:TheMisterS),作者Mingke,。原題目《人工智障2:你看到的AI與智能無關》前言大家好,我又出來懟人了。兩年前,寫了一篇文章《為什么現在的人工智能助理都像人工智障》,當時主要是懟“智能助理們”。這次呢則是表達“我不是針對誰,只是現在所有的深度學習都搞不定對話AI”,以及“你看都這樣了,那該怎么做AI產品”。-閱讀門檻-時間:這篇真的太長了(近3萬字)根據預覽同學們的反饋,通常次閱讀到Part3時,會消耗很多精力,但讀完Part3才發現是精華(同時也是燒腦的部分)。請大家酌情安排閱讀時間。可讀性:我會在內容里邀請你一起思考(無需知識),所以可能不適合通勤時間閱讀。你的閱讀收益取決于在過程中思考的參與程度。適合人群:對話智能行業從業者、AIPM、關注AI的投資人、對AI有強烈興趣的朋友、關心自己的工作會不會被AI代替的朋友;關于鏈接:閱讀本文時,無需閱讀每個鏈接里的內容,這并不會影響對本文的理解。-關于“人工智障”四個字-上一片文章發出后,有朋友跟我說,標題里的“人工智障”這個詞貌似有點offensive。作為學語言出身的,我來解釋一下這個原因:開始呢,我是在跟一位企業咨詢顧問聊人工智能這個賽道的現狀。因為對話是用英語展開的,當時為了表達我的看法“現在的智能助理行業正處在一種難以逾越的困境當中”,我就跟她說“CurrentlyallthedigitalassistantsareArtificial-Intelligentlychallenged”。她聽了之后哈哈一笑。“intelligentlychallenged”同時也是英文中對智障的委婉表達。假設不了解這個常識,她就可能忽略掉這個梗,盡管能明白核心意思,只是不會覺得有什么好笑的。那么信息在傳遞中就有損失。寫文章時,我把這個信息翻譯成中文,就成了“人工智障”。但是因為中文語法的特性,有些信息就lostintranslation了。比如實際表達的是“一種困境的狀態”而不是“一件事”。(順便說一下,中文的智障,實際上是政治正確的稱呼,詳見特殊會的用詞方法。)為什么要寫那么多字來解釋這個措辭?因為不同的人,看見相同的字,也會得到不同的理解。這也是我們要討論的重點之一。那么,我們開始吧。Part1對話智能的表現:智障:ITU2017年10月,上圖這個叫Sophia的機器人,被沙特阿拉伯授予了正式的公民身份。公民身份,這個評價比圖靈測試還要牛。何況還是在沙特,他們才剛剛允許女性開車不久(2017年9月頒布的法令)。Sophia經常參加各種會、“發表演講”、“接受采訪”,比如去對話,表現出來非常類似人類的言談;去和WillSmith拍MV;接受GoodmorningBritain之類的主流媒體的采訪;甚至公司創始人參加JimFallon的訪談時一本正經的說Sophia是“basicallyalive”。Basicallyalive.要知道,西方的吃瓜群眾都是看著《》長大的,前段時間還看了《西部世界》。在他們的世界模型里,“機器智能會覺醒”這個設定是遲早都會發生的。普通大眾開始嚇得瑟瑟發抖。不僅開始擔心自己的工作是不是會被替代,還有很多人開始擔心AI會不會統治人類,這樣的話題展開。“未來已來”,很多人都以為真正的人工智能已經近在咫尺了。只是,有些人可能會注意到有些不合理的地方:“等等,人工智能都要威脅人類了,為啥我的Siri還那么蠢?”Source:DumbAndDumber:ComparingAlexa,Siri,CortanaAndTheGoogleAssistant,Forbes,May2018我們來看看到2018年末在對話智能領域,各方面究竟發展的如何了。“不要日本菜”我在2016年底做過一個測試,對幾個智能助理提一個看似簡單的需求:“推薦餐廳,不要日本菜”。只是各家的AI助理都會給出一堆餐廳推薦,全是日本菜。2年過去了,在這個問題的處理上有進展么?我們又做了一次測試:結果是依然沒有解決。“不要”兩個字被所有助理一致忽略了。為什么要關注“不要”兩個字?之前我去到一家某非常有名的智能語音創業公司,聊到這個問題時,他家的PM顯出疑惑:“這個邏輯處理有什么用?我們后臺上看到用戶很少提出這類表達啊。”聽到這樣的評論,基本可以確定:這家公司還沒有深入到服務對話領域。場景方面,一旦深入進服務領域里的多輪對話,很容易會遇到類似這樣的表達:“我不要這個,有更便宜的么?”。后臺沒有遇到,只能說用戶還沒開始服務就結束了。場景方面與AI公司的domain選擇有關。但是在技術方面,則是非常重要的。因為這正是真正智能的核心特點。我們將在part2&3詳細聊聊這個問題。現在先拋個結論:這個問題解決不了,智能助理會一直智障下去的。“ToC團隊轉ToB”自從2015年幾個重要的深度學習在當中火了起來,大小公司都想做“Her”這樣面對個人消費者的通用型智能助理(ToC類產品的目標)。一波熱錢投給有希望的種子隊伍(擁有Fancy背景)之后,全滅。目前為止,在2C這方面的所有商用產品,無論是還是創業公司,全部達不到用戶預期。在人們的直覺里,會認為“智能助理”,處理的是一些日常任務,不涉及的需求,應該比“智能專家”好做。這是延續“人”的思路。推薦餐廳、安排行程是人人都會做的事情;卻只有少數受過訓練的人能夠處理金融、醫療問診這類問題。而對于現在的AI,情況正好相反。現在能造出在圍棋上打敗柯潔的AI,但是卻造不出來能給柯潔管理日常生活的AI。隨著toC助理賽道的崩盤,ToBornottoB已經不再是問題,因為已經沒得選了,只能ToB。這不是商業模式上的選擇,而是技術的限制。目前ToB,特別是限定領域的產品,相對ToC類產品更可行:一個原因是領域比較封閉,用戶從思想到語言,不容易發揮跑題;另一方面則是數據充分。只是ToB的公司都很容易被當成是做“外包”的。因為客戶是一個個談下來的,項目是一個個交付的,這意味著增長慢,靠人堆,沒有復利帶來的指數級增長。大家紛紛表示不開心。這個“幫人造機器人”的業務有點像“在網頁時代幫人建站”。轉成ToB的團隊經常受到資本的質疑:“你這個屬于做項目,怎么規模化呢?”要知道,國內的很多投資機構和里面的投資經理入行的時間,是在國內的移動互聯起來的那一波。“Scalability”或者“高速增長”是體系里重要的指標,沒有之一。而做項目這件事,就是Casebycase,要增長就要堆人,也就很難出現指數級增長。這就有點尷尬了。“你放心,我有SaaS!哦不,是AIaaS。我可以打造一個平臺,上面有一系列工具,可以讓客戶們自己組裝機器人。”然而,這些想做技能平臺的創業公司,也沒有一個成功的。短期也不可能成功。YannLeCun對AIaas的看法主要的邏輯是這樣的:你給客戶提供工具,但他需要的是雕像——這中間還差了一個雕塑家。佐證就是那些各家試圖開放“對話框架”給更小的,甚至是服務提供者,幫助他們“3分鐘開發出自己的AI機器人”,具體就不點名了。自己都開發不出來一個讓人滿意的產品,還想抽象一個范式出來讓別人沿用你的(不work的)框架?不過,我認為MLaaS在長期的成功是有可能的,但還需要行業發展更為成熟的時候,現在為時尚早。具體分析我們在后面Part5會談到。“音箱的成功和智能的失敗”對話這個領域,另一個比較火的賽道是智能音箱。各大主要科技公司都出了自己的智能音箱,騰訊叮當、阿里的天貓精靈、小米音箱、國外的Alexa、Google的音箱等等。作為一個硬件品類,這其實是個還不錯的生意,基本屬于制造業。不僅出貨不差,還被寄予期望,能夠成為一個生態的生意——核心邏輯看上去也是充滿想象力的:超級終端:在后移動時代,每家都想像iphone一樣搶用戶的入口。只要用戶習慣使用語音來獲得咨詢或者服務,甚至可以像Xbox/ps一樣,硬件賠錢賣,軟件來掙錢;用語音做OS:打造各類語音的技能,然后通過大量“離不開的技能”反哺這個OS的市場占有;提供平臺:像Xcode一樣,給提供應用開發的工具和分發平臺、提供使用服務的流量。可是,這些技能使用的實際情況是這樣的:Source:Statista萬眾期待的killerapp并沒有出現;基本沒有商業服務型的應用;技能都沒賺到錢,也不知道怎么;大部分高頻使用的技能都沒有商業價值——用戶用的多的就是“查天氣”沒有差異性:智能的差異嘛基本都沒有的事兒。“皇帝的新人工智能”回過頭來,我們再來看剛剛那位沙特阿拉伯的公民,Sophia。既然剛剛提到的那么多公司投入了那么多錢和科學家,都搞成這樣,憑什么這個Sophia能一鳴驚人?因為Sophia的“智能”是個**。可以直接引用YannLeCun對此的評價,“這是鬼扯”。簡單來說,Sophia是一個帶喇叭的木偶——在各種大會上的發言和采訪的內容都是人工撰寫,然后用人人都有的語音合成做輸出。卻被宣傳成為是其“人工智能”的自主意識言論。這還能拿“公民身份”,可能是人類公民被黑的慘的一次。這感覺,好像是我家的橘貓被一所985大學授予了土木工程學士學位。其實對話系統里,用人工來撰寫內容,或者使用模版回復,這本來就是現在技術的現狀(在后面我們會展開)。但刻意把“非智能”的產物說成是“智能”的表現,這就不對了。考慮到大部分吃瓜群眾是通過媒體渠道來了解當前技術發展的,跟著炒作的媒體(比如被點名的TechInsider)都是這場**的共犯。這些不知道是無知還是無良的文科生,真的沒有做好新聞工作者份內的調查工作。近這股妖風也吹到了國內的韭菜園里。Sophia出現在了王力宏的一首講AI的MV里;然后又2018年11月跑去給大企業站臺。真的,行業內認真做事兒的小伙伴,都應該站出來,讓大家更清晰的知道現在AI——或者說機器學習的邊界在哪兒。不然甲方爸爸們信以為真了,突然指著sophia跟你說,“別人都能這么自然,你也給我整一個。”你怕不得裝個真人進去?對了,說到這兒,確實現在也有:用人——來成人工智能——來模擬人,為用戶服務。Source:TheGuardian國內的案例典型的就是銀行用的大堂機器人,其實是真人在遠程語音(所謂Telepresence)。美國有X.ai,做基于的日程管理的。只是這個AI到了下午5點就要下班。當然,假如我是這些**背后,被質疑的時候,我還可以強行拉回人工智能上:“這么做是為了積累真正的對話數據,以后用來做真的AI對話系統識別的訓練。”這么說對外行可能是毫無破綻的。但是真正行業內干正經事的人,都應該像傅盛那樣站出來,指明這些做法是**:“沒有一家能做出來......做不到,一定做不到”。人家沙特是把AI當成人,這些套路是把人當成AI。然后大眾就開始分不清楚究竟什么是AI了。“人工智能究竟(tmd)指的是什么?”另一方面,既然AI現在的那么蠢,為什么馬一龍(ElonMusk)卻說“AI很有可能毀滅人類”;霍金甚至直接說“AI可能是人類文明里糟糕的事件”。而在另一邊,Facebook和Google的**科學家卻在說,現在的AI都是渣渣,根本不需要擔心,甚至應該重做。大家該相信誰的?一邊是要去火星的男人,和說不定已經去了火星的男人;另一邊是當前兩家科技的人物。其實他們說的都對,因為這里說到的“人工智能”是兩碼事。馬一龍和霍金擔心的人工智能,是由人造出來的真正的智能,即通用人工智能(AGI,ArtificialGeneralIntelligence)甚至是超級智能(SuperIntelligence)。而YannLeCun和Hinton指的人工智能則是指的當前用來實現“人工智能效果”的技術(基于統計的機器學習)。這兩位的觀點是“用這種方式來實現人工智能是行不通的”。兩者本質是不同的,一個指的是結果,一個指的是(現在的)過程。那么當我們在討論人工智能的時候,究竟在說什么?JohnMcCathyJohnMcCathy在1956年和MarvinMinsky,NathanielRochester以及ClaudeShannon在達特貌似研討會上打造了AI這個詞,但是到目前為止,學界工業界并沒有一個統一的理解。根本的問題是目前人類對“智能”的定義還不夠清楚。何況人類本身是否是智能的**體現,還不一定呢。想想每天打交道的一些人:)一方面,在大眾眼中,人工智能是“人造出來的,像人的智能”,比如Siri。同時,一個AI的水平高低,則取決于它有多像人。所以當Sophia出現在公眾眼中的時候,普通人會很容易被蒙蔽(甚至能通過圖靈測試)。Oracle對AI的定義也是“只要是能讓計算機可以模擬人類行為的技術,都算!”而另一方面,從字面上來看“ArtificialIntelligence”,只要是人造的智能產品,理論上都算作人工智能。也就是說,一個手持計算器,盡管不像人,也應算是人工智能產品。但我相信大多數人都不會把計算器當成是他們所理解的人工智能。這些在認識上不同的解讀,導致當前大家對AI應用的期望和評估都有很多差異。再加上還有“深度學習、神經網絡、機器學習”這些概念紛紛跟著人工智能一起出現。但是各自意味著什么,之間是什么關系,普通大眾都不甚了解。“沒關系,韭菜不用懂。”但是想要割韭菜的人,**能搞清楚吧。連有些投資人自己也分不清,你說怎么做判斷,如何投項目?當然是投胸大的。以上,就是到2018年末,在對話領域的人工智能的現狀:智能助理依然智障;大部分ToB的給人造機器人的都無法規模化;對話方面沒有像AlphaZero在圍棋領域那樣的讓人震驚的產品;沒有商業上大規模崛起的跡象;有的是一團渾水,和渾水摸魚的人。為什么會這樣?為什么人工智能在圖像識別,人臉識別,下圍棋這些方面都那么快的進展,而在對話智能這個領域卻是如此混亂?既然你都看到這里了,我相信你是一個愿意探究本質的好同志。那么我們來了解,對話的本質是什么;以及現在的對話系統的本質又是什么。Part2當前對話系統的本質:填表“AIthinks,manlaughs”Source:TheGlobeandMail有一群小雞出生在一個農場,無憂無慮安心地生活。雞群中出現了一位科學家,它注意到了一個現象:每天早上,食槽里會自動出現糧食。作為一名優秀的歸納法信徒(Inductivist),這只科學雞并不急于給出結論。它開始全面觀察并做好記錄,試圖發現這個現象是否在不同的條件下都成立。“星期一是這樣,星期二是這樣;樹葉變綠時是這樣,樹葉變黃也是這樣;天氣冷是這樣,天氣熱也是這樣;下雨是這樣,出太陽也是這樣!”每天的觀察,讓它越來越興奮,在心中,它離真相越來越接近。直到有一天,這只科學雞再也沒有觀察到新的環境變化,而到了當天早上,雞舍的門一打開,它跑到食槽那里一看,依然有吃的!科學雞,對他的小伙伴,志在必得地宣布:“我預測,每天早上,槽里會自動出現食物。明天早上也會有!以后都會有!我們不用擔心餓死了!”經過好幾天,小伙伴們都驗證了這個預言,科學雞驕傲的并興奮的把它歸納成“早起的小雞有食吃定理”。正好,農場的農夫路過,看到一只興奮的雞不停的咯咯叫,他笑了:“這只雞很可愛哦,不如把它做成叫花雞好了”。科學雞,卒于午飯時間。在這個例子里,這只羅素雞(BertrandRussell’schicken)只對現象進行統計和歸納,不對原因進行推理。而主流的基于統計的機器學習特別是深度學習,也是通過大量的案例,靠對文本的特征進行歸類,來實現對識別語義的效果。這個做法,就是羅素雞。目前,這是對話式人工智能的主流技術基礎。其主要應用方向,就是對話系統,或稱為Agent。之前提到的智能助理Siri,Cortana,GoogleAssistant以及行業里面的智能客服這些都算是對話智能的應用。“對話智能的黑箱”這些產品的交互方式,是人類的自然語言,而不是圖像化界面。圖形化界面(GUI)的產品,比如網頁或者APP的產品設計,是所見即所得、界面即功能。對話智能的交互(CUI,ConversationalUI)是個黑箱:終端用戶能感知到自己說出的話(輸入)和機器人的回答(輸出)——但是這個處理的過程是感覺不到的。就好像跟人說話,你并不知道他是怎么想的。每一個對話系統的黑箱里,都是自由發揮的天地。雖說每家的黑箱里面都不同,但是底層的思路,都萬變不離其宗,核心就是兩點:聽人話(識別)講人話(對話管理)。如果你是從業人員,那么請回答一個問題:你們家的對話管理是不是填槽?若是,你可以跳過這一節(主要科普填槽是怎么回事),請直接到本章的第五節“當前對話系統的局限”。“AI如何聽懂人話?”對話系統這個事情在2015年開始突然火起來了,主要是因為一個技術的普及:機器學習特別是深度學習帶來的語音識別和NLU(自然語言理解)——主要解決的是識別人講的話。這個技術的普及讓很多團隊都掌握了一組關鍵技能:意圖識別和實體提取。這意味著什么?我們來看一個例子。在生活中,如果想要訂,人們會有很多種自然的表達:“訂”;“有去上海的航班么?”;“看看航班,下周二出發去紐約的”;“要出差,幫我查下”;等等等等可以說“自然的表達”有無窮多的組合(自然語言)都是在代表“訂”這個意圖的。而聽到這些表達的人,可以準確理解這些表達指的是“訂”這件事。而要理解這么多種不同的表達,對機器是個挑戰。在過去,機器只能處理“結構化的數據”(比如關鍵詞),也就是說如果要聽懂人在講什么,必須要用戶輸入的指令。所以,無論你說“我要出差”還是“幫我看看去北京的航班”,只要這些字里面沒有包含提前設定好的關鍵詞“訂”,系統都無法處理。而且,只要出現了關鍵詞,比如“我要退訂”里也有這三個字,也會被處理成用戶想要訂。自然語言理解這個技能出現后,可以讓機器從各種自然語言的表達中,區分出來,哪些話歸屬于這個意圖;而那些表達不是歸于這一類的,而不再依賴那么死板的關鍵詞。比如經過訓練后,機器能夠識別“幫我推薦一家附近的餐廳”,就不屬于“訂”這個意圖的表達。并且,通過訓練,機器還能夠在句子當中自動提取出來“上海”,這兩個字指的是目的地這個概念(即實體);“下周二”指的是出發時間。這樣一來,看上去“機器就能聽懂人話啦!”。這個技術為啥會普及?主要是因為機器學習領域的學術氛圍,導致重要的論文基本都是公開的。不同團隊要做的是考慮具體工程實施的成本。后的效果,就是在識別自然語言這個領域里,每家的基礎工具都差不多。在意圖識別和實體提取的準確率,都是百分點的差異。既然這個工具本身不是核心競爭力,甚至你可以用別家的,大把可以選,但是關鍵是你能用它來干什么?“DuetotheacademicculturethatMLcomesfrom,prettymuchalloftheprimaryscienceispublishedassoonasit’screated-almosteverythingnewisapaperthatyoucanreadandbuildwith.Butwhatdoyoubuild?”——BenedictEvans(A16Z合伙人)在這方面,顯而易見的價值,就是解放雙手。語音控制類的產品,只需要聽懂用戶的自然語言,就去執行這個操作:在家里要開燈,可以直接說“開燈”,而不用去按開關;在車上,說要“開天窗”,天窗就打開了,而不用去找對應的按鈕在哪里。這類系統的重點在于,清楚聽清哪個用戶在講是什么。所以麥克風陣列、近場遠場的抗噪、聲紋識別講話的人的身份、ASR(語音轉文字),等等硬件軟件的技術就相應出現,向著前面這個目標不斷優化。“講人話”在這類應用當中,并不那么重要。通常任務的執行,以結果進行反饋,比如燈應聲就亮了。而語言上的反饋,只是一個輔助作用,可有可無。但是任務類的對話智能,往往不止是語音控制這樣一輪交互。如果一個用戶說,“看看明天的”——這表達正常,但無法直接去執行。因為缺少執行的必要信息:1)從哪里出發?和2)去哪里?如果我們希望AIAgent來執行這個任務,一定要獲得這兩個信息。對于人來完成這個業務的話,要獲得信息,就得靠問這個用戶問題,來獲得信息。很多時候,這樣的問題,還不止一個,也就意味著,要發起多輪對話。對于AI而言,也是一樣的。要知道“去哪里”=Agent問用戶“你要去哪里?”要知道“從哪里出發”=Agent問用戶“你要從哪里出發呢?”這就涉及到了對話語言的生成。“AI如何講人話?”決定“該說什么話”,才是對話系統的核心——無論是硅基的還是碳基的智能。但是深度學習在這個版塊,并沒有起到什么作用。在當前,處理“該說什么”這個問題,主流的做法是由所謂“對話管理”系統決定的。盡管每一個對話系統背后的“對話管理”機制都不同,每家都有各種理解、各種設計,但是萬變不離其宗——目前所有任務類對話系統,無論是前段時間的Googleduplex,還是智能客服,或者智能助理,核心的對話管理方法,有且僅有一個:“填槽”,即Slotfilling。如果你并不懂技術,但是又要迅速知道一家做對話AI的水平如何,到底有沒有黑科技(比如剛剛開始看AI領域的做投資的朋友),你只需要問他一個問題:“是不是填槽?”如果他們(誠實地)回答“是”,那你就可以放下心來,黑科技尚未出現。接下來,能討論的范圍,無非都是產品設計、工程實現、如何解決體驗和規模化的困境,這類的問題。基本上該智障的,還是會智障。要是他們回答“不是填槽”,而且產品的效果還很好,那么就有意思了,值得研究,或者請速速聯系我:)那么這個“填槽”究竟是個什么鬼?嗯,不搞開發的大家可以簡單的把它理解為“填表”:好比你要去銀行辦個業務,先要填一張表。如果這張表上的空沒有填完,柜臺**姐就不給你辦。她會紅筆給你圈出來:“必須要填的空是這些,別的你都可以不管。”你全部填好了,再遞給**姐,她就去給你辦理業務了。還記得剛剛那個的例子么?用戶說“看看明天的”,要想執行“查”,就得做以下的步奏,還要按順序來:1.ASR:把用戶的語音,轉化成文字。2.NLU語義識別:識別上面的文字,屬于(之前設定好的)哪一個意圖,在這里就是“訂”;然后,提取文字里面的實體,“明天”作為訂票日期,被提取出來啦。3.填表:這個意圖是訂,那么就選“訂”這張表來填;這表里有三個空,時間那個空里,就放進“明天”。(這個時候,表里的3個必填項,還差兩個:“出發地”和“到達地”)4.開始跑之前編好的程序:如果差“出發地”,就回“從哪里走啊?”;如果差“目的地”,就回“你要去哪里?”(NLG上打引號,是因為并不是真正意義上的自然語言生成,而是套用的對話模版)5.TTS:把回復文本,合成為語音,播放出去在上面這個過程當中,1和2步奏都是用深度學習來做識別。如果這個環節出現問題,后面就會連續出錯。循環1-5這個過程,只要表里還有空要填,就不斷問用戶,直到所有的必填項都被填完。于是,表就可以提交**姐(后端處理)了。后端看了要查的條件,返回滿足這些條件的情況。Agent再把查詢結果用之前設計好的回復模板發回給用戶。順便說一下,我們經常聽到有些人說“我們的多輪對話可以支持xx輪,多的時候有用戶能說xx輪”。現在大家知道,在任務類對話系統里,“輪數的產生”是由填表的次數決定的,那么這種用“輪數多少”來衡量產品水平的方法,在這個任務類對話里里無意義。一定要有意義,也應該是:在達到目的、且不影響體驗的前提下,輪數越少越好。在當前,只要做任務類的多輪對話,基本跑不掉填表。5月的時候,GoogleI/O發布了Duplex的錄音Demo,場景是GoogleAssistant代替用戶打電話去訂餐廳,和店員溝通,幫助用戶預定位子。值得注意,這并不是Livedemo。Google'sAssistant.CREDIT:GOOGLE那Google的智能助理(后稱IPA)又怎么知道用戶的具體需求呢?跑不掉的是,用戶還得給GoogleAssistant填一張表,用對話來交代自己的具體需求,比如下面這樣:圖中左邊是一個使用GoogleAssistant訂餐廳的真實案例,來自TheVerge。“當前對話系統的局限”我剛剛花了兩千來個字來說明對話系統的通用思路。接下來,要指出這個做法的問題還記得之前提到的“不要日本菜”測試么?我們把這個測試套用在“訂”這個場景上,試試看:“看看明天去北京的航班,東航以外的都可以”,還是按步奏來:1.ASR語音轉文字,沒啥問題;2.語義識別,貌似有點問題-意圖:是訂,沒錯;-實體提取:跟著之前的訓練來;-時間:明天-目的地:北京-出發地:這個用戶沒說,一會得問問他...等等,他說的這個“東航以外的都可以”,指的是啥?之前沒有訓練過與航空公司相關的表達啊。沒關系,咱們可以把這個表達的訓練加上去:東航=航司。多找些表達,只要用戶說了各個航空公司的名字的,都訓練成航司這個實體好啦。另外,咱們還可以在填表的框里,添加一個航司選擇,就像這樣(黃色部分):(嗯,好多做TOB的團隊,都是掉在這個“在后面可以加上去”的坑里。)但是,這么理所當然的訓練之后,實體提取出來的航司卻是“東航”——而用戶說的是“東航以外的”,這又指的哪個(些)航司呢?“要不,咱們做點Trick把‘以外’這樣的邏輯單獨拿出來手工處理掉?”——如果這個問題可以這么容易處理掉,你覺得Siri等一干貨色還會是現在這個樣子?難度不在于“以外”提取不出來,而是在處理“這個以外,是指哪個實體以外?當前基于深度學習的NLU在“實體提取”這個技術上,就只能提取“實體”。而人能夠理解,在這個情況下,用戶是指的“排除掉東航以外的其他選擇”,這是因為人除了做“實體提取”以外,還根據所處語境,做了一個對邏輯的識別:“xx以外”。然后,自動執行了這個邏輯的處理,即推理,去進一步理解,對方真正指的是什么(即指代)。而這個邏輯推理的過程,并不存在于之前設計好的步奏(從1到5)里。更麻煩的是,邏輯的出現,不僅僅影響“實體”,還影響“意圖”:“hiSiri,別推薦餐廳”——它還是會給你推薦餐廳;“hiSiri,除了推薦餐廳,你還能推薦什么?”——它還是會給你推薦餐廳。中文英文都是一樣的;Googleassistant也是一樣的。想要處理這個問題,不僅僅是要識別出“邏輯”;還要正確判斷出,這個邏輯是套用在哪個實體,或者是不是直接套用在某一個意圖上。這個判斷如何做?用什么做?都不在當前SLU的范圍內。對這些問題的處理,如果是集中在一些比較封閉的場景下,還可以解決個七七八八。但是,如果想要從根本上、泛化的處理,希望一次處理就解決所有場景的問題,到目前都無解。在這方面,Siri是這樣,GoogleAssistant也是這樣,任意一家,都是這樣。為啥說無解?我們來看看測試。“用圖靈測試來測對話系統沒用”一說到對人工智能進行測試,大部分人的反應是圖靈測試。5月GoogleI/O大會的那段時間,我們團隊正在服務一家企業,為他們規劃基于AIAgent的服務。在發布會的第二天,我收到這家客戶的TechOffice的好心提醒:Google這個像真人一樣的黑科技,會不會現有的技術方案?我的回答是并不會。話說GoogleDuplex在發布會上的demo確實讓人印象深刻,而且大部分看了Demo的人,都分辨不出打電話去做預定的是不是真人。“這個效果在某種意義上,算是通過了圖靈測試。”Google母公司的Chairman說googleduplex可以算過了圖靈測試了由于圖靈測試的本質是“欺騙”(Agameofdeception,詳見TobyWalsh的論文),所以很多人批評它,這只能用來測試人有多好騙,而不是用來測智能的。在這一點上,我們在后文Part4對話的本質中會有更多解釋。人們被這個Demo騙到的主要原因,是因為合成的語音非常像真人。這確實是Duplex牛的地方:語音合成。不得不承認,包括語氣、音調等等模擬人聲的效果,確實是讓人嘆為觀止。只是,單就在語音合成方面,就算是做到,在本質上就是一只鸚鵡——多可以騙騙Alexa(所以你看活體識別有多么重要)。只是,Google演示的這個對話系統,一樣處理不了邏輯推理、指代這類的問題。這意味著,就它算能過圖靈測試,也過不了WinogradSchemaChallenge測試。相比圖靈測試,這個測試是直擊深度學習的要害。當人類對句子進行語法分析時,會用真實世界的知識來理解指代的對象。這個測試的目標,就是測試目前深度學習欠缺的常識推理能力。如果我們用WinogradSchemaChallenge的方法,來測試AI在“餐廳推薦”這個場景里的水平,題目會是類似這樣的:A.“四川火鍋比日料更好,因為它很辣”B.“四川火鍋比日料更好,因為它不辣”AI需要能準確指出:在A句里,“它”指的是四川火鍋;而在B句里,“它”指的則是日料。還記得在本文Part1里提到的那個“不要日本菜測試”么?我真的不是在強調“回字有四種寫法”——這個測試的本質,是測試對話系統能不能使用簡單邏輯來做推理(指代的是什么)。而在WinogradSchemaChallenge中,則是用世界知識(包括常識)來做推理:如果系統不知道相應的常識(四川火鍋是辣的;日料是不辣的),就沒有推理的基礎。更不用說推理還需要被準確地執行。有人說,我們可以通過上下文處理來解決這個問題。不好意思,上面這個常識根本就沒有出現在整個對話當中。不在“上文”里面,又如何處理?對于這個部分的詳細解釋,請看下一章(Part3對話的本質)。盡管指代問題和邏輯問題,看上去,在應用方面已經足夠致命了;但這些也只是深度學習表現出來的諸多局限性中的一部分。哪怕更進一步,再過一段時間,有一家AI在WinogradSchemaChallenge拿了的正確率,我們也不能期望它在自然語言處理中的表現如同人一樣,因為還有更嚴重和更本質的問題在后面等著。“對話系統更大的挑戰不是NLU”我們來看問題表現在什么地方。現在我們知道了,當人跟現在的AI對話的時候,AI能識別你說的話,是靠深度學習對你說出的自然語言進行分類,歸于設定好的意圖,并找出來文本中有哪些實體。而AI什么時候回答你,什么時候反問你,基本都取決于背后的“對話管理”系統里面的各種表上還有啥必填項沒有填完。而問你的話,則是由產品經理和代碼小哥一起手動完成的。那么,這張表是誰做的?或者說,是誰決定,對于“訂”這件事,要考慮哪些方面?要獲得哪些信息?需要問哪些問題?機器又是怎么知道的?是人。是產品經理,準確點說。就像剛才的“訂”的案例,當用戶問到“航司”的時候,之前的表里并沒有設計這個概念,AI就無法處理了。要讓AI能處理這樣的新條件,得在“訂”這張表上,新增加“航空公司”一欄(黃色部分)。而這個過程,都得人為手動完成:產品經理設計好后,工程師編程完成這張表的編程。所以AI并不是真的,通過案例學習就自動理解了“訂”這件事情,包含了哪些因素。只要這個表還是由人來設計和編程實現的,在產品層面,一旦用戶稍微談及到表以外的內容,智障的情況就自然出現了。因此,當Googleduplex出現的時候,我并不那么關心Googleduplex發音和停頓有多像一個人——實際上,當我觀察任意一個對話系統的時候,我都只關心1個問題:“是誰設計的那張表:人,還是AI?”只是,深度學習在對話系統里面,能做的只是識別用戶講出的那句話那部分——嚴格依照被人為訓練的那樣(監督學習)。至于其他方面,比如該講什么話?該在什么時候講話?它都無能為力。但是真正人們在對話時的過程,卻不是上面提到的對話系統這么設計的,而且相差十萬八千里。人的對話,又是怎么開展的?這個差異究竟在哪里?為什么差異那么大?所謂深度學習很難搞定的地方,是人怎么搞定的呢?畢竟在這個星球上,我們自身就是70億個的自然語言處理系統呢。我們需要了解要解決的問題,才可能開展解決問題的工作。在對話領域,我們需要知道人們對話的本質是什么。下一章比較燒腦,我們將討論“思維”這件事情,是如何主導人們的對話的。Part3人類對話的本質:思維“對話的終目的是為了同步思維”你是一位30出頭的職場人士,每天上午9點半,都要過辦公樓的旋轉門,進大堂的,然后刷工牌進電梯,去到28樓,你的辦公室。今天是1月6日,平淡無奇的一天。你剛進電梯,電梯里只有你一個人,正要關門的時候,有一個人匆忙擠進來。進來的快遞小哥,他進電梯時看到只有你們兩人,就說了一聲“你好”,然后又低頭找樓層按鈕了。你很自然的回復:“你好”,然后目光轉向一邊。兩邊都沒什么話好講——實際上,是對話雙方認為彼此沒有什么情況需要同步的。人們用語言來對話,其終的目的是為了讓雙方對當前場景模型(Situationmodel)保持同步。(大家先了解到這個概念就夠了。更感興趣的,詳情請見Towardaneuralbasisofinteractivealignmentinconversation)。Theinteractive-alignmentmodel(basedonPickeringandGarrod,2004)上圖中,A和B兩人之間發展出來所有對話,都是為了讓紅框中的兩個“Situationmodel”保持同步。Situationmodel在這里可以簡單理解為對事件的各方面的理解,包括Context。不少做對話系統的朋友會認為Context是僅指“對話中的上下文”,我想要指出的是,除此以外,Context還應該包含了對話發生時人們所處的場景。這個場景模型涵蓋了對話那一刻,除了明文以外的所有已被感知的信息。比如對話發生時的天氣情況,只要被人感知到了,也會被放入Context中,并影響對話內容的發展。A:“你對這個事情怎么看?”B:“這天看著要下雨了,咱們進去說吧”——盡管本來對話內容并沒有涉及到天氣。對同一件事情,不同的人在腦海里構建的場景模型是不一樣的。(想要了解更多,可以看Situationmodelsinlanguagecomprehensionandmemory.Zwaan,R.A.,&Radvansky,G.A.(1998).)所以,如果匆忙進電梯來的是你的項目老板,而且假設他和你(多半都是他啦)都很關注近的新項目進展,那么你們要開展的對話就很多了。在電梯里,你跟他打招呼:“張總,早!”,他會回你“早啊,對了昨天那個…”不待他問完,優秀如你就能猜到“張總”大概后面要聊的內容是關于新項目的,這是因為你認為張總對這個“新項目”的理解和你不同,有同步的必要。甚至,你可以通過昨天他不在辦公室,大概漏掉了這個項目的哪些部分,來推理你這個時候應該回復他關于這個項目的具體什么方面的問題。“昨天你不在,別擔心,客戶那邊都處理好了。打款的事情也溝通好了,30天之內搞定。”——你看,不待張總問完,你都能很棒的回答上。這多虧了你對他的模型的判斷是正確的。一旦你對對方的情景模型判斷失誤,那么可能“沒打中點上”。“我知道,昨天晚上我回了趟公司,小李跟我說過了。我是要說昨天晚上我回來辦公室的時候,你怎么沒有在加班呀?小王,你這樣下去可不行啊…”所以,人們在進行對話的過程中,并不是僅靠對方上一句話說了什么(對話中明文所包含的信息)就來決定回復什么。而這和當前的對話系統的回復機制非常不同。“對話是思想從高維度向低維的投影”我們假設,在另一個平行宇宙里,還是你到了辦公樓。今天還是1月6日,但2年前的今天,你與交往了5年的女友分手了,之后一直對她念念不忘,也沒有交往新人。你和往日一樣,進電梯的,剛要關門的時候,匆忙進來的一個人,要關的門又打開了。就是你2年前分手的那位前女友。她進門時看到只有你們兩,她抬頭看了一下你,然后又低頭找樓層電梯了,這時她說:“你好”。請問你這時腦袋里是不是有很多信息洶涌而過?這時該回答什么?是不是類似“一時不知道該如何開口”的感覺?這個感覺來自(你認為)你和她之間的情景模型有太多的不同(分手2年了),甚至你都無法判斷缺少哪些信息。有太多的信息想要同步了,卻被貧瘠的語言困住了。在信息豐富的程度上,語言是貧瘠的,而思想則要豐富很多“Languageissketchy,thoughtisrich”(Newperspectivesonlanguageandthought,LilaGleitman,TheOxfordHandbookofThinkingandReasoning;更多相關討論請看,Fisher&Gleitman,2002;Papafragou,2007)有人做了一個比喻:語言和思維的豐富程度相比,是冰山的一角。我認為遠遠不止如此:對話是思想在低維的投影。如果是冰山,你還可以從水面上露出來的部分反推水下大概還有多大。屬于維度相同,但是量不同。但是語言的問題在,只用聽到文字信息,來反推講話的人的思想,失真的情況會非常嚴重。為了方便理解這個維度差異,在這兒用3D和2D來舉例:思維是高維度(立體3D的形狀),對話是低維度(2D的平面上的陰影)。如果咱們要從平面上的陰影的形狀,來反推,上面懸著的是什么物體,就很困難了。兩個陰影的形狀一模一樣,但是上面的3D物體,可能不同。對于語言而言,陰影就像是兩個“你好”在字面上是一模一樣的,但是思想里的內容卻不同。在見面的那一瞬間,這個差異是非常大的:你在想(圓柱):一年多不見了,她還好么?前女友在想(球):這個人好眼熟,好像認識…“挑戰:用低維表達高維”要用語言來描述思維有多困難?這就好比,當你試圖給另一位不在現場的朋友,解釋一件剛剛發生過的事情的時候,你可以做到哪種程度的還原呢?試試用語言來描述你今天的早晨是怎么過的。當你用文字完整描述后,我一定能找到一個事物或者某個具體的細節,它在你文字描述以外,但是卻確實存在在你今天早晨那個時空里。Source:TheChallenger比如,你可能會跟朋友提到,早飯吃了一碗面;但你一定不會具體去描述面里一共有哪些調料。傳遞信息時,缺少了這些細節(信息),會讓聽眾聽到那碗面時,在腦海里呈現的一定不是你早上吃的“那碗面”的樣子。這就好比讓你用平面上(2D)陰影的樣子,來反推3D的形狀。你能做的,只是盡可能的增加描述的視角,盡可能給聽眾提供不同的2D的素材,來盡量還原3D的效果。為了解釋腦中“語言”和“思想”之間的關系(與讀者的情景模型進行同步),我畫了上面那張對比圖,來幫助傳遞信息。如果要直接用文字來描述,還要盡量保全信息不丟失,那么我不得不用多得多的文字來描述細節。(比如上面的描述中,尚未提及陰影的面積的具體大小、顏色等等細節)。這還只是對客觀事物的描述。當人在試圖描述更情緒化的主觀感受時,則更難用具體的文字來表達。比如,當你看到AngelinaJordan這樣的小女生,卻能唱出Iputaspellonyou這樣的歌的時候,請嘗試用語言描述你的主觀感受。是不是很難?能講出來話,都是類似“鵝嚶”這類的?這些文字能代表你腦中的感受的多少部分?1%?希望此時,你能更理解所謂“語言是貧瘠的,而思維則要豐富很多”。那么,既然語言在傳遞信息時丟失了那么多信息,人們為什么理解起來,好像沒有遇到太大的問題?“為什么人們的對話是輕松的?”假設有一種方式,可以把此刻你腦中的感受,以不失真的效果傳遞給另一個人。這種信息的傳遞和上面用文字進行描述相比,豐富程度會有多大差異?可惜,我們沒有這種工具。我們主要的交流工具,就是語言,靠著對話,來試圖讓對方了解自己的處境。那么,既然語言這么不,又充滿邏輯上的漏洞,信息量又不夠,那么人怎么能理解,還以此為基礎,建立起來了整個文明?比如,在一個餐廳里,當服務員說“火腿三明治要買單了”,我們都能知道這和“20號桌要買單了”指代的是同樣的事情(Nuberg,1978)。是什么讓字面上那么大差異的表達,也能有效傳遞信息?人能通過對話,有效理解語言,靠的是解讀能力——更具體的點,靠的是對話雙方的共識和基于共識的推理能力。當人接收到低維的語言之后,會結合引用常識、自身的世界模型(后詳),來重新構建一個思維中的模型,對應這個語言所代表的含義。這并不是什么新觀點,大家熟悉的開復老師,在1991年在蘋果搞語音識別的時候,就在采訪里科普,“人類利用常識來幫助理解語音”。當對話的雙方認為對一件事情的理解是一樣的,或者非常接近的時候,他們就不用再講。需要溝通的,是那些(彼此認為)不一樣的部分。當你聽到“蘋果”兩個字的時候,你過去建立過的蘋果這個模型的各個維度,就被引用出來,包括可能是綠或紅色的、味道的甜、大概拳頭大小等等。如果你聽到對方說“藍色的蘋果”時,這和你過去建立的關于蘋果的模型不同(顏色)。思維就會產生一個提醒,促使你想要去同步或者更新這個模型,“蘋果為什么是藍色的?”還記得,在Part2里我們提到的那個測試指代關系的WinogradSchemaChallenge么?這個測試的名字是根據TerryWinograd的一個例子而來的。“議員們拒絕給者頒發許可證,因為他們[害怕/提倡]暴力。”當[害怕]出現在句子當中的時候,“他們”指的應該是議員們;當[提倡]出現在句子當中的時候,“他們”則指的是“者”。1.人們能夠根據具體情況,作出判斷,是因為根據常識做出了推理,“議員害怕暴力;者提倡暴力。”2.說這句話的人,認為這個常識對于聽眾應該是共識,就直接把它省略掉了。同理,之前(Part2)我們舉例時提到的那個常識(“四川火鍋是辣的;日料不是辣的”),也在表達中被省略掉了。常識(往往也是大多數人的共識)的總量是不計其數,而且總體上還會隨著人類社會發展的演進而不斷新增。例子1,如果你的世界模型里已經包含了“華農兄弟”(你看過并了解他們的故事),你會發現我在Part2開始的例子,藏了一個梗(做成叫花雞)。但因為“華農兄弟”并不是大多數人都知道的常識,而是我與特定人群的共識,所以你看到這句話時,獲得的信息就比其人多。而不了解這個梗的人,看到那里時就不會接收到這個額外的信息,反而會覺得這個表達好像有點點奇怪。例子2,創投圈的朋友應該都有聽說過Elevatorpitch,就是30秒,把你要做什么事情講清楚。通常的案例諸如:“我們是餐飲界的Uber”,或者說“我們是辦公室版的Airbnb”。這個典型結構是“XX版的YY”,要讓這句話起到效果,前提條件是XX和YY兩個概念在發生對話之前,已經納入到聽眾的模型里面去了。如果我給別人說,我是“對話智能行業的麥肯錫”,要能讓對方理解,對方就得既了解對話智能是什么,又了解麥肯錫是什么。“基于世界模型的推理”場景模型是基于某一次對話的,對話不同,場景模型也不同;而世界模型則是基于一個人的,相對而言長期不變。對世界的感知,包括聲音、視覺、嗅覺、觸覺等感官反饋,有助于人們對世界建立起一個物理上的認識。對常識的理解,包括各種現象和規律的感知,在幫助人們生成一個更完整的模型:世界模型。無論、或者對錯,每一個人的世界模型都不一樣,有可能是觀察到的信息不同,也有可能是推理能力不一樣。世界模型影響的是人的思維本身,繼而影響思維在低維的投影:對話。讓我們從一個例子開始:假設現在咱們一起來做一個不那么智障的助理。我們希望這個助理能夠推薦餐廳酒吧什么的,來應付下面這樣的需求:當用戶說:“我想喝點東西”的時候,系統該怎么回答這句話?經過Part2,我相信大家都了解,我們可以把它訓練成為一個意圖“找喝東西的店”,然后把周圍的店檢索出來,然后回復這句話給他:“在你附近找到這些選擇”。恭喜,咱們已經達到Siri的水平啦!但是,剛剛我們開頭就說了,要做不那么智障的助理。這個“喝東西的店”是奶茶點還是咖啡店?還是全部都給他?嗯,這就涉及到了推理。我們來手動模擬一個。假設我們有用戶的Profile數據,把這個用上:如果他的偏好中愛的飲品是咖啡,就給他推薦咖啡店。這樣一來,我們就可以更“個性化”的給他回復了:“在你附近找到這些咖啡店”。這個時候,咱們的AI已經達到了不少“智能系統”喜歡鼓吹的個性化概念——“千人千面”啦!然后我們來看這個概念有多蠢。一個人喜歡喝咖啡,那么他一輩子的任意時候就都要喝咖啡么?人是怎么處理這個問題的呢?如果用戶是在下午1點這么問,這么回他還好;如果是在晚上11點呢?我們還要給他推薦咖啡店么?還是應該給他推薦一個酒吧?或者,除此之外,如果今天是他的生日,那么我們是不是該給他點不同的東西?或者,今天是圣誕節,該不該給他推薦熱巧克力?你看,時間是一個維度,在這個維度上的不同值都在影響給用戶回復什么不同的話。時間和用戶的Profile不同的是:1.時間這個維度上的值有無限多;2.每個刻度還都不一樣。比如雖然生日是同一個日期,但是過生日的次數卻不重復;除了時間這個維度以外,還有空間。于是我們把空間這個維度疊加(到時間)上去。你會發現,如果用戶在周末的家里問這個問題(可能想叫奶茶外賣到家?),和他在上班時間的辦公室里問這個問題(可能想出去走走換換思路),咱們給他的回復也應該不同。光是時空這兩個維度,就有無窮多的組合,用"ifthen"的邏輯也沒法全部手動寫完。我們造機器人的工具,到這個需求,就開始捉襟見肘了。何況時間和空間,只是世界模型當中顯而易見的兩個維度。還有更多的,更抽象的維度存在,并且直接影響與用戶的對話。比如,人物之間的關系;人物的經歷;天氣的變化;人和地理位置的關系(是經常來出差、是當地土著、是次來旅游)等等等等。咱們聊到這里,感覺還在聊對話系統么?是不是感覺有點像在聊推薦系統?要想效果更好,這些維度的因素都要疊加在一起進行因果推理,然后把結果給用戶。至此,影響人們對話的,光是信息(還不含推理)至少就有這三部分:明文(含上下文)場景模型(Context)世界模型。普通人都能毫不費力地完成這個工作。但是深度學習只能處理基于明文的信息。對于場景模型和世界模型的感知、生成、基于模型的推理,深度學習統統無能為力。這就是為什么現在炙手可熱的深度學習無法實現真正的智能(AGI)的本質原因:不能進行因果推理。根據世界模型進行推理的效果,不僅僅體現上在對話上,還能應用在所有現在成為AI的項目上,比如自動駕駛。經過大量訓練的自動駕駛汽車,在遇到偶發狀況時,就沒有足夠的訓練素材了。比如,突然出現在路上的嬰兒車和突然滾到路上的垃圾桶,都會被視為障礙物,但是剎不住車的情況下,一定要撞一個的時候,撞哪一個?又比如,對侯世達(DouglasHofstardler)而言,“駕駛”意味著當要趕著去一個地方的時候,要選擇超速還是不超速;要從堵車的高速下來,還是在高速上慢慢跟著車流走...這些決策都是駕駛的一部分。他說:“世界上各方面的事情都在影響著“駕駛”這件事的本質”。“人腦有兩套系統:系統1和系統2”關于“系統1和系統2”的詳情,請閱讀Thinking,FastandSlow,byDanielKahneman,一本非常好的書,對人的認知工作是如何展開的進行了深入的分析。在這兒,我給還不了解的朋友介紹一下,以輔助本文前后的觀點。心理學家認為,人思考和認知工作分成了兩個系統來處理:系統1是快思考:無意識、快速、不怎么費腦力、無需推理系統2是慢思考:需要調動注意力、過程更慢、費腦力、需要推理系統1先上,遇到搞不定的事情,系統2會出面解決。系統1做的事情包括:判斷兩個物體的遠近、追溯聲音的來源、完形填空("我愛北京天安")等等。順帶一提,下象棋的時候,一眼看出這是一步好棋,這個行為也是系統1實現的——前提是你是一位優秀的玩家。對于中國學生而言,你突然問他:“7乘以7”,他會不假思索的說:“49!”這是系統1在工作,因為我們在小學都會背99乘法表。這個49并非來自計算結果,而是背下來的(反復重復)。相應的,如果你問:“3287x2234等于多少?”,這個時候人就需要調用世界模型中的乘法規則,加以應用(計算)。這就是系統2的工作。另外,在系統1所設定的世界里,貓不會像狗一樣汪汪叫。若事物違反了系統1所設定的世界模型,系統2也會被激活。在語言方面,YoshuaBengio認為系統1不做與語言有關的工作;系統2才負責語言工作。對于深度學習而言,它更適合去完成系統1的工作,實際上它根本沒有系統2的功能。關于這兩個系統,值得一提的是,人是可以通過訓練,把部分系統2才能做的事情,變成系統1來完成的。比如中國學生得經過“痛苦的記憶過程”才能熟練掌握99乘法表,而不是隨著出生到長大的自然經驗,慢慢學會的。但是這里有2個有意思的特征:1.變成系統1來處理問題的時候,可以節約能量。人們偏向相信自己的經驗,是因為腦力對能量的消耗很大,這是一個節能的做法。2.變成系統1的時候,會犧牲辯證能力,因為系統1對于邏輯相關的問題一無所知。“我做這個事情已經幾十年了”這種經驗主義思維就是典型案例。想想自己長期積累的案例是如何在影響自己做判斷的?“單靠深度學習搞不定語言,現在不行,將來也不行”在人工智能行業里,你經常會聽到有人這么說“盡管當前技術還實現不了理想中的人工智能,但是技術是會不斷演進的,隨著數據積累的越來越多,終將會實現讓人滿意的人工智能。”如果這個說法,是指寄希望于僅靠深度學習,不斷積累數據量,就能翻盤——那就大錯特錯了。無論你怎么優化“馬車”的核心技術(比如更壯、更多的馬),都無法以此造出汽車(下圖右)。對于大眾而言,技術的可演進性,是以宏觀的視角看人類和技術的關系。但是發動機的演化和馬車的關鍵技術沒有半點關系。深度學習領域的3大牛,都認為單靠深度學習這條路(不能終通向AGI)。感興趣的朋友可以沿著這個方向去研究:GeoffreyHinton的懷疑:“我的觀點是都扔掉重來吧”YoshuaBengio的觀點:“如果你對于這個每天都在接觸的世界,有一個好的因果模型,你甚至可以對不熟悉的情況進行抽象。這很關鍵......機器不能,因為機器沒有這些因果模型。我們可以手工制作這些模型,但是這遠不足夠。我們需要能發現因果模型的機器。”YannLeCun的觀點:“Alearningpredictiveworldmodeliswhatwe’remissingtoday,andinmyopinionisthebiggestobstacletosignificantprogressinAI.”至于深度學習在將來真正的智能上扮演的角色,在這兒我引用GaryMarcus的說法:“Idon’tthinkthatdeeplearningwon’tplayaroleinnaturalunderstanding,onlythatdeeplearningcan’tsucceedonitsown.”“解釋人工智障產品”現在,我們了解了人們對話的本質是思維的交換,而遠不只是明文上的識別和基于識別的回復。而當前的人工智能產品則無法實現這個效果。那么當用戶帶著人類的世界模型和推理能力來跟機器,用自然語言交互時,就很容易看到破綻。Sophia是一個技術上的**(凡是鼓吹Sophia是真AI的,要么是不懂,要么是忽悠);現在的AI,都不會有真正的智能(推理能力什么的不存在的,包括Alphago在內);只要是深度學習還是主流,就不用擔心AI統治人類;對話產品感覺用起來智障,都是因為想跳過思維,直接模擬對話(而現在也只能這樣);“用的越多,數據越多,智能會越強,產品就會越好,使用就會越多”——對于任務類對話產品,這是一個看上去很酷,實際上不靠譜的觀點;一個AIagent,能對話多少輪,毫無意義;toC的助理產品做不好,是因為解決不了“如何獲得用戶的世界模型數據,并加以利用”這個問題;toB的對話智能公司為何很難規模化?(因為場景模型是手動生成的)先有智能,后有語言:要做到真正意義上的自然語言對話,至少要實現基于常識和世界模型的推理能力。而這一點如果能實現,那么我們作為人類,就可能真的需要開始擔心前文提到的智能了。不要用NLP評價一個對話智能產品:年底了,有些媒體開始出各種AI公司榜單,其中有不少把做對話的公司分在NLP下面。這就好比,不要用觸摸屏來衡量一款智能手機。在這兒我不是說觸摸屏或者NLP不重要(Essential),反而因為太重要了,這個環節成為了每一家的標配,以至于在這方面基本已經做到頭了,差異不過1%。對于一個對話類產品而言,NLU盡管重要,但只應占個整體配件的5-10%左右。更進一步來說,甚至意圖識別和實體提取的部分用大廠的,產品間差異也遠小于對話管理部分的差距。真正決定產品的是剩下的90%的系統。到此,是不是有一種絕望的感覺?這些學界和行業的大牛都沒有解決方案,或者說連有把握的思路都沒有。是不是做對話智能這類的產品就沒戲了?上限就是這樣了么?不是。對于一項技術而言,可能確實觸底了;但是對于應用和產品設計而言,并不是由一個技術決定的,而是很多技術的結合,這里還有很大的空間。作為產品經理,讓我來換一個角度。我們來研究一下,既然手中的工具是這些,我們能用他們來做點什么?Part4AI產品的潛力在于設計“AI的歸AI,產品的歸產品”《ThePrestige》2006,劇照有一部我很喜歡的電影,ThePrestige,里面講了一個關于“瞬間移動”的魔術。對于觀眾而言,就是從一個地方消失,然后瞬間又從另一個地方出現。個魔術師,成功的在舞臺上實現了這個效果。他打開舞臺上的右邊的門,剛一進去的一瞬間,就從舞臺左邊的門出來了。對觀眾而言,這符合他們的期望。第二個魔術師在觀眾席里,看到效果后驚呆了,他感覺這根本毫無破綻。但是他是魔術師——作為一個產品經理——他就想研究這個產品是怎么實現的。但是魔術行業里,不受人待見的,就是魔術揭秘。影片后,他得到了答案(劇透預警):所有的工程機關、升降機、等等,都如他所料的藏在了舞臺下面。但真正的核心是,個魔術師一直隱藏著自己的另一個雙胞胎兄弟。當他打開一個門,從洞口跳下舞臺的那一刻,雙胞胎的另一位就馬上從另一邊升上舞臺。看到這里,大家可能就恍然大悟:“原來是這樣,雙胞胎啊!”這感覺是不是有點似曾相識?在本文Part2,我們聊到把對話系統的黑箱打開,里面就是填一張表的時候,是不是有類似的感覺?對話式人工智能的產品(對話系統)就像魔術,是一個黑箱,用戶是以感知來判斷價值的。“我還以為有什么黑科技呢,我是雙胞胎我也可以啊。”其實這并不容易。我們先不說魔術的舞臺里面的工程設計,這個魔術難的地方是如何能在魔術師的生活中,讓另一個雙胞胎在大眾視野里消失掉。如果觀眾們都知道魔術師是雙胞胎,就很可能猜到舞臺上的魔術是兩個人一起表演的。所以這個雙胞胎,一定不能出現在大眾的“世界模型”里。為了讓雙胞胎的另一個消失在大眾視野里,這兩兄弟付出了很多代價,身心磨,絕非一般人能接受的,比如共享同一個老婆。這也是我的建議:技術不夠的時候,設計來補。做AI產品的同學,不要期待給你智能。要是真的有智能了,還需要你干什么?人工智能產品經理需要設計一套龐大的系統,其中包括了填表、也當然包括深度學習帶來的意圖識別和實體提取等等標準做法、也包括了各種可能的對話管理、上下文的處理、邏輯指代等等。這些部分,都是產品設計和工程力量發揮的空間。“設計思路的基礎”我需要強調一下,在這里,咱們講的是AI產品思路,不是AI的實現思路。對于對話類產品的設計,以現在深度學習的基礎,語義理解應該只占整個產品的5%-10%;而其他的,都是想盡一切辦法來模擬“傳送”這個效果——畢竟我們都知道,這是個魔術。如果只是識別就占了你家產品的大量心血,其他的不去拉開差異,基本出來就是智障無疑。在產品研發方面上,如果研發團隊能提供多種技術混用的工具,肯定會增加開發團隊和設計的發揮空間。這個做法也就是DL(DeepLearning)GOFAI(GoodOldFashionedAI)的結合。GOFAI是JohnHaugeland首先提出的,也就是深度學習火起來之前的symbolicAI,也就是專家系統,也就是大多數在AI領域的人都看不起的“ifthen…”DLGOFAI這個前提,是當前一切后續產品設計思路的基礎。“DesignPrinciple:存在即為被感知”“存在即為被感知”是18世紀的哲學家GeorgeBerkeley的名言。加州大學伯克利分校的命名來源也是為了紀念這位唯心主義大師。這個意思呢,就是如果你不能被感知到,你就是不存在的!我認為“存在即為被感知”是對話類AI產品的Designprinciple。對話產品背后的智能,是被用戶感知到而存在的。直到有一天AI可以代替產品經理,在那之前,所有的設計都應該圍繞著,如何可以讓用戶感覺和自己對話的AI是有價值的,然后才是聰明的。要非常明確自己的目的,設計的是AI的產品,而不是AGI本身。就像魔術的設計者,給你有限的基礎技術條件,你能組裝出一個產品,體驗是人們難以想到。同時,也要深刻的認識到產品的局限性。魔術就是魔術,并不是現實。這意味著,在舞臺上的魔術,如果改變一些重要的條件,它就不成立了。比如,如果讓觀眾跑到舞臺的頂上,從上往下看這個魔術,就會發現舞臺上有洞。或者“瞬間移動”的不是這對雙胞胎中的一個,而是一個觀眾跑上去說,“讓我來瞬間移動試試”,就穿幫了。NarrowAI的產品,也是一樣的。如果你設計好了一個Domain,無論其中體驗如何,只要用戶跑到Domain的邊界以外了,就崩潰了。先設定好產品邊界,設計好“越界時給用戶的反饋”,然后在領域里面,盡可能的模擬這個魔術的效果。假設Domain的邊界已經設定清晰了,哪些方面可以通過設計和工程的力量,來大幅增加效果呢?其實,在“Part3對話的本質”里談到的與思維相關的部分,在限定Domain的前提下,都可以作為設計的出發點:你可以用GOFAI來模擬世界模型、也可以模擬場景模型、你可以Fake邏輯推理、可以Fake上下文指代——只要他們都限定在Domain里。“選擇合適的Domain”成本(工程和設計的量)和給用戶的價值并不是永遠成正比,也根據不同的Domain的不同。比如,我認為現在所有的閑聊機器人都沒有什么價值。開放Domain,沒有目標、沒有限定和邊界,對用戶而言,會認為什么都可以聊。但是其自身“場景模型”一片空白,對用戶所知的常識也一無所知。導致用戶稍微試一下,就碰壁了。我把這種用戶體驗稱為“每次嘗試都容易遇到挫折”。可能,有些Domain對回復的內容并不那么看重。也就并不需要那么強壯的場景模型和推理機制來生成回復內容。我們假設做一個“樹洞機器人”,可以把產品定義是為,扮演一個好的聽眾,讓用戶把心中的壓力煩惱傾訴出來。:BradleyUniversityOnline這個產品的邊界,需要非常明確的,在用戶剛剛接觸到的時候,強化到用戶的場景模型中。主要是系統通過一些語言的反饋,鼓勵用戶繼續說。而不要鼓勵用戶來期望對話系統能輸出很多正確且有價值的話。當用戶做出一些陳述之后,可以跟上一些對“場景模型”依賴較小,泛泛的話。“我從來沒有這么考慮過這個問題,你為什么會這么想呢?”“關于這個人,你還有哪些了解?”“你覺得他為什么會這樣?”……這樣一來,產品在需求上,就大幅減輕了對“自然語言生成”的依賴。因為這個產品的價值,不在回復的具體內容是否,是否有價值上。這就同時降低了對話背后的“場景模型”、“世界模型”、以及“常識推理”這些高維度模塊的需求。訓練的素材嘛,也就是某個特定分支領域(比如職場、家庭等)的心理咨詢師的對話案例。產品定義上,這得是一個Companion型的產品,不能真正起到理療的作用。當然,以上并不是真正的產品設計,僅僅是用一個例子來說明,不同的Domain對背后的語言交互的能力要求不同,進而對更后面的“思維能力”要求不同。選擇產品的Domain時,盡量遠離那些嚴重依賴世界模型和常識推理,才能進行對話的場景。有人可能說,你這不就是Sophia的做法么?不是。這里需要強調的是Sophia的核心問題是欺騙。產品是想忽悠大眾,他們真的做出了智能。在這里,我提倡的是明確告訴用戶,這就是對話系統,而不是真的造出了智能。這也是為什么,在我自己的產品設計中,如果遇到真人和AI同時為用戶服務的時候(產品上稱為HybridModel),我們總是會偏向明確讓用戶知道,什么時候是真人在服務,什么時候是機器人在服務。這么做的好處是,控制用戶的預期,以避免用戶跑到設計的Domain以外去了;不好的地方是,你可能“聽上去”沒有那么酷。所以,當我說“存在即為被感知”的時候,強調的是對價值的感知;而不是對“像人一樣”的感知。“對話智能的核心價值:在內容,不在交互”多年前,還在英國讀書的時候,我曾經在一個非常有名歷史悠久的秘密結社里工作。我對當時的那位照顧會員需求的大管家印象深刻。你可以想象她好像是“美國運通黑卡服務”的超級禮賓,她有兩個超能力:1.Resourceful,會員的奇葩需求都能想盡辦法的實現:一個身在法蘭克福的會員半夜里遇到急事,臨時想盡快回倫敦,半夜沒有航班了,打電話找到大管家求助。后大管家找到另一個會員的朋友借了私人飛機,送他一程,凌晨回到了倫敦。2.Mind-reading,會員想要什么,無需多言:“Oliver,我想喝點東西…”“當然沒問題,我待會給你送過來。”她也不需要問喝什么,或者送到哪里。人人都想要一個這樣的管家。蝙蝠俠需要Alfred;鋼鐵俠需要Javis;西奧多需要Her(盡管這哥們后來走偏了);iPhone需要Siri;這又回到了我們在Part1里提到的,AI的toC產品是智能助理。但是,人們需要這個助理的根本原因,是因為人們需要它的對話能力么?這個世界上已經有70億個自然語言對話系統了(就是人),為什么我們還需要制造更多的對話系統?我們需要的是對話系統后面的思考能力,解決問題的能力。而對話,只是這個思考能力的交互方式(ConversationalUserInterface)。如果真能足夠聰明的把問題提前解決了,用戶甚至連話都不想說。我們來看個例子。我知道很多產品經理已經把這個iPhone初代發布的東西講爛了。但是,在這兒確實是一個非常好的例子:我們來探討一下iPhone用虛擬鍵盤代替實體鍵盤的原因。普通用戶,從直觀的視角,能得出結論:這樣屏幕更大!需要鍵盤的時候就出現,不需要的時候就消失。而且還把看上去挺復雜的產品設計給簡化了,更好看了。甚至很多產品經理也是這么想的。實際上,這根本不是硬件設計的問題。原因見下圖。其實喬布斯在當時也講的很清楚:物理鍵盤的核心問題是,(作為交互UI)你不能改變它。物理交互方式(鍵盤)不會根據不同的軟件發生改變。如果要在手機上加載各種各樣的內容,如果要創造各種各樣的軟件生態,這些不同的軟件都會有自己不同的UI,但是交互方式都得依賴同一種(物理鍵盤無法改變),這就行不通了。所以,實際代替這些物理鍵盤的,不是虛擬鍵盤,而是整個觸摸屏。因為iPhone(當時的)將來會搭載豐富的生態軟件內容,就必須要有能與這些還沒出現的想法兼容的交互方式。在我看來,上述一切都是為了豐富的內容服務。再一次的,交互本身不是核心,它背后搭載的內容才是。但是在當初看這個發布會的時候,我是真的沒有get到這個點。那個時候真的難以想象,整個移動互聯時代會誕生的那么多APP,都有各自不同的UI,來搭載各式各樣的服務。你想想,如果以上面這些實體鍵盤,讓你來操作大眾點評、打開地圖、Instagram或者其他你熟悉的APP,是一種怎樣的體驗?更有可能的是,只要是這樣的交互方式,根本設計不出剛才提到的那些APP。與之同時,這也引申出一個問題:如果設備上,并沒有多樣的軟件和內容生態,那還應該把實體鍵設計成觸摸和虛擬的方式么?比如,一個挖掘機的交互方式,應該使用觸屏么?甚至對話界面?“對話智能解決重復思考”同樣的,對話智能的產品的核心價值,應該在解決問題的能力上,而不是停留在交互這個表面。這個“內容”或者“解決問題的能力”是怎么體現的呢?工業革命給人類帶來的巨大價值在于解決“重復體力勞動”這件事。經濟學家TylerCowen認為,“什么行業的就業人越多,這個工種就會創造更大的商業價值。”他在AverageIsOver這本書里描述到:“20世紀初,美國就業人口多的是農民;二戰后的工業化、第三產業的發展,再加上婦女解放運動,就業人工多的工種變成輔助商業的文字工作者比如秘書助理呼叫中心(文員,信息輸入)。1980/90年代的個人計算機,以及Office的普及,大量秘書,助理類工作消失。”這里提及的工作,都是需要大量重復的工作。而且不停的演變,從重復的體力,逐步到重復的腦力。從這個角度出發,對一個場景背后的“思考能力”沒有把控的AI產品,會很快被代替掉。的,就是典型意義上的智能客服。在市場上,有很多這樣的智能客服的團隊,他們能夠做對話系統(詳見Part2),但是對這各領域的思考,卻不甚了解。我把“智能客服”稱為“前臺**姐”——無意冒犯,但是前臺**姐的主要工作和技能并沒有關系。他們重要的技能就是對話,準確點說是用對話來“路由”——了解用戶什么需求,把不合適的需求過濾掉,再把需求轉給專家去解決。但是對于一個企業而言,客服是只嘴和耳,而專家才是腦,才是內容,才是價值。客服有多不核心?想想大量被外包出去的呼叫中心,就知道了。與這類客服機器人產品對應的,就是專家機器人。一個專家,必定有識別用戶需求的能力,反之不亦然。你可以想象一個企業支付給一個客服多少薪資,又支付給一個專家多少薪資?一個專家需要多少時間培訓和準備才能上崗,客服**姐呢?于此同時,能力是這個機構的核心,而客服不是。正因為如此,很多人認為,人工的呼叫中心,以后會被AI呼叫中心代替掉;而我認為,用AI做呼叫中心的工作,是一個非常短暫的過渡型方案。很快代替人工呼叫中心的,甚至代替AI呼叫中心,是具備交互能力的專家AI中心。在這兒,“專家”的意義大于“呼叫”。在經歷過工具化帶來的產能爬坡和規模效應之后,他們成本差不多,但是卻很多。比如他直接鏈接后端的供給系統的同時,還具備領域的推理能力,也能與用戶直接交互。NLP在對話系統里解決的是交互的問題。在人工智能產品領域里,給與一定時間,掌握技能的團隊一定能對話系統;而掌握對話系統的團隊則很難掌握技能。試想一下在幾年前,移動互聯剛剛出現的時候,會做app的,去幫銀行做app;而幾年之后銀行都會自己開發app,而干不了銀行的事。在這個例子里,做AI產品定義的朋友,你的產品**是要代替(或者輔助)某個領域專家;而不要瞄準那些過渡性崗位,比如客服。從這個角度出發,對話智能類的產品核心的價值,是進一步的代替用戶的重復思考。Workonthemindnotthemouth.哪怕已經是在解決腦袋的問題,也盡量去代替用戶系統2的工作,而不只是系統1的工作。在你的產品中,加入級的推理;幫助用戶進行抽象概念與具象細節之間的轉化;幫助用戶去判斷那些出現在他的模型中,但是他口頭還沒有提及的問題;考慮他當前的環境模型、發起對話時所處的物理時空、過去的經歷;推測他的心態,他的世界模型。先解決思考的問題,再盡可能的轉化成語言。Part5AIPM“缺了什么?”2018年10月底,我在慕尼黑為企業客戶做onsitesupport。期間與客戶的各個BU、市場老板們以及自身的研發團隊交流對話AI的應用。作為的汽車品牌之一,他們也在積極尋求AI在自身產品和服務上的應用。不缺技術人才。盡管作為傳統行業的大象,可能會被外界視為不擅長AI,其實他們自身并不缺少NLP的研發。當我跟他們的NLP團隊交流時,發現基本都有世界名校的PHD。而且,在閉門的供應商大會上,基本所有的科技大廠和咨詢公司都在場了。就算實在搞不了,也大有人排著隊的想幫他們搞。創新的意愿強烈。在我接觸過的大企業當中,特別是傳統世界當中中,這個企業是非常重視創新的。經過移動互聯時代,丟掉的陣地,他們是真心想一點點搶回來,并試圖所在的行業,而不是follow別人的做法。不僅僅是像“傳統的大企業創新”那樣做一些不痛不癢的POC,來完成創新部門的KPI。他們則真的很積極地推進AI的商業化,而且勇于嘗試改變過去和Techprovider之間的關系。這點讓我印象深刻,限于保密條款,在此略過細節。(關于國際巨型企業借新技術的初創團隊之手來做式創新,也是一個很有意思的話題,以后新開一個Topic。)數據更多。那么傳統的優勢就在于,真正擁有業務場景和實際的數據。賣出去的每一臺產品都是他們的終端,而且開始全面聯網和智能化。再加上,各種線下的渠道、海量的客服,其實他們有能力和空間來搜集更完整的用戶生命周期數據。當然,作為硬幣的另一面,百年品牌也自然會有嚴重的歷史牽絆。機構內部的合規、采購流程、數據的管控、BU之間的數據和行政壁壘也是跑不掉的。這些環節的Tradeoff確實大大的影響了對上述優勢的利用。但是缺少的還是產品定義能力。如果對話智能的產品定義失敗,后面的執行就算是的,出來的效果也是智障。有些銀行的AI機器人就是例子:立項用半年,競標用半年,開發用一年,然后上線跑一個月就因為太蠢下線了。但這其實并不是傳統行業的特點,而是目前所有玩家的問題——互聯網或科技公司的對話AI產品也逃不掉。可能互聯網企業還自我感覺良好,在這產品設計部分,人才不缺了——畢竟“人人都是產品經理”嘛。但在目前,咱們看到的互聯網公司出來的產品也都是差不多的效果,具體情況咱們在Part2里已經介紹足夠多了。我們來看看難點在哪里。AI產品該怎么做定義呢?也就是,需要怎樣的產品才能實現商業需求。技術部門往往主要關注技術實現,而不背商業結果KPI;而業務部門的同事對AI的理解又很有限,也就容易提出不合適的需求。關鍵是,在做產品定義時,你想要描述“我想要一個這樣的AI,它可以說…”的時候你會發現,因為是對話界面,你根本無法窮盡這個產品的可能性。其中一個具體細節就是,產品文檔該怎么寫,這就足夠挑戰了。“對話AI產品的管理方法”先給結論:如果還想沿用管理GUI產品的方來管理對話智能產品,這是不可能的。從行業角度來看,沒有大量成功案例,就不會有流水線;沒有流水線,就沒有基于流水線的項目管理。也就是說,從1886年開始輛現代汽車出現,到1913年才出現條流水線——中間有27年的跨度。再到后來豐田提出TheToyotaWay,以精益管理(LeanManagement)來快速迭代(類似敏捷開發)以盡量避免浪費,即Kaizen(改善),這已經是2001年的事情了。這兩天和其他也在給大企業做對話的同行交流的時候,聽到很多不太成功的產品案例,歸結起來幾乎都是因為“產品Scope定義不明”,導致項目開展到后面根本收不了尾。而且因為功能之間的耦合緊密,連線都上不了(遇到上下文對話依賴的任務時,中間環節一但有缺失,根本走不通流程)。這些都是行業早期不成熟的標志。“對話AI產品的DesignPrinciple尚未出現”對話智能領域相對視覺類的產品,有幾個特性上的差異:1)是產品化遠不如視覺類AI成熟;2)深度學習在整個系統里扮演的角色雖然重要,但是還是很少,遠不夠撐起來有價值的對話系統;3)產品都是黑箱,目前在行業中尚無比較共同認可的設計標準。APP發展到后面,隨著用戶的使用習慣的形成,和業界內成功案例的“互相交流”,逐步形成了一些設計上的共識,比如下面這一排,右邊紅圈里的“我”:但是,從2007年iPhone發布,到這些移動產品的設計規范逐步形成,也花了近6、7年時間,且不提這是圖形化界面。到如今,這類移動設備上的產品設計標準已經成熟到,如果在設計師不遵循一些設計思路,反而會引起用戶的不習慣。只是對話系統的設計規范,現在談還為時尚早。到這里,結合上述兩個點(對話AI產品的管理方法、設計規范都不成熟),也就可以解釋為什么智能音箱都不智能。因為智能音箱的背后都是一套“技能打造框架”,給,希望能用這套框架來制作各種“技能”。而“對話技能類平臺”在目前根本走不通。任何場景一旦涉及到明文識別以外的,需要對特定的任務和功能進行建模,然后再融合進多輪對話管理里的場景,以現在的產品成熟程度,都無法抽象成有效的設計規范。現在能抽象出來的,都是非常簡單的上下文管理(還記得Part2里的“填表”么?)。我就舉一個例子,絕大部分的技能平臺,根本就沒有“用戶生命周期管理”的概念。這和服務流程是兩碼事,也是很多機器人智障的諸多原因之一。因為涉及到太細節和的部分,咱們暫且不展開。也有例外的情況:技能全部是語音控制型,比如“關燈開燈”“開空調25度”。這類主要依賴明文識別的技能,也確實能用框架實現比較好的效果。但這樣的問題在于,開放給沒有意義:這類技能既不需要多樣的產品化;從這類開發中也根本賺不到錢——幾乎沒有商業價值。另一個例外是大廠做MLaaS類平臺,這還是很有價值的。能解決對深度學習的需求,比如意圖識別、分詞、實體提取等底層的需求。但整個識別部分,就如我在Part3&4里提到的,只應占到任務對話系統的10%,也而已。剩下的90%的工作,也是真正決定產品價值的工作,都得自己搞。他們會經歷些什么?我隨便舉幾個簡單的例子(行業外的朋友可以忽略):如果你需要訓練一個意圖,要生成1000句話來做素材,那么“找100個人,每人寫10句”的訓練效果要遠好于“找10個人,每人寫100句”;是用場景來分意圖、用語義來分意圖和用謂語來拆分意圖,怎么選?這不僅影響機器人是否能高效支持“任務”之間的跳轉,還影響訓練效率、開發成本;有時候意圖的訓練出錯,是訓練者把自己腦補的內容放進去了;話術的重要性,不僅影響用戶看著舒不舒服,更決定了他的回復的可能性——以及回復的回復的可能性——畢竟他說的每一句后面的話,都需要被識別后,再回復;如果你要給一個電影院做產品,**用圖形化界面,而不要用語言來選座位:“現在空著的座位有,排的1,2,3,4….”這些方面的經驗和技巧數都數不完,而且還是淺顯、皮毛的部分。你可以想象,對話智能的設計規范還有多少路要走——記得,每個產品還是黑箱,就算出了好效果,也看不到里面是怎么設計的。“一個合適的AIPM”當真正的人工智能實現之后,所有產品經理所需要做的思考,都會被AI代替。所以,真正的人工智能也許是人類后的一個發明。在那一天之前,對話智能產品經理的工作,是使用各種力量來創造智能給人的感覺。AIPM一定要在心中非常明確“AI的歸AI,產品的歸產品”。做工具的和用工具的,出發點是不同。應該是帶著做產品的目的,來使用AI;千萬不要出現“AIPM是來實現AI的”這樣的幻覺。我們都熟悉,PM需要站在“人文和技術的十字路口”來設計產品。那么對話智能的AIPM可能在這方面可能人格分裂的情況更,以至于甚至需要2個人來做配合成緊密的產品小組——我認為一個優秀的對話智能產品經理,需要在這三個表現優秀:1.懂商業:就是理解價值對話產品的價值一定不在對話上,而是通過對話這種交互方式(CUI)來完成背后的任務或者解決具體問題。一個本來就很強的APP,就不要想著去用對話重新做一遍。反而是一些APP/WEB還沒有能很好解決的問題,可以多花點時間研究看看。這方面在Part4里的對話智能的核心價值部分,當中有詳細闡述,在這里就不重復了。2.懂技術:理解手中的工具(深度學習GOFAI)一個大廚,應該熟悉食材的特性;一個音樂家,應該熟悉樂器的特征;一個雕塑家,應該熟悉手中的鑿子。大家工具都差不多,成果如何,取決于藝術家。現在,AIPM手中有深度學習,那么就應該了解它擅長什么和不擅長什么。以避免提出太過于荒謬的需求,導致開發的同學向你發起攻擊。了解深度學習的特性,會直接幫助我們判斷哪些產品方向更容易出效果。比如,做一個推薦餐廳的AI,就比做一個下圍棋的AI難太多了。下圍棋的產品成功,并不需要人類理解這個過程,接受這個結果就行。而推薦一個餐廳給用戶,則必須要去模擬人的思維后,再投其所好。人們在想要推薦餐廳的時候,通過對話,了解他的需求(不能問太多,特別是顯而易見的問題,比如他在5點的時候,你問他要定幾點的餐廳)對于圍棋而言,每次(單次)輸入的可能性只有不超過棋盤上19x19=361種可能性;一局棋的過程盡管千變萬化,我們可以交給深度學習的黑箱;后決定所需要的信息,全部呈現在棋盤上的落子上,盡管量大,但與落子以外的信息毫無關系,全在黑箱里,只是這個黑箱很大。后,輸出的結果的可能性只有兩種:輸或者贏。對于推薦餐廳。每次輸入的信息,實際并不包含決策所需要的全部信息(無法用語言表達所有相關的影響因素,參考Part3里世界模型部分);而且輸出的結果是開放的,因為推薦的餐廳,既不可被量化,更不存在的對錯。了解CUI的特性后,不該用對話的就不要強上對話交互;有些使用對話成本非常高,又很不Robustic的環節,同時用戶價值和使用頻次又很低的,就要考慮規避——咱們是做產品的,不是實現真正的AI的,要分清楚。3.懂人:心理和語言這可能是當前對話類產品重要的地方,也是拉開和其他產品設計的核心部分。也可能是中年人做產品的第二春。對心理的理解,指的是當用戶在說話的時候,對他腦中的模型的理解。英文中“Readtheroom”就是指講話之前,先觀察一下了解周圍聽眾的情況,揣摩一下他們的心理,再恰當的說話。比如,講話的時候,是否聽眾開始反復的看表?這會讓直接影響對話的進程。你有遇到過和某人對話起來感覺很舒服的么?這個人,不僅僅是語言組織能力強,更重要的則是他對你腦中的對話進程的把握,以及場景模型,甚至對你的世界模型有把握。他還知道怎么措辭,會更容易讓你接受,甚至引導(Manipulate)你對一些話題的放棄,或者是加強。對話系統的設計也是一樣的。哪些要點在上文中說過?哪些類型的指代可以去模擬?如果是文字界面,用戶會不會拉回去看之前的內容?如果是語音界面,用戶腦中還記不記得住?如果記得住,還強調,會感覺重復;如果記不住,又不重復,會感覺困惑。對語言的理解,則是指對口語特性的理解。我知道FrederickJelinek說的“每當我開除一個語言學家,Speech識別的準確率就會增高”。只是,現在根本沒有真正意義上的自然語言生成(NLG),因為沒有真正的思維生成。所以,任務類的對話的內容,系統不會自然產生,也無法用深度學習生成。對于AIPM而言,要考慮的還是有很多語言上的具體問題。一個回復里,內容會不會太長?要點該有幾個?謂語是否明確,用戶是否清晰被告知要做什么?條件又是什么?這樣的回復,能引發多少種可能的問詢?內容措辭是否容易引起誤解(比如因為聽眾的背景不同,可能會有不同的解讀)?從這個角度而言,一個好的對話系統,必定出自一個很能溝通的人或者團隊之手。能為他人考慮,心思細膩,使用語言的能力高效,深諳人們的心理變化。對業務熟悉,能洞察到用戶的Context的變化,而其格調又幫助用戶控制對話的節奏,以終解決具體問題。Part6可見的未來是現狀的延續“過渡技術”在幾周前,我與行業里另一家做對話的CEO討論行業的將來。當我聊到“深度學習做對話還遠達不到效果”的態度時,他問我:“如果是悲觀的,那么怎么給團隊希望繼續往前進呢?”其實我并不是悲觀的,可能只是更客觀一點。既然深度學習在本質上搞不定對話,那么現在做對話AI的實現方式,是不是個過渡技術?這是一個好問題。我認為,用現在的技術用來制作AI的產品,還會持續很長時間,直到真正智能的到來。如果是個即將被替代或者的技術,那就不應該加碼投入。如果可以預見未來,沒人想在數碼相機崛起的前期,加入柯達;或者在LED電視普及之前,重金投入在背投電視的研發上。而且難以預測的不僅僅是技術,還有市場的發展趨勢。比如在中國,作為無現金支付方式,還沒來得及覆蓋足夠多的支付場景,就被移動支付斷了后路。而現在的對話智能所使用的技術,還遠沒到這個階段。ClaytonM.Christensen在《創新者的窘境》里描述了每個技術的三個階段:個階段,緩步爬坡;第二個階段開始迅猛發展,但是到接近發展的高地(進步減速)的時候,另一個式技術可能已經悄悄萌芽,并重復著個技術的發展歷程;第三個階段,則進入發展瓶頸,并終被新技術下圖黑色部分,為書中原圖:而當前對話AI的技術,還在階段(藍色旗幟位置)稱不上是高速發展,還處于探索的早期。黑箱的情況,會使得這個周期(階段)可能比移動時代更長。以當前的技術發展方向,結合學術界與工業界的進展來看,第二個技術還沒有出現的影子。但是同樣因為深度學習在對話系統中,只扮演的一小部分角色,所以大部分的空間,也是留給大家探索和成長的空間。換句話來講,還有很多發展的潛力。前提是,我們在討論對話類的產品,而不是實現AI本身。只是,這個階段的對話AI,還不會達到人們在電影里看到的那樣,能自如的用人類語言溝通。2)服務提供者崛起的機會因為上述的技術發展特點,在短期的將來,數據和設計是對話智能類產品的壁壘,技術不是。只是這里說的數據,不是指的用來訓練的數據。而是供給端能完成服務的數據;能夠照顧用戶整個生命周期的數據;是當對話發生的時候,用戶的明文以外的數據這些數據;影響用戶腦中的環境模型、影響對任務執行相關的常識推理數據,等等。而隨著IOT的發展,服務提供者,作為與用戶在線下直接打交道的一方,是有可能掌握這些數據。他們能在各個Touchpoint去部署這些IOT設備,來搜集環境數據。并且,由他們決定要不要提供這些數據給平臺方。但是,往往這些行業里的玩家都是歷史悠久、行動緩慢。其組織機構龐大,而且是組織結構并不是為了創新而設計,而是圍繞著如何能讓龐大的軀干不用思考,高速執行。而這也正是互聯網企業和創業企業的機會。3)超級終端與入口之爭對話智能類的產品必須搭載在硬件終端上。很多相關的硬件嘗試,都是在賭哪個設備能夠成為繼手機之后的下一個超級終端。就好像智能手機作為計算設備,代替了PC的地位一樣。畢竟,在移動時代,搶到了超級終端,就搶到了用戶獲取服務的入口。在入口的基礎之上,才是各個應用。如果對話智能發展到足夠好的體驗,并能覆蓋更多的服務領域時,哪一個終端更有可能成為下一個超級終端呢?智能音箱、帶屏幕的音箱、車載設備甚至車機、穿戴設備等等都可以搭載對話智能。在5G的時代,更多的計算交給云端,在本地設備上留下能耗較低的OS和基礎設施,I/O交給麥克風和音頻播放就完成了。credit:Pixabay因此任意一個聯網設備,都可能具備交互和傳遞服務的能力,進一步削弱超級終端的存在。也就是說,作為個人用戶,在任意一個聯網設備上,只要具備語音交互和聯網能力,都可能獲得服務。特別是一些場景依賴的商業服務,如酒店、醫院、辦公室等等。隨著這些入口的出現,在移動時代的以流量為中心的商業模式,可能將不再成立。而新的模式可能誕生,想象一下,每一個企業,每一個品牌都會有自己的AI。一個或是多個,根據不同的業務而產生;對內部員工服務或者協助其工作,同時也接待外部的客服,管理整個生命周期從注冊成這家企業的用戶開始,到后(不幸地)中斷服務為止。只是這個發展順序是,先有服務,再有對話系統——就好像人,是有腦袋里的想法,再用對話來表達。結語在本文中,所有與技術和產品相關的討論,都是在強調一個觀點:一個產品是由很多技術組合而成。我不希望傳達錯誤的想法,類似“深度學習不重要”之類的;相反,我是希望每一類技術都得到正確的認識,畢竟我們離真正的人工智能還有距離,能用上的都有價值。作為AI從業者,心中也會留有非理性的希望,能早日見證到人造的智能的到來。畢竟,如果真正的智能出現了,可能產品經理(以及其他很多崗位)就解放了(或者被摧毀了)。這或許就是人類的后一個發明。本文開始于慕尼黑,終成稿于北京,斷斷續續耗時接近3個月。期間與很多大企業,行業內的創業者,還有一些資本的同學溝通交流。在此表示感謝,就不一一點名啦。
黃石分類垃圾桶,分類垃圾桶