《連線》雜志:未來15年內,90%的新聞稿將由機器撰寫
編者注:《連線》雜志日前發(fā)布一篇有意思的報道,在芝加哥論壇報社不遠的地方,有家名為Narrative Science公司開始為客戶提供計算機算法撰寫新聞稿的服務,該公司預言,在未來的15年內,90%的新聞稿將由計算機算法寫成,計算機生產的新聞質量也會越來越好,甚至5年內可能獲得普利策新聞獎,那么問題是:計算機算法寫的新聞會比人類寫的還要好嗎?
在芝加哥論壇報報社不遠的地方,平均每30秒就有一篇新聞故事被生產出來——但其署名問題卻堪稱是個哲學問題,因為這新聞稿是利用計算機算法生產出來的。這家名叫 Narrative Science 的公司首席技術官、聯(lián)合創(chuàng)始人 Kristian Hammond 近日在接受《連線》雜志采訪時預測說:在15年內,有90%的文章將會由算法寫就。一些小眾新聞服務已經開始雇傭 Narrative Science 公司為其訂戶、體育迷或小額投資者提供新聞更新。但計算機算法寫的新聞會比人類寫的還要好嗎?
但文章認為,這或許也不會是一場零和博弈,因為未來“新聞故事”的外延也會擴展。例如,祖父母們會很關心孫子的少年棒球聯(lián)盟里的新聞,但有誰會報道他們呢?現(xiàn)在已經出現(xiàn)了 一個叫 GameChanger 的 iPhone app,根據(jù)數(shù)據(jù)即可為有這種需求的人提供這類新聞。去年,這個軟件為少年棒球聯(lián)盟比賽只做了近40萬篇報導,預計今年這個數(shù)字會上升到150萬。Narrative Science 公司認為,計算機生產的新聞質量也會越來越好,Hammond 甚至認為,5年內可能會有計算機算法獲得普利策新聞獎!
《大西洋》月刊的轉載報道:
Predicted: In 15 Years, 90% of News Stories Will Be Written by Algorithms
預言:在15年內,90%的新聞將被計算機算法撰寫
以下為《連線》雜志全文
未來新聞90%以上將為電腦化新聞
Narrative Science(以下簡稱“Narrative”)是一家專門訓練計算機編寫新聞報道的公司。假如Narrative技術已經能夠編寫出我今天撰寫的這篇文章,那我們很可能既不必提及該公司的芝加哥總部其實就在《芝加哥論壇報》(Chicago Tribune)報業(yè)大樓附近,也不必揭示出這種可能讓記者丟掉飯碗的潛在技術,其實是部分誕生于美國西北大學梅迪爾新聞學院(Medill School)的媒體、整合營銷通信項目。顯而易見,這種諷刺意味其實是針對人類,而非計算機本身。
但至少目前尚未如此。
Narrative員工量為30名左右,該公司在芝加哥環(huán)路邊上有一個很大的房間。我們不妨試想一下這種場景:每隔30秒鐘左右,Narrative算法的如椽大筆就能撰寫出一則新聞報道,這無疑將引發(fā)我們進行哲學高度的思考。這種計算機撰寫的新聞可以是美國大學籃球聯(lián)賽的Big Ten最新進展情況,也可能涉及某家企業(yè)營收的聲明,更可能是把多個Twitter信息匯總成有關賽馬的新聞。此類文章已在諸如《福布斯》以及其他知名媒體(其中不少媒體不愿透露其身份)的網站上發(fā)表。Niche新聞服務已聘請Narrative為其注冊用戶撰寫后續(xù)報道,使Narrative成為著他們的體育“粉絲”、小型投資者或快餐店老板。
事實上,通過Narrative算法所撰寫的文章,讀起來并不是那么晦澀和生硬。當然,這種文章無法與美國體育評論作家羅杰·安吉爾(Roger Angell)的文風相提并論。但這種敘述平實的文章,卻能很快將賽事結果等信息傳達給體育愛好者。Narrative利用iPhone用戶在GameChanger應用程序中輸入的賽事得分結果等數(shù)據(jù),進而撰寫出一篇篇文章。去年期間,這種軟件所生成的美國兒童棒球賽事帳號達40萬個,預計今年該數(shù)字將增至150萬個。
Narrative聯(lián)合創(chuàng)始人兼首席技術官(CTO)克里斯蒂安·哈蒙德(Kristian Hammond)管理著一群編程人員和技術工程師。在哈蒙德看來,這些文章只是計算機寫作的開始,最終計算機寫作的文章將在新聞產業(yè)中占據(jù)著主導優(yōu)勢地位。這種優(yōu)勢地位將究竟有多高?去年我曾要求哈蒙德回答這個問題,他最初有點“王顧左右而言他”。但在我的連續(xù)追問下,哈蒙德說出了這樣一個數(shù)字:“90%以上?!?/p>
這也是我為何決定寫這篇文章的原因所在,并希望自己趕快完成,以免被一部MacBook Air筆記本電腦搶在我前頭發(fā)布了同類文章。
哈蒙德卻安慰我道,大不必為此而擔心。哈蒙德堅稱,這種計算機撰寫的新聞稿,并不會讓新聞記者等人員丟掉飯碗,他們今后仍將能夠每月按時領取薪酬。隨著新聞產業(yè)規(guī)模的空前增長和擴大,計算機將通過相關數(shù)據(jù)而撰寫出成本低廉的新聞稿,此類文章將涵蓋大量活動、產業(yè)趨勢和產品開發(fā),而這些領域目前尚未被傳統(tǒng)記者所關注。
然而這并不是說計算機所撰寫文章,將永遠處于邊緣化的位置,也不會永遠被限定在一些小打小鬧或生成一些簡單的企業(yè)營收評論上面。哈蒙德最近曾被問及這樣一個問題:今后20年內,計算機所撰寫文章能否獲得普利策新聞獎(Pulitzer Prize)?哈蒙德回答道,應該用不了20年,5年之內就可能實現(xiàn)該目標。
Narrative公司與其創(chuàng)始人
哈蒙德生于美國猶他州,其父為一名考古學家,并在當?shù)匾凰萘⒋髮W任教。成年后,哈蒙德原本計劃當一名律師。但在上個世紀1980年代后期,也就是哈蒙德在耶魯大學上學期間,他深受知名人工智能專家、耶魯大學計算機系主任羅杰·尚克(Roger Schank)的影響。在拿到計算機科學博士學位后,哈蒙德受聘于芝加哥大學,并擔任該大學一家新型人工智能實驗室負責人。在該實驗室工作期間(1990年代中期),他開發(fā)了一套可追蹤用戶閱讀、寫作習慣并向用戶推薦相關內容的系統(tǒng)。
在該技術基礎上,哈蒙德創(chuàng)建了一家小型科技公司,后來他將該公司出售。這段時間中,哈蒙德進入美國西北大學工作,并擔任該大學情報信息實驗室主任。2009年期間,哈蒙德和他的同事拉里·伯恩鮑姆(Larry Birnbaum)在梅迪爾新聞學院教授一項課程,該課程同時包括電腦編程和未來新聞學兩項內容。他們兩人鼓勵學生創(chuàng)建出可將數(shù)據(jù)轉移成新聞故事的系統(tǒng)。在該班學生中,有一位是《芝加哥論壇報》的特約記者,其報道范圍為美國高中生體育賽事。這名學生、以及另外兩位新聞系學生同一名計算機系學生被分成一組。該開發(fā)小組的原型軟件“Stats Monkey”,能夠搜集各大學、中學的體育賽事得分和相應數(shù)據(jù)。
在那個學期結束時,這個班級參與了該校舉辦的產品演示會。出席該演示會的新聞業(yè)人員,包括來自ESPN體育電視臺、Hearst報業(yè)集團以及《芝加哥論壇報》的高管。Stats Monkey軟件給與會人員留下了深刻印象。梅迪爾新聞學院院長約翰·拉文(John Lavine)回憶道:“他們將體育賽事得分數(shù)據(jù)輸入到該程序當中之后,大約12秒鐘之后,該程序就寫出了有關美國體育機構歷史的文章,同時還配備了圖片和圖片文字說明。”
美國網絡廣告公司DoubleClick(注:此前已被谷歌收購)前高管斯圖亞特·弗蘭克爾(Stuart Frankel)也是參與當天演示會的嘉賓之一。弗蘭克爾說:“他們當時一演示這款軟件后,房間里的氛圍馬上就變了。盡管如此,該產品也就僅僅是一款能夠撰寫有關棒球新聞報道的軟件而已?!睆腄oubleClick離職后,弗蘭克爾隨即加盟哈蒙德和伯恩鮑姆兩人的行列中。這種軟件能否撰寫任何新聞報道?能否使用任何數(shù)據(jù)?在得到肯定的回答后,弗蘭克爾認定計算機寫作產業(yè)有著巨大增長潛力。2010年期間,哈蒙德、伯恩鮑姆和弗蘭克爾共同創(chuàng)建了Narrative公司,弗蘭克爾出任該公司CEO。
Narrative首名客戶是一家報道美國大學籃球聯(lián)賽Big Ten會議的電視網絡。合同規(guī)定,Narrative算法將需要以相當于實時方式,而撰寫出數(shù)千條有關Big Ten的體育新聞,同時每個季度對該賽事的數(shù)據(jù)和新聞進行更新。Narrative還負責為美國女子壘球賽事撰寫文章,Narrative也因此變成為該賽事撰寫文章最多的“記者”。
在Narrative開始執(zhí)行合同后不久,就出現(xiàn)了一些小問題:這些文章往往側重報道比賽勝出方。如果Big Ten的某只球隊被外圍球隊擊敗后,Narrative軟件撰寫的文章會讓人感到很丟臉。Big Ten賽事舉辦者因此向Narrative提出新要求:即使Big Ten的球隊輸球,Narrative文章仍能加以表揚。在這種情況下,多數(shù)人認為應該引進人工記者加以干預,但Narrative技術開發(fā)人員卻認為無此必要,而只需對軟件代碼進行相應修訂。有過這次教訓后,Narrative在負責為美國兒童棒球賽事進行撰文過程中,也對相應數(shù)據(jù)進行了調整處理。
Narrative的新聞撰寫引擎需要數(shù)個步驟:首先,該引擎需要收集大量高質量的數(shù)據(jù)。這也是金融業(yè)和體育產業(yè)能夠成為Narrative服務對象的直接原因:這兩個產業(yè)都涉及大量波動性很強的數(shù)據(jù):每股收益、股價變化、壘球投手責任得分率(ERA)以及棒球打點(RBI)等。而新數(shù)據(jù)總是源源不斷,因此Narrative總能根據(jù)新數(shù)據(jù)撰寫出新文章或豐富舊內容。
舉例來說,棒球“粉絲”們已創(chuàng)建了在比賽進行過程中預測某個球隊勝算把握的模式。在此過程中,如果某個得分改變了勝算把握的幾率,比如由40%上升至60%,則Narrative算法就會將這個得分作為截止當前比賽進程中的亮點加以描述(比如Narrative必須知道擊跑數(shù)量最多的球隊將勝出)。因此Narrative技術工程師就為每種賽事或活動預先設定一些規(guī)則。那么該如何做才能將這些分析數(shù)據(jù)變成文章?該公司招聘了一個所謂“元作者”的團隊,該團隊由資深記者組成,以負責創(chuàng)建一系列報道題材的模板。該團隊同Narrative技術工程師密切合作,使計算機能夠從不同“角度”來識別相應數(shù)據(jù)。比賽結果是哪個球隊勝出?是艱難勝出還是大敗對方?比賽過程中是否有某位球員表現(xiàn)絕佳?該算法還根據(jù)比賽已知數(shù)據(jù)和其他數(shù)據(jù)庫進行推測:是否某個關鍵一擊起到了定勝負的作用?
然后就是文章結構事宜。絕大部分新聞報道尤其是體育和金融題材,往往都會形成一個可預見的固定模式,因此創(chuàng)建相應文章模板,就成為相對比較簡單的問題。該算法按照元作者提供的詞匯來組成句子(就壘球而言,元作者似乎會在很大程度依賴20世紀早期知名體育評論家林·拉德納(Ring Lardner)的寫作用詞習慣),該公司將這種完成后的產品稱為“敘事作品”(narrative)。
當然這種算法偶爾也會犯些小錯誤。比如說棒球比賽中的代打者(pinch hitter)每場比賽只能代打一次,但Narrative算法所撰寫文章有時會將代打次數(shù)描述成2~6次。只是諸如此類的錯誤很少出現(xiàn)。哈蒙德表示,有時數(shù)據(jù)庫也會提供錯誤信息,而Narrative算法已具有糾錯功能。哈蒙德說:“如果某家公司的季度利潤環(huán)比增長了600%,算法就會指出,很可能某個環(huán)節(jié)出現(xiàn)了錯誤。人們會問這樣的問題:我們的算法是否出過令人難堪的大錯誤,我們的回答是從未有過?!?/p>
《福布斯》媒體首席產品官劉易斯·德沃金(Lewis Dvorkin)表示,在對Narrative所報道的每一個賽事或其他活動進行了解后,他本人對此印象深刻但并不感到驚訝。盡管人工記者所撰寫文章出現(xiàn)重大錯誤并不鮮見,但德沃金并沒有聽說過有關計算機自動新聞報道出錯的任何投訴。德沃金說:“一次也沒有。”
新聞稿件文風可以定制化
Narrative技術團隊還讓客戶對文章基調加以定制化。美國金融分析公司Data Explorers在其安全資訊服務中使用了Narrative技術。Data Explorers首席運營官(COO)喬納森·莫里斯(Jonathan Morris)表示:“你可以獲得任何內容,如文章讀上去像是一位金融記者正股票交易所大聲呼喊,或像一位理智的金融分析師正縱觀整個金融市場?!?/p>
莫里斯要求Narrative為Data Explorers撰寫的文章,將其基調處理成為一名受過良好教育、態(tài)度非常直率的金融新聞記者。其他客戶則要求Narrative將文章處理成更為活潑的博客文風。Narrative產品副總裁拉里·亞當斯(Larry Adams)對此表示:“截止目前,Narrative要撰寫一篇言辭活潑文章的難度,并不會比寫一篇中規(guī)中矩的文章高多少。我們甚至能夠以美國知名新聞評論人、1972年普利策新聞獎得主邁克·羅伊科(Mike Royko)式的文風來報道股票市場?!?/p>
在Narrative掌握如何報道體育和財經新聞的“玄機”后,該公司意識到,其實還可以將Narrative算法應用范圍擴大到除新聞報道的其他領域。事實上,任何人希望翻譯或處理大一堆數(shù)據(jù),都可從Narrative算法中受益良多。Narrative接到了大量數(shù)據(jù)處理的請求,試用結果發(fā)現(xiàn),這些客戶愿意向Narrative付費,進而使自己雜亂無意的數(shù)據(jù),能夠變?yōu)楹啙嵜骺觳⑶兄幸Φ木渥印?/p>
顯而易見,Narrative算法經過改進提高后,肯定能滿足此類數(shù)據(jù)處理要求。Narrative剛剛創(chuàng)建時,該算法每接觸一個新的報道主題,“元作者”們必須費盡心機來對機器進行“培訓”。但不久后元作者們開發(fā)出一款平臺,從而使Narrative算法能夠更快了解新的業(yè)務領域。舉例來說,如果某位元作者希望創(chuàng)建一臺可報道某個城市飯店服務業(yè)的寫作機器,那么利用數(shù)據(jù)庫中的賓館評論文章,該機器就能很快了解飯店業(yè)的常用詞匯(服務良好、美食等等)。元作者們還給機器提供一些該行業(yè)的常見句子。在經過此種“培訓”后,數(shù)小時內Narrative算法就能撰寫出諸如“亞特蘭大市最佳意大利飯館”之類的文章。
Narrative主要競爭對手為Stat Sheet公司,后者總部位于美國北卡羅來納州,主營業(yè)務為自動文章創(chuàng)建,其業(yè)務范圍在經過擴張后,與Narrative有不少重疊之處。由于自感無法與Narrative展開直接競爭,Stat Sheet將其服務目標定為小型報刊雜志。另一方面,Stat Sheet也開始涉足體育新聞報道。在認識到計算機撰寫新聞產業(yè)具有巨大增長潛力后,Stat Sheet將公司名稱更改為“Automated Insights”。該公司創(chuàng)始人羅比·艾倫(Robbie Allen)說:“以前我曾認為,我們的業(yè)務范圍很窄,即僅限于數(shù)據(jù)處理產業(yè)?,F(xiàn)在看來我們應該是商機無限?!?/p>
Narrative算法的業(yè)務范圍也變得越來越多樣化。Narrative曾受聘于一家快餐公司,被要求根據(jù)該快餐公司經銷商所提供食品銷量數(shù)字而撰寫出每月報告,并將這些銷售數(shù)字同本地競爭對手進行比較,然后向該快餐公司提出應該推出哪些新菜品的建議。
此外,這種低成本數(shù)據(jù)輸入后變成文章的操作方式,甚至能夠針對單一讀者撰寫文章。Narrative正考慮撰寫針對《魔獸世界》玩家的個性化費用支出報告,玩家們就能對自己近一段時間內的游戲費用有著更全面了解。Narrative董事會成員、前DoubleClick首席執(zhí)行官戴維·羅森布拉特(David Rosenblatt)表示:“互聯(lián)網所產生數(shù)據(jù)的規(guī)??芍^前所未有,Narrative能夠將這些數(shù)據(jù)轉化成文章。這就是Narrative必須存在的理由。我們以撰寫新聞報道為主,報道管理為輔。”
光榮與夢想
截至目前,新聞報道仍是Narrative的核心業(yè)務。與任何剛出道的新聞記者一樣,Narrative也有著自己的“光榮與夢想”:能夠參與重大新聞事件的首發(fā)和后續(xù)報道。而要實現(xiàn)這一目的,Narrative仍需在機器學習、數(shù)據(jù)處理等事宜上進行大量投資,從而使機器能夠更為準確理解人類語言和文字。事實上,Narrative在這方面已取得一些進展。哈蒙德說:“就金融業(yè)而言,我們算法能夠讀懂文章頭條,能夠識別某家企業(yè)股票的漲跌,了解到某位高管受聘或解聘,明白某家公司正制定并購計劃。同時我們知道這些事件同公司股價波動之間的關系?!惫傻逻€表示,今后在Narrative所撰寫體育新聞報道中,除常規(guī)的數(shù)據(jù)內容外,還將增加球員受傷或面臨法律起訴等信息。
即便Narrative永遠也無法實現(xiàn)獲得普利策新聞獎的目標,其文章可能永遠也不會具備美國作家瓊·狄迪恩(Joan Didion)那種犀利的文風,但無論如何,該公司確實認識到了這樣一個事實:我們的日常生活活動,正越來越多被轉化為海量數(shù)據(jù)。舉例來說,過去數(shù)年中,美國職業(yè)棒球大聯(lián)盟已投資數(shù)百萬美元,以在比賽場地安裝高分辨率攝像頭和高強度傳感器,目的是分析每場比賽中各位球員的表現(xiàn)情況,如球員身體動作和棒球運動軌跡等信息。在不少情況下,體育新聞報道的取材就來自于這些數(shù)據(jù)當中?;蛟S球隊教練并沒有意識到,自己所帶領球隊之所以被擊敗,主要原因就是球員身體過度疲勞所致。而這些結論,通常都需要數(shù)據(jù)作為強有力證據(jù)。
哈蒙德相信,隨著Narrative市場規(guī)模的進一步增長,其業(yè)務范圍也將形成更為高端的“食物鏈”:從社區(qū)新聞到新聞分析,最終再進入長篇深度報道業(yè)務。從某種程度上講,人工記者和計算機算法或許能夠協(xié)手合作,并發(fā)揮出各自優(yōu)勢。計算機的優(yōu)勢在于記憶無差錯,并能夠快速訪問各類數(shù)據(jù)。而人工記者在進行采訪過程中,能夠做到“直奔主題”,在獲得相關材料后,再將撰寫文章的任務交給計算機。隨著計算機處理此類任務次數(shù)的增長并能夠獲得更多數(shù)據(jù),計算機的“敘事”技巧也將越來越高。當然,要達到這一階段我們可能尚需等上一段時間。但最終有一天,或許類似我的這篇文章,根本就不需要我本人動手來寫。哈蒙德說:“人類思考能力非常強大,也異常復雜,而電腦不過是機器而已。今后20年內,將不存在Narrative無法勝任的新聞報道領域?!?/p>
就目前而言,哈蒙德一再強調,Narrative算法并不是為了取代人工記者。哈蒙德透露,自己曾出席一次晚會,在那兒遇到了一名戲劇評論家。該評論家了解了哈蒙德的Narrative業(yè)務模式后,便對哈蒙德橫加指責,稱當前新聞從業(yè)者的日子已經過得很艱難,Narrative怎么忍心讓寫作機器人來搶走新聞記者的飯碗?
哈蒙德回憶道:“我當時盯著他回答說,難道你在美國兒童棒球小聯(lián)盟(Little League)賽場上看見過記者的身影嗎?搞清這一點對我們而言非常重要。尚沒有任何新聞記者因Narrative開展的各項業(yè)務而丟掉飯碗?!?/p>
至少目前尚未如此。
原創(chuàng)文章,作者:劉曉林,如若轉載,請注明出處:http://m.bcouya.cn/blog/archives/1622