訊息公告

曾新穆教授專訪-專注在你著迷的議題,不斷地往下探索

**照片引自成大產學合作季刊,http://goo.gl/j0dAKe。

曾新穆博士,1997年於資訊科學所博士畢業,後赴美國加州大學柏克萊分校任博士後研究員,1999-2014年於成功大學資訊工程學系服務,2015年起於交通大學資訊工程學系任教。 

經歷:
*2008-2011年任成功大學資訊工程系暨醫學資訊研究所特聘教授
*2004-2007成功大學醫學資訊所所長
*2011-2012中華民國人工智慧學會理事長
*2013-2015 IEEE CIS Tainan Chapter Chair 

獲獎:
2014年獲李國鼎穿石獎
2013年獲中國電機工程學會傑出電機工程教授獎
2013指導學生參加東森第一屆BIG DATA競賽第二名
2012帶領學生參加Nokia Mobile Data Challenge第二名 

投身研究工作的機緣

我從小對資訊就很有興趣也喜歡接觸實務問題,大學進入資工系後,原本也以朝業界發展為目標。但我很幸運的在碩班期間找到一個很不錯的題目,做的人也不多,過程中嘗試著把論文投到國際期刊也獲得接受,慢慢的在學術研究上累積出了興趣與成就感。 

碩班畢業後,入伍服役被分發到國防管理學院,剛好國防管理學院要研發一個分散式資料庫系統,就找我加入一個國科會計畫做研究,所以我入伍服役幾乎是研究生涯的延伸,一邊做一邊發表論文,覺得很有樂趣。其實我原有出國唸書的規劃,但退伍前我曾自告奮勇幫父親的工廠建置一個資訊部門,原想先保留國外的學校等建置完成再出國完成學業,沒想到資訊部門的規劃不但投資龐大,也比預想中的複雜,短時間很難完成。當時我的碩班指導楊維邦教授就建議我留在國內攻讀博士,很自然地我就留在交大完成了博士學位。博士畢業後,我想出國去增廣見聞,就選擇在UC Berkeley作了一年半的博士後研究員。 

在Berkeley這一年是我從事研究的最大轉折點。1998-1999年正好是網際網路開始發展,美國景氣正熱,工作機會也很多。幾次也曾考慮到業界發展,但我和美國的朋友交流中發現,業界跟學界可以有很密切的合作,那時我待的實驗室主要做模糊邏輯(Fuzzy logic)研究,並且與美國電信業、福特汽車一同進行整合、分析資料庫技術的研究,我才發現原來學校做的研究可以很有用,加上研究的自由度跟樂趣,讓我毫不猶豫地投入研究工作。 

拉近產學之間的差距

UC Berkeley那一年讓我有很大的體悟,原來最核心的概念是從學校開發出來,一方面是美國的企業界也很願意投資學校,讓你去嘗試一些比較天馬行空的想法,最後不一定要產出一些具體商品,但你產出的想法可能可以讓企業來延伸它的商品。 

但是99年我回台灣任教時卻發現國內外情形有很大的落差。我原本希望在做出一個有趣的研究去發表的同時還能推展到企業界應用。應用需要資金浥注,但當時產業界對Data Mining不熟悉,不太願意投資經費在軟體研發上,對於可產出的成效也有些質疑。不過近幾年很多產業開始注意到Big Data的價值,像是在生醫應用、行動通訊以及半導體製造流程上有很大的效益,越來越多企業願意在這領域上投資研究與合作。

一直以來,我希望能持續與企業合作,除了能提供更多的資料(Data)來作分析,更重要的是,能具體了解產業界真正想解決的問題在哪,而不是由我們去定義一個想像的問題,一個依據實務問題所提出的演算法不但能解決理論的驗證問題,也能協助產業界提升產值,讓產學之間更為緊密。 

問:您的個人研究興趣上列出「資料探勘(Data Mining)、巨量資料(Big Data)、生醫資訊(Biomedical Informatics)、行動與社群網路差異(Mobile and Social Networks)」,可以請老師談談這四個議題之間的關連跟差異嗎?

我列的這幾個議題之間有其關聯性及演化過程。將一片雜亂的資料海中條理化為資料庫的過程,就有所謂的資料探勘,而後慢慢演化成今日的Big Data。那麼資料庫的概念是什麼?資料庫就是把一些資料(Data)用結構化的方式來儲存,舉例來說,超市一筆筆的購物記錄,結構化的記載對象、購物時間、項目,這些就是資料庫裡的消費記錄資料(Data)。資料庫的結構性特點,讓使用者便於查詢,想知道顧客在哪一天買了什麼,或者要統計上個月銷售最佳的商品,透過資料庫可以很快速的算出來。這項技術從二十年有Oracle、Microsoft、IBM等公司開始發展至今,那段時間可說是Data Base的黃金時期。

再來談Data Mining是什麼。台灣一年的購物資料筆數就相當可觀,隨著資料越來越龐大,大家開始思索日漸龐大的資料庫裡還可以挖掘出什麼東西?Data Mining最早也最有名的應用,就是著名的Wal-Mart「啤酒與尿布」案例。科技報橘.2013.4.19也介紹過這個案例:發現到了週五晚上,啤酒和尿布的銷售量高度正相關。經過追蹤發現,週五晚間,許多年輕父親下班後到Wal-Mart 買尿布時,會順手帶回幾手啤酒,為週末開打的球賽轉播做準備。因此,Wal-Mart 刻意將啤酒和尿布擺在一起,銷售量馬上提升三成。所以,透過細微的分析每一筆顧客交易,記錄下消費需求,做出商品互補性配對,為顧客找出替代性產品。這是Big Data中的經典案例。 

這個概念逐漸被擴大應用,像是生物醫學研究的應用,比如說,透過數據分析來檢視哪些病症會同時出現,除了依靠醫師的臨床經驗外,藉由Big Data協助,也許有些被忽視的症狀,或者病症之間未發現的關聯性能有機會提早發現;另外也能應用在半導體製程的改善等等,這些例子的共同特點就是資料量規模巨大到無法透過人工處理,你用一般的統計無法分析,這就需要Data Mining的技術了。 

巨量資料(Big Data)有三個V的特性,就是巨量、變數及不斷增長,口語化說法就是:資料量大且長得又快又複雜。以電子商務(E-commerce)的阿里巴巴來說,它的客群來自全世界,購物記錄、商品種類、客層資料等資料量相當龐雜,再者它可以連結到社群、FB等等,資料來源及性質複雜、多樣。相較於Data Base 跟Data Mining處理比較結構化的資料,巨量資料(Big Data)則能分析與涵蓋非結構化資料。舉例來說,電商公司想了解他們新商品的口碑,但社群網站的評價多數是文字,甚至很口語,所以如何把這些結構化、非結構化以及快速增加的資訊化為可分析的資料,從這點可看出巨量資料(Big Data)要處理的東西跟挑戰更為不同。巨量資料(Big Data)近期有個很成功的應用,當電影《復仇者聯盟》預告片播出時,社群網站開始出現對角色、劇情及畫面評價的訊息,這些文字被擷取後進行分類、交叉分析及統計,電影公司再依據回報的各項統計結果調整預告片,讓預告片壓倒性的獲得正面評價,這廣告效益很快就反應在票房,《復仇者聯盟》上映首週突破兩億,才上映12天就回本!當年度總票房就入列世界電影史票房排行榜第三名,僅次於《阿凡達》跟《鐵達尼號》。 

我的研究定位就是Big Data跟Data Mining,把實際應用及研究興趣放在生醫資訊、行動社群。我比較喜與人有連結的應用,像是去分析一些疾病的成因,及早期預警等等。我們做了很多的行動社群串連以及結合穿戴式裝置的智慧型照護,還有透過手機作AI智慧的助理等等,這些可以幫助人們完成生活中很多事情。我認為這是巨量資料很重要的概念,就是透過廣泛的應用在三個V之外去成就第四個V,價值(Vaule)。 

問:根據您的經驗與觀察,您覺得在台灣發展巨量資料、資料庫探勘研究,擁有的機會與挑戰是什麼?

我想台灣的機會是去應用我們特有的資料,如健保資料。因為有健保,才能保存一二十年來全台灣兩千多萬人的健康資料庫,而全球有建立這樣制度的國家非常少,這就是我們的機會。我們可以透過分析資料去找出某些疾病的成因,像是它的Bio-marker,甚至可以分析它整個疾病演化的程序,最終可以用來製藥。台灣可以將這研究成果擴及整個亞洲人或全球華人。前幾年成大醫學院某位教授,研發出某種治療骨質疏鬆的新藥,雖然藥品還沒開發出來,但已經做了第一期機制分析,第一期發現是有效的,丹麥大藥廠就以四億要來技轉,創下台灣第二大的技轉金。 

我們的研究團隊曾與醫院合作開發氣喘發作的預先偵測系統,氣喘病容易受到氣溫變化、空氣品質等因素誘發,我們做的系統透過收集病人每日的呼吸流量,及氣象資料收集並結合穿戴式裝置,三天前就能預先發出氣喘發作警示,準確度高達90%。

除了資料,Big Data更需要先進的核心分析技術。這是一個全球關注的領域,目前技術發展得很快,核心研究涵蓋機器學習、統計學的結合,台灣學界在這領域已有一些尖端人才,如果產學串連得好、政府也願意在政策上大力推動,一定更有機會發展出一些獨步全球的分析技術,讓國內人才得到更好的發揮。 

台灣的製造業很有勁爭力,也許沒有歐美的生產規模,但我們可以做出小而美、知識密集度高,來呈現另一種製造業的樣態。此外像是透過Big Data去分析、改善半導體廠商的製程,可以加快產程提升產業競爭力。此外還有很多產業,可以利用Big Data來提昇台灣在國際上的競爭力和特色,比如說智慧旅遊,幫你做智慧推薦,旅遊規劃等等,這些都能幫忙帶動商機。 

問:您如何克服研究歷程中的挫折與困境?研究信念是什麼?

我在穿石獎的領獎演說時也談過這問題,我把研究生涯歸納成4個F;就是專注(Focus)、愚公移山的精神(Fool-like Sprit)、真實應用之實現(Fulfillment in real applications)及不斷探索新可能的樂趣(Fun)。 

演講結束後,有許多研究工作的朋友問我,16、17年前怎看出這個領域有發展潛力?我在踏進資料庫領域時,並沒有預想會發展成Big Data,只是在Data  Base發展到Data Mining的過程中,有感於資料一直在增加,發現很多議題值得研究,更重要的關鍵是我在研究過程裡越作越有興趣。因為有興趣,會讓你著迷於追求那個議題,不斷地一直往下探索,慢慢做了很多技術、很多應用,就像滾雪球一樣,逐步累積。

因為投入,自然就有一定的成績。我剛畢業時大概有幾十篇的論文量,剛開始會訂個目標,在多久的時間內達到幾篇論文的量,但孜孜矻矻的幾十年累積下來,突然發現已經發表了三百多篇了。我一直在這個領域沒有更換過,雖然有時遇到困難,覺得好像沒辦法前進,想想辦法再鑽,突然又有另一個問題浮上來,再回過頭來做又覺得還好,如同滴水穿石的道理一樣。我常覺得有些道理字面上聽得輕易,但很多事總要自己體驗,如人飲水,冷暖自知。

第二個是愚公移山的精神。近幾年我們在這個領域創出一個新的方向,它的複雜度很高,但應用很廣。在購物上的應用,過去多半只分析消費者會一起買什麼樣的商品,現在我們可以進一步分析出,在顧客會買的物品中,跟他推薦什麼可以獲得最大利潤。這個廠商就很有興趣,但相對複雜度高,也不好做。但我們團隊的學生很認真去研究,付出很多時間,後來作出突破。最早提出的作法很創新但要算很久,後來有人再提出更好一點的作法,近期我們再提出改善的方法,目前已經是經典之作,比起先前的方法快了上千倍,最好的案例還可以快了一萬倍。研究的本身就是一件刻苦的事,我常勸勉學生應當抱持著愚公移山的精神,有著堅持的信念,一頭鑽入。我們後來也發表了一系列的論文,光這三年就被cite一千多次,成果豐碩。

第三個就是實現。我覺得資工價值就是能實現理論,找到真實對應,這點對學生的生涯發展及目前大環境而言更為重要。理論當然有其重要性與價值,但只是坐在位子上空想也很難有發現,唯有跟產業界交流,進入生活中去接觸,去了解真實的需求。 

最後一個就是FUN,要享受這個過程。有時候我跟學生Meeting一整天,對每個討論的問題都很感興趣,尤其解決之後,發現可能對應到生活中進行各種應用更是感到充滿樂趣,例如我們和醫生合作,做了很多驗證跟找到實際的效益。但有的學生沒辦法享受其中,一個可能是念錯系了¾¾這狀況比較少見,或者沒有找到他感興趣的主題。我常覺得要讓學生花點時間去摸索,不要一開始就鎖死了。比如說他對生醫有興趣,就給他一些方向,讓他去收集,他自然就會很努力去做。 

我很高興能回來母系任教,學校環境感到熟悉親切,上大學部課程時,當學生知道我也是學長時,距離彷彿拉近了,對話似乎更容易。交大資工的同學都很優秀,但每個同學的特質不同,以我實驗室的狀況來看,就是多鼓勵學生勇於接受挑戰,投入其中,自然而然就有一番成果。