Motivation

本實驗室近期研究方向圍繞於深度學習技術在文字資料探勘 (Text Mining) 與自然語言處理 (Natural Language Processing) 方面之研究,目前實驗室成員的研究主題著重於機器閱讀理解 (Machine Reading Comprehension) 以及自然語言生成 (Natural Language Generation) 兩面向。

Our recent publication here

  • Yao-Chung Fan, Sin-Syuan Wu, Yen-Hsiang Wang, Che-Wei Chang, Mastering Retrieval-Augmented Generation: Unlocking Advanced Retrieval Techniques, ROCLING 2024.
  • Han Cheng Yu, Yu An Shih, Kin Man Law, KaiYu Hsieh, Yu Chen Cheng, Hsin Chih Ho, Zih An Lin, WEN-CHUAN HSU, Yao-Chung Fan, Enhancing Distractor Generation for Multiple-Choice Questions with Retrieval Augmented Pretraining and Knowledge Graph Integration, ACL Findings 2024.
  • Hui-Juan Wang, Kai-Yu Hsieh, Han-Cheng Yu, Jui-Ching Tsou, Yu-An Shih, Chen-Hua Huang, Yao-Chung Fan, Distractor Generation based on Text2Text Language Models with Pseudo Kullback-Leibler Divergence Regulation, ACL Findings 2023.
  • Shang-Hsuan Chiang, Ssu-Cheng Wang, Yao-Chung Fan: CDGP: Automatic Cloze Distractor Generation based on Pre-trained Language Model. EMNLP Findings 2022.
  • Hsien-Yung Peng, Ho-Lam Chung, Ying-Hong Chan, Yao-Chung Fan: Misleading Inference Generation via Proximal Policy Optimization. PAKDD (1) 2022: 497-509.
  • Chan, Ying-Hong, Ho-Lam Chung, and Yao-Chung Fan. "Keyword Provision Question Generation for Facilitating Educational Reading Comprehension Preparation." Proceedings of the 15th International Conference on Natural Language Generation (INLG). 2022.
  • Chih-Shuo Tsai, Ying-Hong Chan, Yao-Chung Fan: Hierarchical Cache Transformer: Dynamic Early Exit for Language Translation. International Joint Conference on Neural Networks (IJCNN) 2022: 1-9.
  • Ting-Wei Chang, Yao-Chung Fan, Arbee L. P. Chen: Emotion-cause pair extraction based on machine reading comprehension model. Multim. Tools Appl. 81(28): 40653-40673 (2022).
  • Ho-Lam Chung, Ying-Hong Chan, Yao-Chung Fan: A BERT-based Distractor Generation Scheme with Multi-tasking and Negative Answer Training Strategies. EMNLP Findings 2020: 4390-4400.
  • Hao-Yi Chih, Yao-Chung Fan, Wen-Chih Peng, Hai-Yuan Kuo: Product Quality Prediction with Convolutional Encoder-Decoder Architecture and Transfer Learning. CIKM 2020: 195-204.
  • Cheng-Han Yeh, Yao-Chung Fan, Wen-Chih Peng: Interpretable Multi-task Learning for Product Quality Prediction with Attention Mechanism. ICDE 2019: 1910-1921.
  • Ying-Hong Chan, Yao-Chung Fan: A Recurrent BERT-based Model for Question Generation, EMNLP Workshop 2019: In Proceedings of the 2nd Workshop on Machine Reading for Question Answering. 2019: 154–162.

Research Topics

  • LLM
  • Natural Language Processing
  • Question Answering
  • Text Generation
  • Question Generation
  • Distractor Generation
  • Text Summarization

Former Years

  • Data Mining
  • Big Data Management
  • Social Networks
  • Mobile Data Management and Application Development
  • Ubiquitous Computing
  • Relation Extraction

現任成員

Figure of Yao-Chung Fan

Yao-Chung Fan

Figure of 郭士煒

郭士煒

Figure of 簡翊軒

簡翊軒

Figure of 施語涵

施語涵

Figure of 梁星平

梁星平

Figure of 張恩德

張恩德

Figure of 吳欣璇

吳欣璇

Figure of 張哲瑋

張哲瑋

Figure of 李彥吾

李彥吾

Figure of 游宸睿

游宸睿

Figure of 呂紹誠

呂紹誠

Figure of 周宗翔

周宗翔

Figure of 許水翔

許水翔

Figure of 陳可威

陳可威

Demo

Try our applications

Publications

What we have done

Recent years

相似判決書檢索系統

我們的目標是打造一個準確又有效率的相似判決書檢索平台,適合法律專業人士及一般民眾使用,讓使用者能以簡單的步驟,找到想要的判決書情節。系統中採用了 BGE-M3 進行判決書文本的向量化,以精確地捕捉文本相似性。另外我們引入了國科會的大型語言模型 Taide作為查詢系統的輔助,幫助使用者在輸入犯罪情境後,快速找到相似判決書,並提供參考的刑期範圍。此工具能協助律師、法官等專業人士加快查找案例的速度,也為一般民眾提供了了解相關判決參考依據的便捷方式。

(with 鄭宇辰、李彥吾)

神農TAIDE

我們的實驗室開發的神農TAIDE是一個基於台灣語言模型TAIDE的先進RAG(Retrieval-Augmented Generation)架構。這一架構在檢索和自然語言生成的部分均進行了深入的優化,以提高其效率和準確性。

(with 范耀中、許文全、吳欣璇、張恩德、許水翔、陳可威)

原住民語對談系統:結合大型語言模型於低資源語言的應用

這套原住民語對談系統目前包含「翻譯」與「對話生成」兩大功能,現已支援阿美族語,並計劃延伸至更多原住民語系。在翻譯功能上,系統通過Soundex演算法和模糊匹配(Fuzzy Matching)技術強化語音辨識結果,解決低資源語言翻譯資料不足的問題。針對阿美族語和中文的翻譯,系統提供word-level和sentence-level進行檢索,並根據發音相似程度進行精準匹配。而在對話生成方面,系統基於用戶輸入的阿美族語句子和中文翻譯進行平行語料檢索,並利用分群技術優化檢索結果,再通過LLM生成回應。該系統不僅為原住民兒童提供語言練習機會,也將作為語音對談技術開發的一部分,目前正與其他實驗室合作,共同推動低資源語言的數位化應用。

(with 游宸睿、張恩德、王彥翔)

Former years

Querator AI 讓人工智慧幫您出題!閱讀測驗試題自動生成!

我們基於深度學習技術,開發一閱讀檢測試題自動生成系統,透過文字生成技術(Natural Language Generation)幫你出問題製造考卷,主要是根據你所輸入的課文、短文、閱讀測驗或關鍵字,產生出相關對應的題目,這項服務要解決製作教材人力成本的痛點,能夠自動、快速而且大量產生符合需求的題目,再由老師編輯符合需求的客製化考題。( Querator AI) 目前可同時支援中、英文兩語言,預計未來將支援更多語系。我們透過深度學習文字生成技術的突破,將大幅減低出版業、行銷業務與教師於閱讀檢測中人力成本,為相關產業提供協助、創造更多價值。

(with 詹英鴻、鄭高文、黃柏鈞、謝繼緯、蔡霈炫、徐偉耀)

基於法院判決書之人物標注與社群結構檢索系統

我們基於利用深度學習技術整理裁判書資料並萃取為人、事、時、地之結構化資訊。希冀找出隱藏於裁判書資料中之關聯資訊。基於法院判決書共現關聯,建立人物社群關聯網絡,建立視覺化社群結構分析如影片中所例,其中節點為所有判決書中曾出現之人名,邊為兩個人物曾共同於一篇法律判決書出現。

(with 郭溫蘋、姜力綱、翁偉哲)

深度學習於醫療檢測之應用

結核病因為長期占據全球十大死因榜單之一而一直被人們所慎重對待,對於結核病的相關檢測及研究也隨著時間持續地被推出。由於現今結核病只要受到完善的治療幾乎都可痊癒,也因此讓結核病的檢測更顯得重要。然而,對於某些開發中國家,結核菌的檢測因為費用昂貴以及檢測設備的龐大與電源供應需求,始終無法作為其廣泛的篩選方法,因此本專題預計與台灣大學醫工所陳建甫教授跨領域合作,基於其研究團隊所開發之「螢光奈米銅團簇於聚合酶鏈鎖反應檢測」技術,並結合機器學習CNN(Convolution Neural Network)類神經網路影像辨識的技術,讓電腦自主學習分辨試管的呈色結果,來協助現有試管反應呈色後無法精準且快速分辨呈色結果之問題。

(with 王韋鈞、沈柏瑋)

基於行動裝置使用內容關鍵字探勘之多面向使用者興趣側寫檔研究

本研究計畫擬協同工業技術研究院團隊,延伸前 期計畫成果,延伸發展一個基於行動裝置使用內容短字詞語意分析(Short Text Semantic Understanding)與多面向使用者興趣側寫檔研究之適時適地 IOI(Item-of-Interest)提示系統, 該系統將主動地分析推測使用者之短字詞語意與考量各種面向下之使用者興趣側寫檔,推測行動裝 置使用者當下之可能感興趣項目(Item-of-Interest),來提示使用者希冀提供行動裝置持有者更 智慧化與更即時之智慧型行動裝置服務

(105-106年工業技術研究院斷金計畫, NTD: 2,600,000)

基於電力資料分析之事件偵測研究

於 2014 年迄今,我們協助國立中興大學進行校園用電之量測;由中興資工系同學利用 開源硬體,自行建置電力量測裝置,量測中興大學理學大樓總計十層樓之即時用電資料。利 基於開源硬體與感測裝置技術之普及,我們所建置之電力量測裝置成本低廉,並且具有即時 上網能力,使得大量且廣泛地布建於電力感測器於各樓層空間並密集地記錄每秒鐘之用電量 成為可能。目前我們所建立之平台之詳細用電資料從 2014 年 12 月 10 日收集至今,每層樓 總計 12 個感測器,分別記錄每一層樓中 12 個用電分區之個別每秒鐘用電資料,電力監控範 圍涵蓋教師研究室、授課教室、研究生實驗室及系所辦公室。總計 10 層樓,120 個感測器, 收集資料已逾一年。而除了當初所設定之校園用電量測目標外,我們發現我們所建立之校園 電力監控平台為一個物聯網研究之試金石;即時且密集的電力量測資料,提供我們一個豐富 的資料集,讓我們探索其可能之應用與研究。因此於本研究計畫中,我們擬定探索現有所收 集到之用電資料,並以其於建築空間中事件偵測之可能性進行研究議題探討。

(105-106科技部專題研究計畫 NTD: 702,000)

植基於行動裝置移動軌跡之使用者資訊分析研究

隨著時代的演進,智慧型行動裝置無所不在地融入我們的生活,智慧型行動裝置幾乎隨時隨地的伴隨著使用者,而本計畫著基於前期研究計畫執行過程中了所累積之大量使用者之智慧型行動裝置使用資料,認為探勘分析出使用者之身份資訊、個人興趣、社群關係網路、使用者個人移動習慣將為可能。因此本研究計畫於行動裝置資料探勘角度來切入分析智慧型行動裝置使用者。

(103-105科技部專題研究計畫(兩年期) NTD: 1,616,000)

智慧型行動裝置使用內容關鍵字檢索與探勘研究於適地適時地理活動推薦系統之應用

由於智慧型行動裝置的普及與使用者的高接受程度,智慧型行動裝置幾乎隨時隨地地伴隨著使用者。我們認為智慧型行動裝置不僅僅只是一具迷你隨身電腦,事實上,智慧型行動裝置可視為一行動裝置持有人之資料蒐集器與行為觀察者,行動裝置上所搭載的感測器元件與行動裝置的持有者使用裝置之歷史紀錄提供我們各式各樣極富價值之資料,此種方式之資料蒐集也將更貼近使用者與更無所不在。未來行動運算程式的發展將會整合雲端、行動科技、社會網絡與龐大資料分析等技術產生極大的市場規模與商業價值。通訊產品硬體利潤大幅降低之後,消費性行動應用與服務將是未來行動裝置開發之趨勢。有鑑於此,本研究計畫擬協同工業技術研究院,開發一基於行動裝置使用內容關鍵字檢索與探勘之適時適地地理活動推薦系統,該系統將主動地分析推測使用者之喜好,並根據所推測之結果,即時地推薦行動裝置持有者所在地點附近之可能感興趣活動,希冀提供行動裝置持有者更智慧化與更即時之適地性服務。

(104年工業技術研究院斷金計畫, NTD: 1,661,750)

Mining User Behavior For Better Service Provision to HTC customers

本計畫為一與hTC宏達電子之產學合作研究計畫,由hTC提供120具開發中之智慧型行動裝置發放於大學校園使用,該行動裝置上裝配有資料蒐集app,負責蒐集諸如使用者之行動軌跡、通話資訊、app的使用方式等使用者資料,並計畫透過發展巨量資料探勘技術,來瞭解HTC使用者,提升並改善hTC裝置之開發與良好服務之提供。

(宏達電子hTC產學研發計畫, 兩年期2013.01-2014.12, NTD: 2,676,000. 共同主持)

非定量功率電器於非侵入式居家負載辨識研究

本計畫主要探討如何於單點偵測的架構下,使用間接感測之方式估算非定量功率消耗之電器(如電腦與變頻式冷氣機)電力消耗量,此類之電器為現有非侵入式居家負載準確率不佳的主因,因此如何估算其電力消耗,並用之排除非定量功率消耗之電器於整體系統所造成之影響,來提升電器辨識準確率便成為一研究主題。

(半年期2013.07-2013.12, NTD: 175,000.)

歷屆成員

Figure of 陳聖軒

陳聖軒

文字嵌入模型於文本分類任務之比較研究
Figure of 黃思穎

黃思穎

一個於儲存空間受限行動裝置上基於文字嵌入模型之物品推薦架構及其通訊成本優化研究
Figure of 鄭銘毅

鄭銘毅

基於Context Logs之行動裝置使用者意圖偵測
Figure of 沃克潘

沃克潘

基於文字嵌入模型之點擊誘餌偵測研究
Figure of 溫景翔

溫景翔

基於成對比較記錄之物件排名架構及其於商品頁面點擊記錄之應用
Figure of 陳奕廷

陳奕廷

無監督式文字風格轉換-以白話武俠風格為例
Figure of 游哲軒

游哲軒

基於Attentive Sequence-to-Sequence RNNs的行動裝置使用者意圖理解
Figure of 劉凱婷

劉凱婷

個人化文字嵌入模型與其於個人化文件檢索之應用
Figure of 王君瑜

王君瑜

一個基於文字語意向量分群架構之文本資料事件追蹤技術
Figure of 張泰瑋

張泰瑋

Figure of 楊尚恩

楊尚恩

Figure of 江承陽

江承陽

基於BERT深度學習模型之論文語句分類
Figure of 蔡秉宏

蔡秉宏

基於BERT深度語言理解模型之文章自動摘要技術
Figure of 翁湘雲

翁湘雲

基於深度學習模型之文本主題段落切割技術
Figure of 姜力綱

姜力綱

基於BERT之關鍵字生成新聞文章
Figure of 郭溫蘋

郭溫蘋

特定領域問答模型之小樣本學習研究
Figure of 翁偉哲

翁偉哲

探討BERT對數字的理解
Figure of Eric Lam

Eric Lam

Figure of 彭顯詠

彭顯詠

基於強化學習之誤導推論生成
Figure of 黃柏鈞

黃柏鈞

藉由基因演算法與負面標籤學習增強閱讀題組生成之研究
Figure of 吳孟霓

吳孟霓

基於風格控制的無監督式文本生成框架
Figure of 蔡霈炫

蔡霈炫

比較Encoder-Decoder、Encoder-Only與Decoder-Only架構於低資源數據集下文本生成之差異
Figure of 徐偉耀

徐偉耀

基於BART深度學習模型之釋意控制句型生成
Figure of 蔡至朔

蔡至朔

階層式快取Transformer:基於動態提早離開的語言翻譯加速模型
Figure of Tomy Hsieh 謝繼緯

Tomy Hsieh 謝繼緯

Figure of 張友澤

張友澤

Figure of 王彥翔

王彥翔

Figure of 陳紫淇

陳紫淇

Figure of 王慧娟

王慧娟

Figure of 時御唐

時御唐

Figure of 童智威

童智威

Figure of 余翰承

余翰承

Figure of 謝凱郁

謝凱郁

Figure of 鄒瑞慶

鄒瑞慶

Figure of 黃晨華

黃晨華

Figure of 石鈺安

石鈺安

Figure of 林芃儀

林芃儀

Figure of 何昕芷

何昕芷

Figure of 林子安

林子安

Figure of 許文全

許文全

Figure of 鄭宇辰

鄭宇辰

Figure of 賴信彰

賴信彰

Figure of 廖佑丞

廖佑丞

在職班

陳宜岑

電力資料視覺化異常分析

謝孟樺

考量上下文字詞共現關係之短文斷詞研究

黃子忠

考量野放農園環境下之影像擷取嵌入式裝置設計

李立仁

一個於行動裝置端運算之停留點循序樣型探勘演算法

徐政元

一個以圖形節點中介值為指標之移動式Wi-Fi熱點偵測技術

王美懿

以WIFI服務設定辨識碼為提示依據之記事提醒系統設計與實作

Come reaching us.