Motivation
本實驗室近期研究方向圍繞於深度學習技術在文字資料探勘 (Text Mining) 與自然語言處理 (Natural Language Processing) 方面之研究,目前實驗室成員的研究主題著重於機器閱讀理解 (Machine Reading Comprehension) 以及自然語言生成 (Natural Language Generation) 兩面向。
本實驗室近期研究方向圍繞於深度學習技術在文字資料探勘 (Text Mining) 與自然語言處理 (Natural Language Processing) 方面之研究,目前實驗室成員的研究主題著重於機器閱讀理解 (Machine Reading Comprehension) 以及自然語言生成 (Natural Language Generation) 兩面向。
Try our applications
What we have done
我們的目標是打造一個準確又有效率的相似判決書檢索平台,適合法律專業人士及一般民眾使用,讓使用者能以簡單的步驟,找到想要的判決書情節。系統中採用了 BGE-M3 進行判決書文本的向量化,以精確地捕捉文本相似性。另外我們引入了國科會的大型語言模型 Taide作為查詢系統的輔助,幫助使用者在輸入犯罪情境後,快速找到相似判決書,並提供參考的刑期範圍。此工具能協助律師、法官等專業人士加快查找案例的速度,也為一般民眾提供了了解相關判決參考依據的便捷方式。
(with 鄭宇辰、李彥吾)
我們的實驗室開發的神農TAIDE是一個基於台灣語言模型TAIDE的先進RAG(Retrieval-Augmented Generation)架構。這一架構在檢索和自然語言生成的部分均進行了深入的優化,以提高其效率和準確性。
(with 范耀中、許文全、吳欣璇、張恩德、許水翔、陳可威)
這套原住民語對談系統目前包含「翻譯」與「對話生成」兩大功能,現已支援阿美族語,並計劃延伸至更多原住民語系。在翻譯功能上,系統通過Soundex演算法和模糊匹配(Fuzzy Matching)技術強化語音辨識結果,解決低資源語言翻譯資料不足的問題。針對阿美族語和中文的翻譯,系統提供word-level和sentence-level進行檢索,並根據發音相似程度進行精準匹配。而在對話生成方面,系統基於用戶輸入的阿美族語句子和中文翻譯進行平行語料檢索,並利用分群技術優化檢索結果,再通過LLM生成回應。該系統不僅為原住民兒童提供語言練習機會,也將作為語音對談技術開發的一部分,目前正與其他實驗室合作,共同推動低資源語言的數位化應用。
(with 游宸睿、張恩德、王彥翔)
我們基於深度學習技術,開發一閱讀檢測試題自動生成系統,透過文字生成技術(Natural Language Generation)幫你出問題製造考卷,主要是根據你所輸入的課文、短文、閱讀測驗或關鍵字,產生出相關對應的題目,這項服務要解決製作教材人力成本的痛點,能夠自動、快速而且大量產生符合需求的題目,再由老師編輯符合需求的客製化考題。( Querator AI) 目前可同時支援中、英文兩語言,預計未來將支援更多語系。我們透過深度學習文字生成技術的突破,將大幅減低出版業、行銷業務與教師於閱讀檢測中人力成本,為相關產業提供協助、創造更多價值。
(with 詹英鴻、鄭高文、黃柏鈞、謝繼緯、蔡霈炫、徐偉耀)
我們基於利用深度學習技術整理裁判書資料並萃取為人、事、時、地之結構化資訊。希冀找出隱藏於裁判書資料中之關聯資訊。基於法院判決書共現關聯,建立人物社群關聯網絡,建立視覺化社群結構分析如影片中所例,其中節點為所有判決書中曾出現之人名,邊為兩個人物曾共同於一篇法律判決書出現。
(with 郭溫蘋、姜力綱、翁偉哲)
結核病因為長期占據全球十大死因榜單之一而一直被人們所慎重對待,對於結核病的相關檢測及研究也隨著時間持續地被推出。由於現今結核病只要受到完善的治療幾乎都可痊癒,也因此讓結核病的檢測更顯得重要。然而,對於某些開發中國家,結核菌的檢測因為費用昂貴以及檢測設備的龐大與電源供應需求,始終無法作為其廣泛的篩選方法,因此本專題預計與台灣大學醫工所陳建甫教授跨領域合作,基於其研究團隊所開發之「螢光奈米銅團簇於聚合酶鏈鎖反應檢測」技術,並結合機器學習CNN(Convolution Neural Network)類神經網路影像辨識的技術,讓電腦自主學習分辨試管的呈色結果,來協助現有試管反應呈色後無法精準且快速分辨呈色結果之問題。
(with 王韋鈞、沈柏瑋)
本研究計畫擬協同工業技術研究院團隊,延伸前 期計畫成果,延伸發展一個基於行動裝置使用內容短字詞語意分析(Short Text Semantic Understanding)與多面向使用者興趣側寫檔研究之適時適地 IOI(Item-of-Interest)提示系統, 該系統將主動地分析推測使用者之短字詞語意與考量各種面向下之使用者興趣側寫檔,推測行動裝 置使用者當下之可能感興趣項目(Item-of-Interest),來提示使用者希冀提供行動裝置持有者更 智慧化與更即時之智慧型行動裝置服務
(105-106年工業技術研究院斷金計畫, NTD: 2,600,000)
於 2014 年迄今,我們協助國立中興大學進行校園用電之量測;由中興資工系同學利用 開源硬體,自行建置電力量測裝置,量測中興大學理學大樓總計十層樓之即時用電資料。利 基於開源硬體與感測裝置技術之普及,我們所建置之電力量測裝置成本低廉,並且具有即時 上網能力,使得大量且廣泛地布建於電力感測器於各樓層空間並密集地記錄每秒鐘之用電量 成為可能。目前我們所建立之平台之詳細用電資料從 2014 年 12 月 10 日收集至今,每層樓 總計 12 個感測器,分別記錄每一層樓中 12 個用電分區之個別每秒鐘用電資料,電力監控範 圍涵蓋教師研究室、授課教室、研究生實驗室及系所辦公室。總計 10 層樓,120 個感測器, 收集資料已逾一年。而除了當初所設定之校園用電量測目標外,我們發現我們所建立之校園 電力監控平台為一個物聯網研究之試金石;即時且密集的電力量測資料,提供我們一個豐富 的資料集,讓我們探索其可能之應用與研究。因此於本研究計畫中,我們擬定探索現有所收 集到之用電資料,並以其於建築空間中事件偵測之可能性進行研究議題探討。
(105-106科技部專題研究計畫 NTD: 702,000)
隨著時代的演進,智慧型行動裝置無所不在地融入我們的生活,智慧型行動裝置幾乎隨時隨地的伴隨著使用者,而本計畫著基於前期研究計畫執行過程中了所累積之大量使用者之智慧型行動裝置使用資料,認為探勘分析出使用者之身份資訊、個人興趣、社群關係網路、使用者個人移動習慣將為可能。因此本研究計畫於行動裝置資料探勘角度來切入分析智慧型行動裝置使用者。
(103-105科技部專題研究計畫(兩年期) NTD: 1,616,000)
由於智慧型行動裝置的普及與使用者的高接受程度,智慧型行動裝置幾乎隨時隨地地伴隨著使用者。我們認為智慧型行動裝置不僅僅只是一具迷你隨身電腦,事實上,智慧型行動裝置可視為一行動裝置持有人之資料蒐集器與行為觀察者,行動裝置上所搭載的感測器元件與行動裝置的持有者使用裝置之歷史紀錄提供我們各式各樣極富價值之資料,此種方式之資料蒐集也將更貼近使用者與更無所不在。未來行動運算程式的發展將會整合雲端、行動科技、社會網絡與龐大資料分析等技術產生極大的市場規模與商業價值。通訊產品硬體利潤大幅降低之後,消費性行動應用與服務將是未來行動裝置開發之趨勢。有鑑於此,本研究計畫擬協同工業技術研究院,開發一基於行動裝置使用內容關鍵字檢索與探勘之適時適地地理活動推薦系統,該系統將主動地分析推測使用者之喜好,並根據所推測之結果,即時地推薦行動裝置持有者所在地點附近之可能感興趣活動,希冀提供行動裝置持有者更智慧化與更即時之適地性服務。
(104年工業技術研究院斷金計畫, NTD: 1,661,750)
本計畫為一與hTC宏達電子之產學合作研究計畫,由hTC提供120具開發中之智慧型行動裝置發放於大學校園使用,該行動裝置上裝配有資料蒐集app,負責蒐集諸如使用者之行動軌跡、通話資訊、app的使用方式等使用者資料,並計畫透過發展巨量資料探勘技術,來瞭解HTC使用者,提升並改善hTC裝置之開發與良好服務之提供。
(宏達電子hTC產學研發計畫, 兩年期2013.01-2014.12, NTD: 2,676,000. 共同主持)
本計畫主要探討如何於單點偵測的架構下,使用間接感測之方式估算非定量功率消耗之電器(如電腦與變頻式冷氣機)電力消耗量,此類之電器為現有非侵入式居家負載準確率不佳的主因,因此如何估算其電力消耗,並用之排除非定量功率消耗之電器於整體系統所造成之影響,來提升電器辨識準確率便成為一研究主題。
(半年期2013.07-2013.12, NTD: 175,000.)
文字嵌入模型於文本分類任務之比較研究
一個於儲存空間受限行動裝置上基於文字嵌入模型之物品推薦架構及其通訊成本優化研究
基於Context Logs之行動裝置使用者意圖偵測
基於文字嵌入模型之點擊誘餌偵測研究
基於成對比較記錄之物件排名架構及其於商品頁面點擊記錄之應用
無監督式文字風格轉換-以白話武俠風格為例
基於Attentive Sequence-to-Sequence RNNs的行動裝置使用者意圖理解
個人化文字嵌入模型與其於個人化文件檢索之應用
一個基於文字語意向量分群架構之文本資料事件追蹤技術
基於BERT深度學習模型之論文語句分類
基於BERT深度語言理解模型之文章自動摘要技術
基於深度學習模型之文本主題段落切割技術
基於BERT之關鍵字生成新聞文章
特定領域問答模型之小樣本學習研究
探討BERT對數字的理解
電力資料視覺化異常分析
考量上下文字詞共現關係之短文斷詞研究
考量野放農園環境下之影像擷取嵌入式裝置設計
一個於行動裝置端運算之停留點循序樣型探勘演算法
一個以圖形節點中介值為指標之移動式Wi-Fi熱點偵測技術
以WIFI服務設定辨識碼為提示依據之記事提醒系統設計與實作