電機工程學系
Permanent URI for this communityhttp://rportal.lib.ntnu.edu.tw/handle/20.500.12235/85
歷史沿革
本系成立宗旨在整合電子、電機、資訊、控制等多學門之工程技術,以培養跨領域具系統整合能力之電機電子科技人才為目標,同時配合產業界需求、支援國家重點科技發展,以「系統晶片」、「多媒體與通訊」、與「智慧型控制與機器人」等三大領域為核心發展方向,期望藉由學術創新引領產業發展,全力培養能直接投入電機電子產業之高級技術人才,厚植本國科技產業之競爭實力。
本系肇始於民國92年籌設之「應用電子科技研究所」,經一年籌劃,於民國93年8月正式成立,開始招收碩士班研究生,以培養具備理論、實務能力之高階電機電子科技人才為目標。民國96年8月「應用電子科技學系」成立,招收學士班學生,同時間,系所合一為「應用電子科技學系」。民國103年8月更名為「電機工程學系」,民國107年電機工程學系博士班成立,完備從大學部到博士班之學制規模,進一步擴展與深化本系的教學與研究能量。
News
Browse
20 results
Search Results
Item 用於光學同調斷層掃描之基於深度學習和聯邦學習框架之視網膜積液分割技術(2024) 林志韋; Lin, Chih-Wei在眼科領域,光學相干斷層掃描(OCT)是檢測眼病的關鍵技術。偏鄉資源有限僅能使用輕量化設備,但其計算能力不足,難以支撐較為大型模型的訓練,以及數據缺乏和隱私問題阻礙醫院數據共享。首先針對輕量化設備,基於LEDNet設計了高效的LEDNet(α)模型,通過調整通道、添加Shuffle Attention模塊和Group Normalization。使用成本低廉的樹莓派5進行訓練,適合偏鄉需求,為解決隱私問題,引入聯邦學習,通過上傳本地模型參數聚合全局模型,避免資料直接上傳。本研究提出Krum(α)算法,在客戶端損失函數中添加近端項並考慮模型自適應性,改善淘汰機制,改進基於歐氏距離淘汰惡意模型的Krum算法。最後實驗結果顯示,在AROI、DUKE、UMN和RETOUCH數據集上,AROI積液類別提高了3.4%,DUKE提高了5.9%,UMN提高了2.4%,RETOUCH提高了1.4%。Item 基於臉部及語音特徵之輕量化深度學習情感辨識系統(2024) 呂健維; Lu, Chien-Wei因應近年來高齡化導致老人照護人力缺乏,本研究提出了一種可被應用於陪伴型機器人(Zenbo Junior II)上的整合臉部表情和語音的情感識別輕量化模型。近年來對於人類的情感識別技術大多使用基於卷積神經網路(Convolutional Neural Network, CNN)的方式來實現,並得到了優秀的成果,然而,這些先進的技術都沒有考慮計算成本的問題,導致這些技術在計算能力有限的設備上無法運行(例如,陪伴型機器人)。因此,本研究將輕量化的GhostNet模型,應用於臉部情感識別的模型,並將輕量化的一維卷積神經網路(One Dimensional Convolutional Neural Network, 1D-CNN)作為語音情感識別模型,再利用幾何平均數的方式將兩個模態預測的結果整合。所提出的模型,在RAVDESS和CREMA-D兩個數據集上分別取得了97.56%及82.33%的準確率,在確保了高準確率的情況下,本研究將參數量壓縮到了0.92M,浮點運算次數減少至0.77G,比起目前已知的先進技術要少了數十倍。最後,將本研究的模型實際部署在Zenbo Junior II中,並透過模型與硬體的運算強度作比較,得知本研究的模型能夠更加順利的在該硬體中運行,且臉部及語音情感識別模型的推理時間分別只有1500毫秒及12毫秒。Item 用於陪伴型機器人之輕量化深度學習音樂情緒辨識模型(2024) 林彥榕; Lin, Yen-Jung為了應對現今社會高齡化,導致老人缺乏陪伴導致的孤獨問題,本研究提出用於陪伴型機器人Zenbo Junior II的音樂情緒辨識模型來解決老人孤獨導致的情緒問題。在音樂情緒辨識這個研究領域中,雖然也有很多人已經在進行這項研究,但是這些研究中沒有能用於Zenbo Junior II的輕量化架構。本研究提出的方法是使用一維卷機神經網路(1D-Convolutional Neural Network, 1D-CNN)替換掉常用的2D-CNN並且使用閘門循環單元(Gated Recurrent Unit, GRU)使模型能更好的考慮音頻特徵的連續性。在訓練完模型後儲存並應用於Zenbo Junior II上,先將另一研究的情緒對應成4種情緒後播放音樂調適情緒。本研究提出之模型在PMEmo數據集上Valence和Arousal分別為0.04和0.038與其他模型相比效能最好。並且參數量僅有0.721M浮點運算次數僅有9.303M,遠小於其他相比較之模型。運算強度最靠近Zenbo Junior II之最佳工作點,且模型辨識音樂所需推理時間僅需229毫秒,可以即時辨識出音樂的情緒。這些表明本研究成功提出一個輕量化且效能優異,並且可以在Zenbo Junior II上運行的模型。Item 用於光學相干斷層掃描之基於深度學習和聯邦學習框架之視網膜層分割技術(2024) 張博翔; Chang, Po Hsiang在本研究中,我們提出了一種輕量級模型FPENet(α),以FPENet為基底,用於處理專為邊緣設備設計的 OCT 影像中視網膜層分割。視網膜層分割是眼科診斷的重要工具,但其在資源有限的邊緣設備上應用時存在計算成本和精度之間的瓶頸。FedLion(α)在使用 HCMS資料集、NR206資料集及OCT5K資料集進行訓練和測試時,實現了高精度和高效率。該模型經過最佳化,實現了精度和計算成本之間的平衡。FPENet(α)可以有效地捕捉不同尺度的特徵,同時大幅降低計算成本,非常適合部署在如Raspberry Pi等資源有限的邊緣設備上,其輕量化設計使其在計算資源和內存容量方面具有顯著優勢。聯邦學習的部分我們以FedLion為基礎添加了L2正則化與學習率遞減,提出FedLion(α),有效處理數據非獨立同分布的問題。數據顯示使用FPENet(α)與FedLion(α)進行聯邦學習,相較於原先只使用FPENet(α),在HCMS資料集平均DICE係數提升了0.7%,在NR206資料集提升了3.75%,在OCT5K資料集提升了9.1%。Item 應用強化式學習策略之分數階比例積分微分控制於X-Y-Y棒狀線性馬達定位平台(2024) 楊祐銓; YANG, YU-CHUANItem 基於Transformer物件關聯模型應用於籃球賽事分析(2024) 陳柏諺; Chen, Po-Yen在籃球賽事分析中,準確識別持球者和判斷得分時機對於確定得分者是關鍵挑戰。傳統的分析方法,比如物件重疊度和相對距離測量,往往在識別持球和進球時刻面臨較高的誤判風險。為了解決這一問題,我們對本團隊先前提出的Transformer-based Object Relationship Finder(ORF)架構的輸入特徵進行了改進,重點關注了幾個關鍵因素:與球密切相關的球員、球員的姿勢,以及不同的物件類型。這一策略顯著提高了架構在識別複雜動作和搶球情況下的準確度,使得持球者的識別準確率從原來的80.79%提升至86.18%,有效地展示了精準特徵選擇的重要性。此外,我們還利用Transformer-based Object Relationship Finder架構來識別進球時機,並結合最後接觸球的持球者信息,從而有效地判斷得分者,相較於傳統方法我們將得分者準確率從63.89%提高到了87.50%,這一成績突顯了Transformer-based Object Relationship Finder在籃球分析中的強大效能和廣泛應用前景。最後,我們開發了一款整合了這些技術的應用工具。這不僅讓教練和分析師能更全面地理解比賽情況,還為未來的籃球研究和技術開發提供了堅實的基礎。Item 基於YOLO深度學習用於小型漂浮物檢測的新型卷積演算法(2023) 沈峻宇; Shen, Jun-Yu海洋中的不當廢棄物已導致全球危機,為了緩解這個問題,要在海洋及河流的廢棄物到達環境負荷上限之前對其進行檢測和清理,本研究提出了一種基於 YOLOv4 的算法來檢測河流中的漂流廢棄物,算法結合了改進後的RegP池化層並添加到空間金字塔中的池化層與減少輸出部分的檢測層,以改進特徵提取並防止丟失重要或微小細節,並且針對微小的物品進行檢測。實驗結果中評估了本研究的方法在 FloW和Pascal VOC資料集上的性能,與現今的最先進的技術相比,結果表明提出的方法具有更好的mAP準確率,具體來說,在FloW上分別提升了7.91%和11.36%,並且也與多個在漂流廢棄物檢測的先進方法進行對比,獲得了最佳的準確率,在Pascal VOC上的實驗證實了本研究的方法在不同尺寸大小的物件上的有效性,最後測試了在WIDER FACE上對小尺寸的人臉進行檢測實驗,在準確率上也有一定的提升。本研究提供了一個有前途的解決方案,有助於檢測和清除河流中的廢棄物。Item 基於深度學習之即時異常操作程序監控系統(2022) 李作庭; Li, Tso-Ting本論文提出一任務監控系統,以確保人員操作程序與標準作業程序一致,避免意外或操作不當的情況發生,包含:影像目標偵測模組、手部動作辨識模組、用於穩定辨識結果之濾波器、以及程序比對演算法。作法係使用 SlowFast 動作辨識演算法,根據影像的取樣頻率,將輸入拆分為slow pathway 以及fast pathway,前者用於取得空間特徵,後者則增強對於時間特徵上之提取,使得模型可以取得更多時空間之資訊,進而實現精細動作的辨識,解決傳統動作辨識演算法只專注在單一取樣頻率進行空間特徵提取,不利於應用在連續動作辨識的限制。為了將該系統有效地實踐在實際應用場景,本論文亦使用YOLOv4偵測目標影像,濾除非目標事件之場景,當目標影像收集足夠的影像數量時,啟用SlowFast進行人員操作目標物之動作辨識,再使用一改良的濾波器用以降低辨識結果不穩定之情形,建立手部與施作工件等目標物件之相依動作行為之動作庫(action base)。隨後,利用一預先建立之標準作業程序動作庫,包含了操作物件以及相對應的動作,利用一比對演算法進行任務行為之檢測,判別人員操作程序流程是否符合規範。為驗證系統之性能,本論文將所提出之任務監控系統以一小型工作坊人機協作進行即時判斷,監督操作員的操作程序是否符合正確規範。Item 基於改良式時序動作提名生成網路之即時動作偵測(2022) 陳怡君; Chen, Yi-Chun大多數的動作辨識(Action Recognition)方法在應用於連續動作辨識時,會有不穩定的預測,這是因為該些方法大都利用只有單一動作的短視頻(Short Video Clip)去訓練,如果輸入是連續讀入的即時影像時,由於無法取樣到動作開始與結束的幀,造成輸入模型的影像序列與訓練資訊大相逕庭,造成辨識的錯誤。為解決上述問題,本論文提出一即時動作偵測(Online Action Detection)方法,在串流影像當中找出動作的開始與結束,作法是先以Inflated 3D ConvNet (I3D)提取出RGB及Optical Flow影像的特徵,再利用Boundary Sensitive Network (BSN)中的Temporal Evaluation Module (TEM)模組,來找出動作開始、動作結束的機率。此外,本文改良了傳統BSN,使其從離線運行轉變成可以即時運行來找出開始與結束的機率,以得到目標動作較有可能發生的區間。在動作開始後,本文應用動態取樣方法來獲得有效樣本並送入I3D以進行動作識別。實驗結果顯示,所提出的方法可以更好地處理各種連續時間的目標動作影片,提高串流影片中動作辨識的準確度。Item 使用人工智慧晶片實作之自動樂譜辨識與打擊樂演奏系統(2022) 陳建豪; Chen, Jian-Hao近幾年的神經網路研究,針對高解析度光學影像辨識系統已達到成熟階段,然而龐大的卷積神經網路(Convolutional Neural Network, CNN)架構往往有著極大的計算成本,如何維持可接受的正確率並降低計算負擔是一個值得研究的方向。因此本論文使用專精電腦視覺任務的人工智慧晶片替換龐大的目標偵測CNN來偵測音符位置,並以自行設計之輕量CNN辨識音階資訊。將複雜的任務分配給兩個輕量CNN來實現一套光學樂譜辨識系統。本論文亦設計控制程式整合光學樂譜辨識與Delta機械手臂控制。透過鏡頭偵測與辨識拍攝到的紙本樂譜,並且以通用非同步收發傳輸器(Universal Asynchronous Receiver/Transmitter, UART)取得辨識結果。接著以辨識結果確定演奏順序後,驅動Delta機械手臂自動演奏鐵琴。最後以紙本樂譜實際測試本論文提出之光學樂譜辨識系統,驗證此系統的辨識正確率。