更新時間:2025-04-01 00:03:32點擊:77
編譯:Jiaxu、fuma、云舟
嗚啦啦啦啦啦啦啦啦啦啦啦大家好,拖了很久的愛書周刊專欄又和大家見面啦!
AI ScholarWeekly是AI領域的學術專欄,致力于為您帶來最新、最全面、最深入的AI學術概況,每周都會收集AI學術前沿資訊。
每周更新,做AI研究,每周從這篇文章開始就足夠了!
本周關鍵詞:目標檢測、BERT、視頻理解
本周最佳研究
深度學習更進一步:物體檢測的全面回顧
近日,研究人員對深度學習在視覺目標檢測方面的最新進展進行了全面研究。
他們回顧了大量最先進的物體檢測工作,并系統地分析了當前的物體檢測框架。 他們的研究包括對象檢測器組件、機器學習策略、實際應用和基準評估。 他們還討論了未來的發展方向,以促進深度學習的視覺對象檢測。
雖然深度學習理論不斷創新,但最重要的是其應用。
不可否認,目標檢測是當今人工智能系統中的一項重要技術。 例如,它用于最先進的駕駛員輔助系統(ADAS),該系統允許汽車識別車道或檢測行人和其他物體,以提高駕駛安全性。 它在視頻監控和圖像檢索應用中也很有用。
這項工作有助于以結構化、系統的方式展示當前在物體檢測方面的貢獻。 就這樣,到現在為止,AI界已經通過深度學習對物體檢測有了全面的了解。 此外,這項工作有助于促進未來物體檢測方法和應用的研究工作。
原文鏈接:
使用 BERT 進行標記和解析:更簡單、更準確
美國埃默里大學的研究人員最近提出了一種新模型,利用 BERT 作為詞性標記、語法分析和語義分析任務的標記級嵌入。 這是第一個使用 BERT 進行句法和語義分析的項目,它比傳統方法簡單得多,但同時也更加準確。
對于這三項任務中的每一項,研究人員都復制并簡化了當前最先進的方法,提高了模型效率。 然后,他們使用 BERT 生成的令牌嵌入來評估任務簡化情況。
深度學習方法通??常需要大量計算和內存。 現在看來,研究人員從句法、語義和多語言的角度發現了 BERT 的有趣屬性。 這項工作表明可以使用更簡單的模型來處理標記化和解析。
平均而言,所提出的 BERT 模型在不損失準確性的情況下比最先進的模型高出 2.5%。 研究人員和整個人工智能社區現在可以利用和改進這些模型,為未來建立強有力的基線。
代碼鏈接:
原文鏈接:
使用時間周期一致性 (TCC) 學習進行視頻理解
為了解決當前逐幀視頻跟蹤的問題,谷歌的研究人員提出了一種潛在的解決方案,使用稱為時間周期一致學習(TCC)的自監督學習方法。 該方法利用相似序列過程中實例之間的對應關系來學習適合細粒度時間視頻理解的表示。
該模型的主要目標是學習幀編碼器,使用網絡架構處理圖像,并通過編碼器對齊所有視頻幀以生成相應的嵌入。
研究表明,每個幀嵌入都具有實現一系列有趣應用的巨大潛力,包括無監督視頻對齊、少鏡頭動作階段分類、視頻間模態傳輸、視頻幀檢索等。
隨著對細粒度標簽的需求不斷增長,這項工作刺激了對可擴展學習模型的需求,這些模型可以理解視頻,而無需機器人和運動分析等應用程序所需的繁瑣標簽過程。
包括TCC在內的代碼已經發布,以幫助視頻理解的研究人員和想要使用機器學習實現視頻對齊的藝術家。
原文鏈接:
用于異常聲音檢測的小型機器操作數據集
NTT 媒體情報實驗室與日本立命館大學合作推出了一個新的數據集“ToyADMOS”,用于機器操作聲音 (ADMOS) 的異常檢測。 為了構建大規模的 ADMOS 數據集,研究人員通過破壞微型機器來收集它們的異常操作聲音。 ToyADMOS 擁有大約 540 小時的正常機器運行聲音,其中包括超過 12,000 個異常聲音樣本,這些樣本是使用四個麥克風以 48 kHz 的采樣率收集的。
它由三個子數據集組成,一個用于機器狀態檢查,一個用于幾何固定任務下的機器故障診斷,一個用于移動任務下的機器故障診斷。 每個子數據集包括超過 180 小時的正常機器操作聲音和超過 4,000 個異常聲音樣本,這些樣本是使用四個麥克風以 48 kHz 的采樣率收集的。
ToyADMOS數據集可以幫助推動ADMOS系統的設計,為深度學習研究進入異常聲音檢測領域奠定良好的基礎。
代碼鏈接:
原文鏈接:
用計算機視覺回答問題
VideonavQA 是一個新數據集,由 House3D 環境中生成的配對問題和視頻組成。 這個新發布的數據集能夠從近乎理想的導航路徑評估問答性能,同時考慮比當前 EQA 任務實例更全面的問題集。
在新的基準測試中,他們研究了常見 VQA 方法中的許多模型。 他們的工作為 VQA 風格的方法在這種新穎的 EQA 范式中的表現提供了初步的見解。
VideoNavQA數據集對于研究EQA類型任務的實用性有很大幫助,它可以幫助我們更好地理解EQA領域可以實現的目標,以及環境中的豐富元素。 這項工作更像是棲息地挑戰的補充任務,重點是導航,而不一定是回答問題。
原來的:
其他熱門論文
數據集和隨之而來的挑戰鼓勵計算機視覺社區解決非洲的糧食安全問題:
Google AI:改善言語障礙患者的 ASR:
基于深度學習、語言驅動的面部表情動畫:
語音分析中實現隱私保護的框架:
霧機器人及其應用現狀:
人工智能新聞
Nvidia 極大地改進了 BERT,在 53 分鐘內完成訓練,并在 2.2 毫秒內產生結果:
麻省理工學院利用人工智能實現分子生產自動化:
專欄作家介紹
Christopher Dossman 是 Wonder Technologies 的首席數據科學家,在北京生活了 5 年。 他是深度學習系統部署方面的專家,在開發新的人工智能產品方面擁有豐富的經驗。 除了卓越的工程經驗外,他還向數千名學生傳授了深度學習的基礎知識。
領英:
志愿者介紹
查找上門維修、家政服務、上門視頻拍攝、攝影文章,歡迎來。