• <bdo id="f9ffj"><progress id="f9ffj"></progress></bdo>
  • <nav id="f9ffj"></nav>

      1. <var id="f9ffj"><mark id="f9ffj"></mark></var>
        <var id="f9ffj"></var>
          北京物流信息聯盟

          燃!阿里AI技術取得重大突破:連破中、英語言處理兩項世界紀錄

          阿里技術 2022-07-22 09:44:06

          日前,阿里巴巴披露了自然語言處理技術取得的兩項新成績:在全球頂級的知識庫構建測評KBP2017中,斬獲英文實體發現測評全球冠軍;在中文語法錯誤自動診斷大賽(Chinese Grammatical Error Diagnosis,以下簡稱 CGED)三個level中全面奪得冠軍,核心指標比其他參賽機構高出一倍。


          iDST自然語言處理首席科學家司羅


          司羅是全球權威機器智能學者,曾擔任美國普渡大學計算機系終身教授,先后獲得美國國家科學基金會成就獎、雅虎、谷歌研究獎等。在阿里巴巴,司羅領導了iDST自然語言處理團隊,他們的使命是支持阿里大生態(新零售、金融、物流、娛樂、旅行等)的自然語言處理需求;通過阿里云技術輸出,賦能廣大全網合作者,創造更多商業機會;沉淀技術,和學界、工業界合作者一起創新自然語言技術。


          比賽中使用的分詞、詞性標注和句法分析等基礎NLP工具都是由該團隊自主研發的AliNLP 平臺。該平臺支持阿里大生態(新零售、金融、物流、娛樂、旅行等)的每天多達600億次的自然語言處理需求。團隊橫跨中國(杭州,北京)和美國(硅谷,西雅圖),普遍擁有10年以上自然語言處理研發經驗,30%以上有博士學歷(如CMU,伯克利,普林斯頓,清華,北大等)。 團隊多次在國際自然語言技術競賽中取得冠軍成績。


          本次KBP比賽團隊主力 Zhang Qiong, Zhao HuaSha, Yang Yi等;2017 CGED比賽團隊主力李林琳,謝朋峻,楊毅等。


          阿里巴巴奪實體發現測評全球第一




          兩場比賽中,KBP是由NIST(National Institute of Standards and Technology,美國國家標準與技術研究院)指導、美國國防部協辦的賽事,主要任務為從自然書寫的非結構化文本中抽取實體,以及實體之間的關系。這次測評吸引了全球20多支頂尖團隊參與,包括IBM Research, BBN, Stanford Univ, CMU Univ, UIUC Univ, Columbia Univ, 騰訊等。

          ?

          這項測評要求AI算法在“讀完”一篇英文文章后,構建一個物理世界的命名實體和實體之間關系的知識庫,、“克林頓畢業于耶魯法學院”這樣一個個實體的關系。

          ?

          司羅介紹,阿里的算法可以做到對文章上下文的理解。比如,文章出現了Apple,再出現Jobs,就可以辨別出這個Jobs指的是喬布斯,而不是工作。再比如,文章出現了Microsoft,那么Apple就更有可能是蘋果公司,而不是一種水果。

          ?

          “另外,我們構建了一個算法去學習不同領域之間共同的部分,通過遷移學習提升我們學習的準確度。對于不同領域數據,我們取其精華,去其糟粕,進行智能學習”,司羅說。

          ?

          在這次測評中,iDST團隊采用經過改良的深度神經網絡架構對文本進行理解。改良的架構有三個主要特點:;其次,該架構可以智能選擇訓練數據集以保證訓練數據的準確性;最后,采用post regularization的辦法保證模型結果的一致性。

          ?

          對于KBP2017的成績,司羅表示:“很榮幸能夠同全球的同行分享阿里巴巴的研究成果,人工智能在機器閱讀理解和知識庫構建上還處在起步階段,我們正在積極和同行業頂尖機構學習交流,推動行業發展。比如我們內部建設的信息抽取平臺AliIE項目就在同斯坦福大學展開積極合作”。

          ?

          阿里巴巴正在將這樣的信息抽取技術廣泛的應用到實際業務當中,并致力于讓更多的中小開發者從中收益。他們搭建的信息抽取平臺AliIE擁有最頂尖的AI技術,并從一開始的架構設計就考慮到平臺的開放性和可擴展性,可以讓更多的開發者、研究員共同開發,并將成果回饋給這個社區。

          ?

          阿里巴巴奪中文語法大賽 CGED全球冠軍



          另一場比賽,中文語法錯誤自動診斷大賽(Chinese Grammatical Error Diagnosis,以下簡稱 CGED)由IJCNLP聯辦,今年已是第四屆。比賽的背景是:學習中文的外國人數不斷增加,由于中文的博大精深,外國友人在中文寫作中會出現語法錯誤。主辦方挑選了一些外國友人寫的中文作文片段,希望參賽者用人工智能算法自動識別里面的語法語義錯誤。


          參賽機構比賽成績公布


          根據組委會公開的結果,司羅團隊在所有的3個level的正確率都以較大優勢位居第一,獲取2017 CGED比賽的冠軍。主力成員李林琳,謝朋峻,楊毅等通過在深度學習中引入無監督的語法知識,同時結合了集成學習等方法取得了好成績。


          司羅介紹,中文語法診斷的挑戰性在于,中文語言知識豐富、語法多樣;人在判斷一句話是否有錯誤的時候,會用到長期積累的知識體系(比如一句話是否通順、兩個詞是否可以搭配、語義上是否成立等)。相比之下,比賽提供的訓練數據非常有限,僅通過訓練數據來識別錯誤是很困難的。

          ?

          賽題中包含的錯誤分為四種類型:多詞(Redundant)、缺詞(Missing)、錯詞(Selection)和詞序錯誤(Word Order)。系統性能的評估也由易到難分為3leveldetection level(識別句子有沒有錯誤)、identification level(識別錯誤句子的具體錯誤類型)和position level(識別錯誤的位置和對應類型)

          ?

          比賽要求診斷的四種錯誤類型


          比如,“我要送給你一個慶祝禮物。要是兩、三天晚了,請別生氣”這句話,在第3個Level,AI需要明確指出“兩、三天晚了”存在錯誤才能得分(正確用法應該是“晚了兩、三天”)。

          ?

          根據組委會公開的結果,司羅團隊在所有的3level的正確率都以較大優勢位居第一,獲取2017 CGED比賽的冠軍。他們通過在深度學習中引入無監督的語法知識,同時結合了集成學習等方法。

          ?

          技術細節上,IDST團隊在bilstm-crf模型的基礎上,結合了分詞、詞性、依存句法等特征,同時將language model等無監督的知識embedding到神經網絡。依靠RNN結構以及詞性、依存等特征,不光能識別短程的語法錯誤,比如“一頭?!焙糜凇耙恢慌!?;也能識別比較長程的語法錯誤,比如“雖然父母很辛苦,而且對孩子照顧得很好”中“雖然”和“而且“不搭配。此外,他們針對比賽的3個不同level,設計了不同的基于神經網絡的snapshot emsembles方法。


          司羅表示:“很榮幸能夠同全球的同行分享阿里巴巴的研究成果,人工智能在對于自然語言的理解還處在起步階段,要實現真正的語義理解還需要 5-10 年的跨越。我們正在積極和同行業頂尖機構學習交流,推動行業發展”。


          司羅認為,自然語言處理是實現強人工智能的非常重要的一環,而且重要性會越來越顯現。感知層面的事情越來越成熟了,認知層面也得跟上了。雖然有很大的鴻溝擺在面前,但這是必須要跨越的?!耙驗?NLP 技術是達到強人工智能的路上必須攻克的關鍵節點”。






          你可能還喜歡

          點擊下方圖片即可閱讀



          阿里畢玄:智能時代,運維工程師在談什么?



          41歲阿里工程師:

          35歲轉管理,真的是必經之路嗎?



          分布式服務框架Dubbo瘋狂更新!

          阿里開源要搞大事情?





          關注「阿里技術」

          把握前沿技術脈搏

          友情鏈接

          永久免费啪啪网站一二三区,中文无码精油按摩高潮,乳峰高耸的美妇
        1. <bdo id="f9ffj"><progress id="f9ffj"></progress></bdo>
        2. <nav id="f9ffj"></nav>

            1. <var id="f9ffj"><mark id="f9ffj"></mark></var>
              <var id="f9ffj"></var>