售前電話
135-3656-7657
售前電話 : 135-3656-7657
中文臨床醫(yī)學(xué)文本分詞與命名實體挑戰(zhàn)賽,是由北京愛數(shù)智慧和香港中文大學(xué)(深圳)聯(lián)合主辦,并獲得英特爾團(tuán)隊的大力支持。挑戰(zhàn)賽于9月2日正式開啟注冊報名,整個賽程持續(xù)到10月28日止,頒獎典禮將在由中國計算機(jī)學(xué)會(CCF)主辦的2021中國計算機(jī)大會(CNCC)技術(shù)論壇“多模態(tài)在人機(jī)交互場景下的思考與挑戰(zhàn)”現(xiàn)場舉行。
本次NLP競賽圍繞中文臨床醫(yī)學(xué)文本內(nèi)容,對醫(yī)療文本的分詞和命名實體進(jìn)行自然語言處理任務(wù),以醫(yī)療問答為切入點,推動NLP技術(shù)創(chuàng)新,努力擴(kuò)展到更多應(yīng)用場景。
本次競賽獎金豐厚,面向社會各界開放,歡迎全國高校學(xué)生、AI科技型企業(yè)和自然語言處理愛好者報名參加!
賽題背景
和眾多行業(yè)一樣,醫(yī)療行業(yè)是人工智能重要落地行業(yè),人工智能將轉(zhuǎn)變傳統(tǒng)醫(yī)療服務(wù)模式并走向智能化?,F(xiàn)在新醫(yī)改大背景下,智慧醫(yī)療水平不斷提升,服務(wù)能力不斷增強(qiáng),患者與醫(yī)務(wù)人員、醫(yī)療機(jī)構(gòu)之間的溝通互動愈加頻繁化和信息化。在實現(xiàn)智慧醫(yī)療過程中,人工智能對輔助治療、醫(yī)療文本分類等領(lǐng)域發(fā)揮著重要作用。使得最終提升治療效率、降低醫(yī)療成本、個性化醫(yī)療服務(wù)的目標(biāo)成為可能。
人工智能對醫(yī)學(xué)文本的識別離不開自然語言處理(NLP)技術(shù),自然語言處理是人工智能領(lǐng)域的一個重要方向,科研領(lǐng)域一直沒有停止在NLP技術(shù)上創(chuàng)新步伐。自然語言處理主要應(yīng)用于機(jī)器翻譯、輿情監(jiān)測、觀點提取、文本分類、語音識別等方面。其中命名實體識別是文本挖掘系統(tǒng)中的一個重要的基礎(chǔ)步驟,命名實體識別的準(zhǔn)確程度是其他文本挖掘技術(shù)如信息提取或文本分類等的先決條件。
賽題任務(wù)
本次大賽的任務(wù)是參賽者對主辦方提供的中文臨床醫(yī)學(xué)病例樣本,進(jìn)行醫(yī)學(xué)文本分詞和命名實體的自然語言處理任務(wù)。數(shù)據(jù)類型均為中文臨床醫(yī)學(xué)病例文本數(shù)據(jù),該文本數(shù)據(jù)是已被標(biāo)注好的結(jié)構(gòu)化文本。希望參賽者結(jié)合當(dāng)下前沿自然語言處理和深度學(xué)習(xí)技術(shù),有效推動人工智能在醫(yī)學(xué)文本領(lǐng)域應(yīng)用。
數(shù)據(jù)簡介
本次比賽使用的原始醫(yī)療數(shù)據(jù)來源于中文醫(yī)療問答語料庫。該醫(yī)療問答語料庫包含約20萬組從互聯(lián)網(wǎng)資訊平臺獲取的醫(yī)患問答,涵蓋內(nèi)科、外科等共計15個科室,共計約4500萬字。其中,每組問答包括標(biāo)題、患者問題、所屬科室、關(guān)鍵詞、以及平臺注冊醫(yī)生的回答等信息。該數(shù)據(jù)集可用于包括智能醫(yī)療問答、自動分診、關(guān)鍵詞抽取等多項中文自然語言處理任務(wù)。關(guān)于該語料庫的使用和下載等更多信息,請參考
。
在本次比賽中,比賽項目組織方從最基礎(chǔ)的自然語言處理任務(wù)出發(fā),關(guān)注醫(yī)療分詞和醫(yī)療術(shù)語標(biāo)注這兩個最基礎(chǔ)的自然語言處理任務(wù)。比賽項目組織方采用人工方式標(biāo)注了1000組醫(yī)患問答中患者問題和醫(yī)生回答部分的分詞和醫(yī)療術(shù)語,共計約22萬字,5500余句。其中醫(yī)療智能問答,分詞部分基本采用賓州中文樹庫(即 Penn ,CTB5)的分詞規(guī)范,并在其基礎(chǔ)上針對中文醫(yī)療領(lǐng)域的語言特點對其稍加改進(jìn)。醫(yī)療術(shù)語部分,比賽項目組織方在借鑒了現(xiàn)有主流的中文醫(yī)療命名實體識別的標(biāo)注規(guī)范的基礎(chǔ)上,結(jié)合實際醫(yī)療診斷中存在的需求,定義了近20個類別的醫(yī)療術(shù)語(例如疾病、癥狀、病情程度、身體部位、科室、治療方案等),并以此為基礎(chǔ)標(biāo)注數(shù)據(jù),成為現(xiàn)存公開中文醫(yī)療術(shù)語標(biāo)注數(shù)據(jù)中包含醫(yī)療術(shù)語類別最多的數(shù)據(jù)集。
本次比賽使用的樣本數(shù)據(jù)集和測試數(shù)據(jù)集將分批次發(fā)放,參賽選手需提交模型在最終的開放測試集上的預(yù)測結(jié)果,用于評測模型的性能。
組隊規(guī)則
1. 原則上,本次競賽以團(tuán)隊形式參與,每個團(tuán)隊不超過4個人。
2. 參賽團(tuán)隊在比賽過程中被要求提供個人身份信息,如郵箱、姓名、電話等,參賽者須保證提供信息真實性。
3. 競賽所使用的數(shù)據(jù)必須是主辦方提供的數(shù)據(jù)集醫(yī)療智能問答,不得使用外部數(shù)據(jù)。
競賽議程
競賽分前期報名準(zhǔn)備,正式競賽、公布結(jié)果和最后頒獎幾個環(huán)節(jié)。前期報名完成后,參賽者會加入競賽微信群,比賽中遇到任何問題都可通過微信群進(jìn)行咨詢。