2013年7月27日 星期六

python自然語言教學 nltk課程

參考資料:http://ccl.pku.edu.cn/alcourse/nlp/

課程名稱:自然語言處理導論課程討論區 ( 最新貼:2010-6-16 9:21:04 )
任課教師:詹衛東 *  劉揚王厚峰常寶寶*** 北京大學中文系** 北京大學信息科學技術學院
電子郵件:zwd@pku.edu.cn (詹卫东)liuyang@pku.edu.cn(劉揚)
辦公電話:6276581062765835-205(分機)
有關本課程的任何問題和建議,都歡迎與我們聯繫
2011-2012學年第二學期上課時間:2012年2月13日~6月8日( 5~6節地點:教206考試時間
教學參考資料
史蒂芬鳥,伊万·克萊因和愛德華·洛珀。2009年與Python自然語言處理。O'Reilly Media出版。
克里斯托弗D.萬寧和辛里奇SCHUTZE的的。1999年統計自然語言處理的基礎。麻省理工學院出版社。
丹尼爾Jurafsky和詹姆斯·馬丁。2000年語音和語言處理。培生教育。
課程進度安排                 

 
序號 內容提要 講義參考資料
第1週
2012年2月13日
課程概述:課程安排, 參考文獻說明, 等等.
緒論:什麼是自然語言處理?
課程安排 问答系统:ElizaIBM Watson,……
機器翻譯系統:GoogleWorldLingo,……
自然語言處理的支撐科學是什麼?(Author:Shuly Wintner)
漫話人工智能 (顧森)
 
第2週
2012年2月20日
理論基礎:
中文文本的自動分詞
第02章漢語自動分詞研究述評
 
第3週
2012.2.27
理論基礎:
詞性標註方法
Chapter_03 
 
楊孝華二卷
 
第4週
2012年3月5日
理論基礎:
漢語的句法結構分析(上)
Chapter_04(I)
簡單句法分析方法示例
(自底向上,自頂向下,左角分析法)
 
歐萊的分析算法
第5週
2012.3.12
理論基礎:
漢語的句法結構分析(下)
chapter_04(II)
 
句法結構歧義的程度
第6週
2012.3.19
理論基礎:
語義分析
 
Chapter_05 
第7週2012.3.26
 
理論基礎:
語篇分析(王厚峰)
Chapter_06
 
第8週
2012.4.2
討論課(第一次大作業)
作業要求:
 
 
  • 根據選課人數情況,採用分組報告形式在課堂上進行交流。
  • 所有選課同學均需提交書面報告。
  • 報告文件名 ​​請採用統一格式:
     學號_姓名_文章名.doc/pdf
  • 可以合作完成,但人數不得超過3人。合作完成的報告,要詳細註明各人的分工情況。
  • 作業電子版(word或pdf文件)發至 zwd@pku.edu.cn
  • 請在2012.4.16(含)之前提交作業。如果需要延期提交,請給出理由。但不應晚於4.23日提交。晚於4.23日提交的作業將罰分。
第9週
2012年4月9日
工程實踐:
Python及NLTK包的應用—— 訪問語言資源
教材下載:NLP與Python
Chapter_07
要求:熟悉教材第1章第1、2、3、4節;熟悉教材第2章第2、3節,了解第1、4節。
蟒蛇-2.5.4
第10週
2012年4月16日
工程實踐:
Python及NLTK包的應用—— 文本處理基礎
Chapter_08
要求:熟悉教材第3章第1、2、8、9節,了解第3、4、5、6、7節。
第11週
2012年4月23日
工程實踐:
Python及NLTK包的應用—— 程序設計進階
Chapter_09
要求:熟悉教材第4章1、2、3、4節,了解第5、6節。
第12週
2012.4.30
工程實踐:
Python及NLTK包的應用—— 分詞和詞性標註
Chapter_10
要求:熟悉教材第5章第1、2、3節,了解第4、5節。
第13週
2012.5.7
工程實踐:
Python及NLTK包的應用—— 句法分析實現
Chapter_11
要求:了解教材第8章第1、2、3、4節。[特別說明,期末考試第8章第1、2、3、4節不作要求]
第14週
2012年5月14日
工程實踐:
Python及NLTK包的應用—— 信息抽取
Chapter_12
要求:熟悉教材第7章第1、2、3、4、5、6節。
第15週
2012.5.21
工程實踐:
Python及NLTK包的應用—— 文本分類
Chapter_13
要求:熟悉教材第6章第1、2、3節,了解第4、5、6節。[特別說明,期末考試第6章第4、5、6節不作要求]
第16週
2012年5月28日
機器翻譯(常寶寶)
  
第17週
2012年6月4日
 
討論課 (第二次大作業)
漢語自動分詞與詞性標註
 
 
  • 根據選課人數情況,採用分組報告形式在課堂上進行交流。
  • 所有選課同學均需提交書面報告。
  • 可以合作完成,但人數不得超過3人。合作完成的報告,要詳細註明各人的分工情況。
  • 在6月11日(個別情況需要延期,須給出理由,但不遲於6月25日)前,請將所有程序源碼、數據文件及實驗報告(限pdf格式)打包壓縮為“學號_姓名.rar”,將其作為附件發送至liuyang@pku.edu.cn(我收到後會有回复,注意確認)。
第18週
2012.6.11 
考試