python中文分词

最新推荐文章于 2022-09-10 10:16:35 发布

zdw12242

最新推荐文章于 2022-09-10 10:16:35 发布

阅读量1.6k

点赞数

分类专栏： python 算法文章标签： python 自然语言处理 div c lambda google

算法同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

python

4 篇文章 0 订阅

订阅专栏

源地址： http://www.isnowfy.com/python-chinese-segmentation/

------------------------------- -----原作：------------------------------------------------

相对于英文而言，中文在计算机处理方面有个必须要面对的问题就是中文分词，英文的单词都是空格间隔的，而中文的词语则不同，所以用程序解决中文分词，在很多自然语言处理方面都是首要进行的步骤。

其中最简单的就是最大匹配的中文分词了，比如“今天天气不错”可以分词为“今天/天气/不错”，但是面对一些有歧义的句子时却显得捉襟见肘，于是“南京市长江大桥”就会被分成“南京市长/江/大桥”而不是“南京市/长江/大桥”，于是更好的是基于统计学原理的分词，也就是说看哪种出现的频率更高。

对于一个中文字符串“a1a2a3...an”如何正确的用词语c1,c2..cm表示就是中文分词的任务，也就是说我们要去找寻P(c1c2..cm)最大的分词，按照马尔科夫链的想法就是说我们就是求P(c1)*P(c1|c2)*P(c1c2|c3)*...P(c1c2...cm-1|cm)最大。按照阿卡姆剃刀的想法我们可以假设一个最可能的实现，于是google黑板报的假设就是每个词只跟前面的词有关，于是变为求P(c1)*P(c1|c2)*P(c2|c3)*...P(cm-1|cm)最大。进一步的其实我们可以假设每个词都是相对独立的，也就是求P(c1)*P(c2)*...P(cm)最大，那么这个怎么求呢，就是用dp（动态规划）的方法。ok，上代码。

 
    
      # -*- coding: UTF-8 -*- 
     

         
     
 
      import  
      collections 
     

       d= 
      collections. 
      defaultdict 
      ( 
      lambda: 
      1 
      ) 
     

         
     
 
      def init 
      (filename= 
      'SogouLabDic.dic' 
      ): 
     

           f= 
      open 
      (filename, 
      'r' 
      ) 
     

           total= 
      0 
     

            
      while  
      True: 
     

               line=f. 
      readline 
      ( 
      ) 
     

                
      if  
      not line:  
      break 
     

               word, freq = line. 
      split 
      ( 
      '\t' 
      ) 
      [ 
      0: 
      2 
      ] 
     

               total+= 
      int 
      (freq 
      ) 
      +1 
      #smooth 
     

                
      try: 
     

                   d 
      [word. 
      decode 
      ( 
      'gbk' 
      ) 
      ]= 
      int 
      (freq 
      ) 
      +1 
     

                
      except: 
     

                   d 
      [word 
      ]= 
      int 
      (freq 
      ) 
      +1 
     

           f. 
      close 
      ( 
      ) 
     

           d 
      [ 
      '_t_' 
      ]=total 
     

         
     
 
      def solve 
      (s 
      ): 
     

           l= 
      len 
      (s 
      ) 
     

           p= 
      [ 
      0  
      for i  
      in  
      range 
      (l 
      +1 
      ) 
      ] 
     

           p 
      [l 
      ]= 
      1 
     

           div= 
      [ 
      1  
      for i  
      in  
      range 
      (l 
      +1 
      ) 
      ] 
     

           t= 
      [ 
      1  
      for i  
      in  
      range 
      (l 
      ) 
      ] 
     

            
      for i  
      in  
      range 
      (l 
      -1, 
      -1, 
      -1 
      ): 
     

                
      for k  
      in  
      range 
      ( 
      1,l-i 
      +1 
      ): 
     

                   tmp=d 
      [s 
      [i:i+k 
      ] 
      ] 
     

                    
      if k 
      > 
      1  
      and tmp== 
      1: 
     

                        
      continue 
     

                    
      if 
      (d 
      [s 
      [i:i+k 
      ] 
      ] 
      *p 
      [i+k 
      ] 
      *div 
      [i 
      ]  
      > p 
      [i 
      ] 
      *d 
      [ 
      '_t_' 
      ] 
      *div 
      [i+k 
      ] 
      ): 
     

                       p 
      [i 
      ]=d 
      [s 
      [i:i+k 
      ] 
      ] 
      *p 
      [i+k 
      ] 
     

                       div 
      [i 
      ]=d 
      [ 
      '_t_' 
      ] 
      *div 
      [i+k 
      ] 
     

                       t 
      [i 
      ]=k 
     

           i= 
      0 
     

            
      while i 
      <l: 
     

                
      print s 
      [i:i+t 
      [i 
      ] 
      ], 
     

               i=i+t 
      [i 
      ] 
     

         
     

         
     
 
      if __name__ ==  
      '__main__': 
     

           init 
      ( 
      ) 
     

           s= 
      "其中最简单的就是最大匹配的中文分词" 
     

           s=s. 
      decode 
      ( 
      'utf8' 
      ) 
     

           solve 
      (s 
      ) 
     
 
  

词库用到了搜狗实验室提供的不错的词库，程序还是很清晰的，值得注意的就是乘法不要直接去乘因为频率都是小于1的，乘的太多可能就会变为0就要影响整个算法了，所以我是分子分母分开存放的，话说直接用了python的原生大整数，连gcd都懒得写了啊。。。

ps:注意到如果词在字典里没有出现会导致概率乘积是0的情况，所以需要进行smooth

参考资料：
http://scturtle.is-programmer.com/posts/26648.html
http://www.matrix67.com/blog/archives/4212
http://www.google.com.hk/ggblog/googlechinablog/2006/04/blog-post_7327.html
http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/

------------我是分割线--------------------
理论上用log相加的方法是最好的，于是修改了下代码，变得更简短了，只要34行哎，代码在github上

   
   

   
   
   
   
    
    ----------------------------
    
    -笔记：---------------------------------
   
   
   
   

   
   
   
   
    
    动态规划求最大值