中文自动分词C++实现

本文介绍了中文信息处理中的基础问题——分词及其歧义消除,重点讲解了一种最大概率分词法的C++实现。文章首先展示了如何构建一个分词词典类,包括数据库操作、词频获取和词性标记等功能。
摘要由CSDN通过智能技术生成

   中文信息处理中一个基础问题就是分词以及分词歧义消除问题。本文介绍一中最大概率分词法的C++实现问题。

在这一部分中先给出我的词典处理算法,最大概率分词法将在以后的博客中给出。


首先是构造一个分词词典类,我们的分词匹配算法都要利用分词词典提供的数据来进行:
class CWordSegDictionary
{
  CDaoDatabase* pDatabase;     
  CDaoRecordset *pWords, *pTags;        //指向词表和词性标记集的指针
  CDaoTableDef *pWordsDef, *pTagsDef;   //词表和词性表结构指针
  public:
    CWordSegDictionary(){}
    ~CWordsegDictionary()
    {
      if(pWords){
        pWords->Colse();
        delete pWords;
      }
      if(pTags){
        pTags->Close();
        delete pTags;
      }
      if(pWordsDef){
        pWordsDef->Close();
        delete pWordsDef;
      }
      if(pTagsDef) {
        pTagsDef->Close();
        delete pTagsDef;
      }
      if(pDatabase) {
        pDatabase->Close();
        delete pDatabase;
        AfxDaoTerm();
      }
      myDatabaseName = "";
    };

    CString myDatabaseName; // 数据库文件名
    BOOL OpenMDB(); //打开数据库,表结构和记录集
    BOOL CloseMDB(); //关闭数据库,表结构和记录集,释放个指针申请的内存

    long GetWordID(CString w);  // 获取词语的代号
    long GetFreq(CString w);      // 获取词语的频度值
    long GetFreq(CString w, CString t);   // 获取词语在一定词性下的频度值
    long GetFreq(CString w, CObArray& a); // 获取词语在任意词性下的频度值
    long Insert(CString w, long freq=1);  // 插入词频信息,包括新词的频度值信息
    long Insert(CString w, CString t, long freq=1); // 插入词语,词性标记,词频信息

    CString GetTagOfWord(CString w); // 新增成员函数:获取词语的词性标记
};

    接下来定义我们的词典处理类
class CWordTagSet : public CDaoRecordset
{
  public:
    CWordTagSet(CDaoDatabase *pDatabase = NULL);
    int GetFreq(CString w, CString t);
    int GetFreqs(CString w, CObArrary &a);

    CString m_szWordParam;      //词性参数
    CString m_szTagParam;       //词性标记参数

    long m

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值