贝叶斯分类器(贝叶斯决策论,极大似然估计,朴素贝叶斯分类器,半朴素贝叶斯分类器,贝叶斯网)学习笔记

Python3 同时被 3 个专栏收录
9 篇文章 0 订阅
2 篇文章 0 订阅
4 篇文章 0 订阅

贝叶斯分类器(贝叶斯决策论,极大似然估计,朴素贝叶斯分类器,半朴素贝叶斯分类器,贝叶斯网)学习笔记

一、条件概率,全概率公式,贝叶斯公式

在这里插入图片描述
贝叶斯公式

二、贝叶斯决策论

贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的理想情况下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。
在这里插入图片描述

(1)基于最小错误率的贝叶斯决策

核心思想:在得到一个属性X后,我们可以通过先验概率P(c)及类条件概率P(x|c),得到在当前属性X时,该样本分属各类别的概率,然后根据后验概率的大小做出决策,把后验概率大的一个作为分类类别
推理过程

  • 证明过程

由于统计判别方法是基于统计参数作出决策,因此错误率也只能从平均的意义上讲,表示为在观测值可能取值的整个范围内错识率的均值。在连续条件下,平均错误率,以P(e)表示,那么P(e)就可以表示为P(e,x)的数学期望,因为这是二分类问题,当做出当P(c2|x)>p(c1|x)时决策为c2。显然这个决策意味着,对属性x有P(c1|x)概率的错误率。同理,当做出当P(c1|x)>p(c2|x)时决策为c1。显然这个决策意味着,对属性x有P(c2|x)概率的错误率。如果我们把作出c1决策的所有观测值区域称为A1,那么在A1区内的每个x值,条件错误概率为p(c2|x)。另一个区A2中的每个x,条件错误概率为p(c1|x)。因此平均错误率P(e)可表示成图中<1>式,由于在A1区内任一个x值都有P(c2|x)<P(c1|x),同样在A2区内任一个x值都有P(c1|x)<P(c2|x)错误率在每个x值处都取小者,因而平均错误率P(e)也必然达到最小,再用条件概率公式变个型,得到<2>式,也就是得到的后验概率。这就证明了按后验概率大小作出的决策,其平均错误率为最小

(2)基于最小风险的贝叶斯决策

在这里插入图片描述
在这里插入图片描述

三、极大似然估计

极大似然估计理论

极大似然估计就是利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值
在实际应用中,我们能获得的数据可能只有有限数目的样本数据,而先验概率P(c)和类条件概率P(C|X)(各类的总体分布)都是未知的。根据仅有的样本数据进行分类时,一种可行的办法是我们需要先对先验概率和类条件概率进行估计,然后再套用贝叶斯分类器。

  • 对于类先验估计

在这里插入图片描述

  • 对于类条件估计

对概率密度函数模型的选择非常重要,在样本区域无穷时,我们会得到较准确的估计值,如果模型都错了,那估计半天的参数,肯定也没啥意义了。
在这里插入图片描述

例子:用极大似然估计法估计西瓜数据集3.0中前3个属性的类条件概率

在这里插入图片描述

四、朴素贝叶斯分类器

(1)朴素贝叶斯理论

朴素贝叶斯是一种生成式模型,由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,及生成模型
在这里插入图片描述
生成方法的学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快地收敛于真实模型

不难发现,基于贝叶斯公式来计算后验概率P(c|x)的主要困难在于:因为在计算类条件概率P(x|c)是所有属性上的联合概率,难以从有限的训练样本集直接估计得到,所以朴素贝叶斯就作了一个很“强”的假设—对已知类别,假设所有属性相互独立,就是假设每个属性独立地对分类器结果发生影响
在这里插入图片描述

  • 伯努利模型
    即先验为伯努利分布的朴素贝叶斯,伯努利模型中,每个属性的取值都是布尔型的,即True和False,或者1和0。在文本分类中就是一个属性取值有没有在文档中出现,出现了就为1,没出现就为0,而不考虑出现的频数,在文本里面对应的词集模型
  • 多项式模型
    即先验为多项式分布的朴素贝叶斯,多项式模型中,每个属性的取值是频数,如果一个属性取值在文档中出现不止一次,则应该统计统计其频数,在文本里面对应词袋模型
  • 高斯模型
    即先验为高斯分布的朴素贝叶斯,当属性是连续变量的时候,运用多项式模型就会导致很多条件概率为0,此时即使做平滑,所得到的条件概率也难以描述真实情况,所以在处理连续的属性时,应采用高斯模型。连续变量离散化的过程是:利用样本的属性列计算出均值和方差,然后构造概率密度函数,将其每个样本值代入到概率密度函数中,得到概率值,该概率值可以反应各个值的相对可能性

另外,由朴素贝叶斯分类器的表达式可以看出,朴素贝叶斯分类器的训练过程就是基于训练集D来估计类先验概率P(c),并为每个属性估计条件概率P(xi|c)
在这里插入图片描述

实例1

西瓜数据集3.0分类

对下图这个样本进行分类
在这里插入图片描述
在这里插入图片描述
首先计算先验概率:
在这里插入图片描述
再计算每个属性的类条件概率
对于离散型数据:
在这里插入图片描述
对于连续型数据:
在这里插入图片描述
最后根据类先验概率和类条件概率计算后验概率:
在这里插入图片描述
所以根据后验概率可以判定上图属性样本判别为“好瓜”类

(2)拉普拉斯平滑

拉普拉斯平滑:防止由于某一个类条件概率值为0,导致分类概率为0 的不合理情形
拉普拉斯平滑
条件概率对数化:防止小数相乘出现下溢的情况

实例2

苹果分类

训练集有10个样本,现判断属性大小为大,颜色为青,形状为圆下,是否为好果
在这里插入图片描述
先分别计算类先验概率和类条件概率,其中计算类先验概率时,由于好果只有是和否两种情况,所以分母+2,计算类条件概率时,每个属性的取值情况也恰好为2,所以分母+2,最后计算后验概率,属于一般果的后验概率较大,所以把属性大小为大,颜色为青,形状为圆的样本判别为一般果

实战一 西瓜数据集3.0分类

import numpy as np
from math import exp, sqrt, pi


def getDataSet():
    dataSet = [
        ['青绿', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.697, 0.460, 1],
        ['乌黑', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', 0.774, 0.376, 1],
        ['乌黑', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.634, 0.264, 1],
        ['青绿', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', 0.608, 0.318, 1],
        ['浅白', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.556, 0.215, 1],
        ['青绿', '稍蜷', '浊响', '清晰', '稍凹', '软粘', 0.403, 0.237, 1],
        ['乌黑', '稍蜷', '浊响', '稍糊', '稍凹', '软粘', 0.481, 0.149, 1],
        ['乌黑', '稍蜷', '浊响', '清晰', '稍凹', '硬滑', 0.437, 0.211, 1],
        ['乌黑', '稍蜷', '沉闷', '稍糊', '稍凹', '硬滑', 0.666, 0.091, 0],
        ['青绿', '硬挺', '清脆', '清晰', '平坦', '软粘', 0.243, 0.267, 0],
        ['浅白', '硬挺', '清脆', '模糊', '平坦', '硬滑', 0.245, 0.057, 0],
        ['浅白', '蜷缩', '浊响', '模糊', '平坦', '软粘', 0.343, 0.099, 0],
        ['青绿', '稍蜷', '浊响', '稍糊', '凹陷', '硬滑', 0.639, 0.161, 0],
        ['浅白', '稍蜷', '沉闷', '稍糊', '凹陷', '硬滑', 0.657, 0.198, 0],
        ['乌黑', '稍蜷', '浊响', '清晰', '稍凹', '软粘', 0.360, 0.370, 0],
        ['浅白', '蜷缩', '浊响', '模糊', '平坦', '硬滑', 0.593, 0.042, 0],
        ['青绿', '蜷缩', '沉闷', '稍糊', '稍凹', '硬滑', 0.719, 0.103, 0]
    ]

    features = ['色泽', '根蒂', '敲声', '纹理', '脐部', '触感', '密度', '含糖量']

    featureDic = {}
    for i in range(len(features)):
        featureList = [example[i] for example in dataSet]
        uniqueFeature = list(set(featureList))
        featureDic[features[i]] = uniqueFeature

    dataSet = np.array(dataSet)
    return dataSet, features, featureDic              # 返回数据集,特征词,特征元素


def countProLap(dataSet, index, value, classLabel, N):        # 拉普拉斯平滑
    extrData = dataSet[dataSet[:, -1] == classLabel]
    count = 0
    for data in extrData:
        if data[index] == value:
            count += 1
    return (count + 1) / (float(len(extrData)) + N)


def trainNB0(dataSet, features, featureDic):
    dict = {}                                          # 求类条件概率
    for feature in features:
        index = features.index(feature)
        dict[feature] = {}
        if feature != '密度' and feature != '含糖量':
            featIList = featureDic[feature]
            for value in featIList:
                PisCond = countProLap(dataSet, index, value, '1', len(featIList))
                pNoCond = countProLap(dataSet, index, value, '0', len(featIList))
                dict[feature][value] = {}
                dict[feature][value]["是"] = PisCond
                dict[feature][value]["否"] = pNoCond
        else:
            for label in ['1', '0']:
                dataExtra = dataSet[dataSet[:, -1] == label]
                extr = dataExtra[:, index].astype("float64")
                aver = extr.mean()
                var = extr.var()

                labelStr = ""
                if label == '1':
                    labelStr = '是'
                else:
                    labelStr = '否'

                dict[feature][labelStr] = {}
                dict[feature][labelStr]["平均值"] = aver
                dict[feature][labelStr]["方差"] = var

    length = len(dataSet)                                 # 求类先验概率
    classLabels = dataSet[:, -1].tolist()
    dict["好瓜"] = {}
    dict["好瓜"]['是'] = (classLabels.count('1') + 1) / (float(length) + 2)
    dict["好瓜"]['否'] = (classLabels.count('0') + 1) / (float(length) + 2)
    return dict


def NormDist(mean, var, xi):
    return exp(-((float(xi) - mean) ** 2) / (2 * var)) / (sqrt(2 * pi * var))


def classifyNB(data, features, bayesDis):
    pGood = bayesDis['好瓜']['是']
    pBad = bayesDis['好瓜']['否']
    for feature in features:
        index = features.index(feature)
        if feature != '密度' and feature != '含糖量':
            pGood *= bayesDis[feature][data[index]]['是']
            pBad *= bayesDis[feature][data[index]]['否']
        else:
            pGood *= NormDist(bayesDis[feature]['是']['平均值'], bayesDis[feature]['是']['方差'], data[index])
            pBad *= NormDist(bayesDis[feature]['否']['平均值'], bayesDis[feature]['否']['方差'], data[index])
    retClass = ""
    if pGood > pBad:
        retClass = "好瓜"
    else:
        retClass = "坏瓜"

    return pGood, pBad, retClass


def test_accuracy(dataSet, features, bayesDis):          # 精确率
    cnt = 0.0
    for data in dataSet:
        _, _, pre = classifyNB(data, features, bayesDis)
        if (pre == '好瓜' and data[-1] == '1') or (pre == '坏瓜' and data[-1] == '0'):
            cnt += 1
    return cnt / float(len(dataSet))


def main():
    dataSet, features, featureDic = getDataSet()
    dic = trainNB0(dataSet, features,featureDic)
    for each in dic.items():
        print(each)
    p1, p0, pre = classifyNB(dataSet[0], features, dic)
    print('\n',dataSet[0])
    print(f"p1 = {p1}")
    print(f"p0 = {p0}")
    print(f"pre = {pre}")
    print("train data set accuracy = ", test_accuracy(dataSet, features, dic))


if __name__ == '__main__':
    main()
('色泽', {'青绿': {'是': 0.36363636363636365, '否': 0.3333333333333333}, '浅白': {'是': 0.18181818181818182, '否': 0.4166666666666667}, '乌黑': {'是': 0.45454545454545453, '否': 0.25}})
('根蒂', {'蜷缩': {'是': 0.5454545454545454, '否': 0.3333333333333333}, '稍蜷': {'是': 0.36363636363636365, '否': 0.4166666666666667}, '硬挺': {'是': 0.09090909090909091, '否': 0.25}})
('敲声', {'浊响': {'是': 0.6363636363636364, '否': 0.4166666666666667}, '沉闷': {'是': 0.2727272727272727, '否': 0.3333333333333333}, '清脆': {'是': 0.09090909090909091, '否': 0.25}})
('纹理', {'模糊': {'是': 0.09090909090909091, '否': 0.3333333333333333}, '清晰': {'是': 0.7272727272727273, '否': 0.25}, '稍糊': {'是': 0.18181818181818182, '否': 0.4166666666666667}})
('脐部', {'稍凹': {'是': 0.36363636363636365, '否': 0.3333333333333333}, '凹陷': {'是': 0.5454545454545454, '否': 0.25}, '平坦': {'是': 0.09090909090909091, '否': 0.4166666666666667}})
('触感', {'硬滑': {'是': 0.7, '否': 0.6363636363636364}, '软粘': {'是': 0.3, '否': 0.36363636363636365}})
('密度', {'是': {'平均值': 0.57375, '方差': 0.014608437499999998}, '否': {'平均值': 0.49611111111111117, '方差': 0.03370254320987655}})
('含糖量', {'是': {'平均值': 0.27875, '方差': 0.008912437500000002}, '否': {'平均值': 0.1542222222222222, '方差': 0.010328617283950618}})
('好瓜', {'是': 0.47368421052631576, '否': 0.5263157894736842})

 ['青绿' '蜷缩' '浊响' '清晰' '凹陷' '硬滑' '0.697' '0.46' '1']
p1 = 0.02180124640594357
p0 = 4.915834021416594e-05
pre = 好瓜
train data set accuracy =  0.8235294117647058

实战二 社区恶意留言分类

import numpy as np


def loadDataSet():                                                                    # 创建实验样本
    postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],          # 切分的词条
                 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                 ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                 ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classVec = [0,1,0,1,0,1]                                                          # 类别标签向量,1代表侮辱性词汇,0代表不是
    return postingList,classVec


# 将切分的实验样本词条整理成不重复的词条列表,也就是词汇表,用来将词条向量化
def createVocabList(dataSet):
    vocabSet = set([])                                    # 创建一个空的不重复集合
    for document in dataSet:
        vocabSet = vocabSet | set(document)               # 取并集
    return list(vocabSet)


def setOfWords2Vec(vocabList, inputSet):                  # 根据vocabList词汇表,将inputSet向量化,向量的每个元素为1或0
    returnVec = [0] * len(vocabList)                      # 创建一个其中所含元素都为0的向量
    for word in inputSet:                                 # 遍历每个词条
        if word in vocabList:                             # 如果词条存在于词汇表中,则置1
            returnVec[vocabList.index(word)] = 1
        else: print("the word: %s is not in my Vocabulary!" % word)
    return returnVec                                      # 返回文档向量


def trainNB0(trainMatrix,trainCategory):                       # 朴素贝叶斯分类器训练函数
    numTrainDocs = len(trainMatrix)                            # 计算训练的文档数目
    numWords = len(trainMatrix[0])                             # 计算每篇文档的词条数
    pAbusive = sum(trainCategory)/float(numTrainDocs)          # 文档属于侮辱类的概率,相当于先验概率(P(侮辱类))
    p0Num = np.ones(numWords); p1Num = np.ones(numWords)     # 创建numpy.ones数组,拉普拉斯平滑(如果设置为zeros,那么其中一个概率为0,那么最后乘积也为0)
    p0Denom = 2.0; p1Denom = 2.0                               # 分母初始化为2
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:                     # 统计属于侮辱类的条件概率所需的数据,即P(w0|1),P(w1|1),P(w2|1)···
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:                                     # 统计属于非侮辱类的条件概率所需的数据,即P(w0|0),P(w1|0),P(w2|0)···
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    p0Vect = np.log(p0Num/p0Denom)              # 条件概率对数化,防止下溢出
    p1Vect = np.log(p1Num/p1Denom)
    return p0Vect,p1Vect,pAbusive                 # 返回属于非侮辱类的条件概率数组,属于侮辱类的条件概率数组,文档属于侮辱类的概率


def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):         # 朴素贝叶斯分类器分类函数
    p1 = sum(vec2Classify * p1Vec) + np.log(pClass1)             # 对应元素相乘 log(A*B)=log(A)+log(B)
    p0 = sum(vec2Classify * p0Vec) + np.log(1-pClass1)
    print('p0:',p0)
    print('p1:',p1)
    if p1 > p0:
        return 1
    else:
        return 0


def testingNB():
    listOPosts,listClasses = loadDataSet()									# 创建实验样本
    myVocabList = createVocabList(listOPosts)								# 创建词汇表
    trainMat=[]
    for postinDoc in listOPosts:
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc))				# 将实验样本向量化

    p0V,p1V,pAb = trainNB0(np.array(trainMat),np.array(listClasses))		# 训练朴素贝叶斯分类器

    testEntry = ['love', 'my', 'him','so']									# 测试样本1
    thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))				# 测试样本向量化
    if classifyNB(thisDoc,p0V,p1V,pAb):
        print(testEntry,'属于侮辱类')										    # 执行分类并打印分类结果
    else:
        print(testEntry,'属于非侮辱类')										# 执行分类并打印分类结果

    testEntry = ['stupid', 'garbage']										# 测试样本2
    thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))				# 测试样本向量化
    if classifyNB(thisDoc,p0V,p1V,pAb):
        print(testEntry,'属于侮辱类')										    # 执行分类并打印分类结果
    else:
        print(testEntry,'属于非侮辱类')										# 执行分类并打印分类结果

    testEntry = ['I','love','him']                              # 测试样本3
    thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))              # 测试样本向量化
    if classifyNB(thisDoc, p0V, p1V, pAb):
        print(testEntry, '属于侮辱类')                                        # 执行分类并打印分类结果
    else:
        print(testEntry, '属于非侮辱类')                                      # 执行分类并打印分类结果


if __name__ == '__main__':
    testingNB()
p0: -9.854332321737981
p1: -12.178089750893692
['love', 'my', 'him', 'so'] 属于非侮辱类
p0: -7.20934025660291
p1: -4.702750514326955
['stupid', 'garbage'] 属于侮辱类
p0: -7.982530144836391
p1: -9.13356731317027
['I', 'love', 'him'] 属于非侮辱类

实战三 垃圾邮件分类

数据集参考文末链接

import numpy as np
import random
import re


def textParse(bigString):                                                   # 将字符串转换为字符列表
    # 这里使用\W 或者\W+ 都可以将字符数字串分割开,产生的空字符将会在后面的列表推导式中过滤掉
    listOfTokens = re.split(r'\W+', bigString)                              # 将特殊符号作为切分标志进行字符串切分,即非字母、非数字
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]            # 除了单个字母,例如大写的I,其它单词变成小写


def createVocabList(dataSet):
    vocabSet = set([])  					                         # 创建一个空的不重复集合
    for document in dataSet:
        vocabSet = vocabSet | set(document)                          # 取并集
    return list(vocabSet)


def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0] * len(vocabList)									# 创建一个其中所含元素都为0的向量
    for word in inputSet:												# 遍历每个词条
        if word in vocabList:											# 如果词条存在于词汇表中,则置1
            returnVec[vocabList.index(word)] = 1
        else: print("the word: %s is not in my Vocabulary!" % word)
    return returnVec													# 返回文档向量


def bagOfWords2VecMN(vocabList, inputSet):
    returnVec = [0]*len(vocabList)										# 创建一个其中所含元素都为0的向量
    for word in inputSet:												# 遍历每个词条
        if word in vocabList:											# 如果词条存在于词汇表中,则计数加一
            returnVec[vocabList.index(word)] += 1
    return returnVec


def trainNB0(trainMatrix,trainCategory):
    numTrainDocs = len(trainMatrix)                         # 计算训练集的数目
    numWords = len(trainMatrix[0])							# 计算每封邮件的词条数
    pAbusive = sum(trainCategory)/float(numTrainDocs)		# 属于垃圾邮件的概率
    p0Num = np.ones(numWords); p1Num = np.ones(numWords)	# 创建numpy.ones数组,词条出现数初始化为1,拉普拉斯平滑
    p0Denom = 2.0; p1Denom = 2.0                        	# 分母初始化为2,拉普拉斯平滑
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:							# 统计属于垃圾类的条件概率所需的数据,即P(w0|1),P(w1|1),P(w2|1)···
            p1Num += trainMatrix[i]
            p1Denom += sum(trainMatrix[i])
        else:												# 统计属于非垃圾类的条件概率所需的数据,即P(w0|0),P(w1|0),P(w2|0)···
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    p0Vect = np.log(p0Num/p0Denom)
    p1Vect = np.log(p1Num/p1Denom)							# 取对数,防止下溢出
    return p0Vect,p1Vect,pAbusive							# 返回属于非垃圾类的条件概率数组,属于垃圾类的条件概率数组,邮件属于垃圾类的概率


def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    p1 = sum(vec2Classify * p1Vec) + np.log(pClass1)    	# 对应元素相乘。logA * B = logA + logB,所以这里加上log(pClass1)
    p0 = sum(vec2Classify * p0Vec) + np.log(1.0 - pClass1)
    if p1 > p0:
        return 1
    else:
        return 0


def spamTest():
    docList = []; classList = []
    for i in range(1, 26):                                                  # 遍历25个txt文件
        wordList = textParse(open('spam/%d.txt' % i, 'r').read())     # 读取每个垃圾邮件,并字符串转换成字符串列表
        docList.append(wordList)
        classList.append(1)                                                 # 标记垃圾邮件,1表示垃圾文件
        wordList = textParse(open('ham/%d.txt' % i, 'r').read())      # 读取每个非垃圾邮件,并字符串转换成字符串列表
        docList.append(wordList)
        classList.append(0)                                                 # 标记非垃圾邮件,0表示非垃圾文件

    vocabList = createVocabList(docList)                                 # 创建词汇表,不重复

    errorrate = 0

    for i in range(10):                                                         # 迭代10次求平均错误率
        trainingSet = list(range(50)); testSet = []                             # 创建存储训练集的索引值的列表和测试集的索引值的列表
        for i in range(10):                                                     # 从50个邮件中,随机挑选出40个作为训练集,10个做测试集
            randIndex = int(random.uniform(0, len(trainingSet)))                # 随机选取索索引值
            testSet.append(trainingSet[randIndex])                              # 添加测试集的索引值
            del(trainingSet[randIndex])                                         # 在训练集列表中删除添加到测试集的索引值

        trainMat = []; trainClasses = []                                        # 创建训练集矩阵和训练集类别标签系向量
        for docIndex in trainingSet:                                            # 遍历训练集
            trainMat.append(setOfWords2Vec(vocabList, docList[docIndex]))       # 将生成的词集模型添加到训练矩阵中
            trainClasses.append(classList[docIndex])                            # 将类别添加到训练集类别标签系向量中

        p0V, p1V, pSpam = trainNB0(np.array(trainMat), np.array(trainClasses))  # 训练朴素贝叶斯模型

        errorCount = 0                                                          # 错误分类计数
        for docIndex in testSet:                                                # 遍历测试集
            wordVector = setOfWords2Vec(vocabList, docList[docIndex])           # 测试集的词集模型
            if classifyNB(np.array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:    # 如果分类错误
                errorCount += 1                                                 # 错误计数加1
                print("分类错误的测试集:",docList[docIndex],end=" ")
                if classList[docIndex]:
                    print(docList[docIndex], '属于正常文件')
                else:
                    print(docList[docIndex], '属于垃圾文件')
            elif classifyNB(np.array(wordVector), p0V, p1V, pSpam):
                print(docList[docIndex], '属于垃圾文件')  # 执行分类并打印分类结果
            else:
                print(docList[docIndex], '属于正常文件')
        print('错误率:%.2f%%' % (float(errorCount) / len(testSet) * 100))
        errorrate += float(errorCount) / len(testSet) * 100
    print('10次总的错误率为:%.2f%%' % errorrate)
    print('平均错误率为:%.2f%%' % (errorrate / 10))


if __name__ == '__main__':
    spamTest()
['peter', 'the', 'hotels', 'are', 'the', 'ones', 'that', 'rent', 'out', 'the', 'tent', 'they', 'are', 'all', 'lined', 'the', 'hotel', 'grounds', 'much', 'for', 'being', 'one', 'with', 'nature', 'more', 'like', 'being', 'one', 'with', 'couple', 'dozen', 'tour', 'groups', 'and', 'nature', 'have', 'about', '100m', 'pictures', 'from', 'that', 'trip', 'can', 'through', 'them', 'and', 'get', 'you', 'jpgs', 'favorite', 'scenic', 'pictures', 'where', 'are', 'you', 'and', 'jocelyn', 'now', 'new', 'york', 'will', 'you', 'come', 'tokyo', 'for', 'chinese', 'new', 'year', 'perhaps', 'see', 'the', 'two', 'you', 'then', 'will', 'thailand', 'for', 'winter', 'holiday', 'see', 'mom', 'take', 'care'] 属于正常文件
['that', 'cold', 'there', 'going', 'retirement', 'party', 'are', 'the', 'leaves', 'changing', 'color'] 属于正常文件
['bargains', 'here', 'buy', 'phentermin', 'buy', 'genuine', 'phentermin', 'low', 'cost', 'visa', 'accepted', '130', '219', '292', '120', '366', '180', '513'] 属于垃圾文件
['percocet', '625', 'withoutprescription', 'tabs', '225', 'percocet', 'narcotic', 'analgesic', 'used', 'treat', 'moderate', 'moderately', 'severepain', 'top', 'quality', 'express', 'shipping', '100', 'safe', 'discreet', 'private', 'buy', 'cheap', 'percocet', 'online'] 属于垃圾文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe', 'the', 'proven', 'naturalpenisenhancement', 'that', 'works', '100', 'moneyback', 'guaranteeed'] 属于垃圾文件
['there', 'was', 'guy', 'the', 'gas', 'station', 'who', 'told', 'that', 'knew', 'mandarin', 'and', 'python', 'could', 'get', 'job', 'with', 'the', 'fbi'] 属于正常文件
['yay', 'you', 'both', 'doing', 'fine', 'working', 'mba', 'design', 'strategy', 'cca', 'top', 'art', 'school', 'new', 'program', 'focusing', 'more', 'right', 'brained', 'creative', 'and', 'strategic', 'approach', 'management', 'the', 'way', 'done', 'today'] 属于正常文件
['percocet', '625', 'withoutprescription', 'tabs', '225', 'percocet', 'narcotic', 'analgesic', 'used', 'treat', 'moderate', 'moderately', 'severepain', 'top', 'quality', 'express', 'shipping', '100', 'safe', 'discreet', 'private', 'buy', 'cheap', 'percocet', 'online'] 属于垃圾文件
['bargains', 'here', 'buy', 'phentermin', 'buy', 'genuine', 'phentermin', 'low', 'cost', 'visa', 'accepted', '130', '219', '292', '120', '366', '180', '513'] 属于垃圾文件
['hydrocodone', 'vicodin', 'brand', 'watson', 'vicodin', '750', '195', '120', '570', 'brand', 'watson', '750', '195', '120', '570', 'brand', 'watson', '325', '199', '120', '588', 'noprescription', 'required', 'free', 'express', 'fedex', 'days', 'delivery', 'for', 'over', '200', 'order', 'major', 'credit', 'cards', 'check'] 属于垃圾文件
错误率:0.00%
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe'] 属于垃圾文件
['thanks', 'peter', 'definitely', 'check', 'this', 'how', 'your', 'book', 'going', 'heard', 'chapter', 'came', 'and', 'was', 'good', 'shape', 'hope', 'you', 'are', 'doing', 'well', 'cheers', 'troy'] 属于正常文件
['get', 'off', 'online', 'watchesstore', 'discount', 'watches', 'for', 'all', 'famous', 'brands', 'watches', 'arolexbvlgari', 'dior', 'hermes', 'oris', 'cartier', 'and', 'more', 'brands', 'louis', 'vuitton', 'bags', 'wallets', 'gucci', 'bags', 'tiffany', 'jewerly', 'enjoy', 'full', 'year', 'warranty', 'shipment', 'via', 'reputable', 'courier', 'fedex', 'ups', 'dhl', 'and', 'ems', 'speedpost', 'you', 'will', '100', 'recieve', 'your', 'order', 'save', 'off', 'quality', 'watches'] 属于垃圾文件
['arvind', 'thirumalai', 'commented', 'your', 'status', 'arvind', 'wrote', 'you', 'know', 'reply', 'this', 'email', 'comment', 'this', 'status'] 属于正常文件
['there', 'was', 'guy', 'the', 'gas', 'station', 'who', 'told', 'that', 'knew', 'mandarin', 'and', 'python', 'could', 'get', 'job', 'with', 'the', 'fbi'] 属于正常文件
['been', 'working', 'running', 'website', 'using', 'jquery', 'and', 'the', 'jqplot', 'plugin', 'not', 'too', 'far', 'away', 'from', 'having', 'prototype', 'launch', 'you', 'used', 'jqplot', 'right', 'not', 'think', 'you', 'would', 'like'] 属于正常文件
['oem', 'adobe', 'microsoft', 'softwares', 'fast', 'order', 'and', 'download', 'microsoft', 'office', 'professional', 'plus', '2007', '2010', '129', 'microsoft', 'windows', 'ultimate', '119', 'adobe', 'photoshop', 'cs5', 'extended', 'adobe', 'acrobat', 'pro', 'extended', 'windows', 'professional', 'thousand', 'more', 'titles'] 属于垃圾文件
['get', 'off', 'online', 'watchesstore', 'discount', 'watches', 'for', 'all', 'famous', 'brands', 'watches', 'arolexbvlgari', 'dior', 'hermes', 'oris', 'cartier', 'and', 'more', 'brands', 'louis', 'vuitton', 'bags', 'wallets', 'gucci', 'bags', 'tiffany', 'jewerly', 'enjoy', 'full', 'year', 'warranty', 'shipment', 'via', 'reputable', 'courier', 'fedex', 'ups', 'dhl', 'and', 'ems', 'speedpost', 'you', 'will', '100', 'recieve', 'your', 'order'] 属于垃圾文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe', 'the', 'proven', 'naturalpenisenhancement', 'that', 'works', '100', 'moneyback', 'guaranteeed'] 属于垃圾文件
['peter', 'the', 'hotels', 'are', 'the', 'ones', 'that', 'rent', 'out', 'the', 'tent', 'they', 'are', 'all', 'lined', 'the', 'hotel', 'grounds', 'much', 'for', 'being', 'one', 'with', 'nature', 'more', 'like', 'being', 'one', 'with', 'couple', 'dozen', 'tour', 'groups', 'and', 'nature', 'have', 'about', '100m', 'pictures', 'from', 'that', 'trip', 'can', 'through', 'them', 'and', 'get', 'you', 'jpgs', 'favorite', 'scenic', 'pictures', 'where', 'are', 'you', 'and', 'jocelyn', 'now', 'new', 'york', 'will', 'you', 'come', 'tokyo', 'for', 'chinese', 'new', 'year', 'perhaps', 'see', 'the', 'two', 'you', 'then', 'will', 'thailand', 'for', 'winter', 'holiday', 'see', 'mom', 'take', 'care'] 属于正常文件
错误率:0.00%
['this', 'mail', 'was', 'sent', 'from', 'notification', 'only', 'address', 'that', 'cannot', 'accept', 'incoming', 'mail', 'please', 'not', 'reply', 'this', 'message', 'thank', 'you', 'for', 'your', 'online', 'reservation', 'the', 'store', 'you', 'selected', 'has', 'located', 'the', 'item', 'you', 'requested', 'and', 'has', 'placed', 'hold', 'your', 'name', 'please', 'note', 'that', 'all', 'items', 'are', 'held', 'for', 'day', 'please', 'note', 'store', 'prices', 'may', 'differ', 'from', 'those', 'online', 'you', 'have', 'questions', 'need', 'assistance', 'with', 'your', 'reservation', 'please', 'contact', 'the', 'store', 'the', 'phone', 'number', 'listed', 'below', 'you', 'can', 'also', 'access', 'store', 'information', 'such', 'store', 'hours', 'and', 'location', 'the', 'web', 'http', 'www', 'borders', 'com', 'online', 'store', 'storedetailview_98'] 属于正常文件
分类错误的测试集: ['home', 'based', 'business', 'opportunity', 'knocking', 'your', 'door', 'don抰', 'rude', 'and', 'let', 'this', 'chance', 'you', 'can', 'earn', 'great', 'income', 'and', 'find', 'your', 'financial', 'life', 'transformed', 'learn', 'more', 'here', 'your', 'success', 'work', 'from', 'home', 'finder', 'experts'] ['home', 'based', 'business', 'opportunity', 'knocking', 'your', 'door', 'don抰', 'rude', 'and', 'let', 'this', 'chance', 'you', 'can', 'earn', 'great', 'income', 'and', 'find', 'your', 'financial', 'life', 'transformed', 'learn', 'more', 'here', 'your', 'success', 'work', 'from', 'home', 'finder', 'experts'] 属于正常文件
['there', 'was', 'guy', 'the', 'gas', 'station', 'who', 'told', 'that', 'knew', 'mandarin', 'and', 'python', 'could', 'get', 'job', 'with', 'the', 'fbi'] 属于正常文件
['arvind', 'thirumalai', 'commented', 'your', 'status', 'arvind', 'wrote', 'you', 'know', 'reply', 'this', 'email', 'comment', 'this', 'status'] 属于正常文件
['get', 'off', 'online', 'watchesstore', 'discount', 'watches', 'for', 'all', 'famous', 'brands', 'watches', 'arolexbvlgari', 'dior', 'hermes', 'oris', 'cartier', 'and', 'more', 'brands', 'louis', 'vuitton', 'bags', 'wallets', 'gucci', 'bags', 'tiffany', 'jewerly', 'enjoy', 'full', 'year', 'warranty', 'shipment', 'via', 'reputable', 'courier', 'fedex', 'ups', 'dhl', 'and', 'ems', 'speedpost', 'you', 'will', '100', 'recieve', 'your', 'order'] 属于垃圾文件
['linkedin', 'kerry', 'haloney', 'requested', 'add', 'you', 'connection', 'linkedin', 'peter', 'like', 'add', 'you', 'professional', 'network', 'linkedin', 'kerry', 'haloney'] 属于正常文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe'] 属于垃圾文件
['that', 'cold', 'there', 'going', 'retirement', 'party', 'are', 'the', 'leaves', 'changing', 'color'] 属于正常文件
['codeine', '15mg', 'for', '203', 'visa', 'only', 'codeine', 'methylmorphine', 'narcotic', 'opioid', 'pain', 'reliever', 'have', '15mg', '30mg', 'pills', '15mg', 'for', '203', '15mg', 'for', '385', '15mg', 'for', '562', 'visa', 'only'] 属于垃圾文件
['saw', 'this', 'the', 'way', 'the', 'coast', 'thought', 'might', 'like', 'hangzhou', 'huge', 'one', 'day', 'wasn', 'enough', 'but', 'got', 'glimpse', 'went', 'inside', 'the', 'china', 'pavilion', 'expo', 'pretty', 'interesting', 'each', 'province', 'has', 'exhibit'] 属于正常文件
错误率:10.00%
['ordercializviagra', 'online', 'save', '0nline', 'pharmacy', 'noprescription', 'required', 'buy', 'canadian', 'drugs', 'wholesale', 'prices', 'and', 'save', 'fda', 'approved', 'drugs', 'superb', 'quality', 'drugs', 'only', 'accept', 'all', 'major', 'credit', 'cards'] 属于垃圾文件
['thanks', 'peter', 'definitely', 'check', 'this', 'how', 'your', 'book', 'going', 'heard', 'chapter', 'came', 'and', 'was', 'good', 'shape', 'hope', 'you', 'are', 'doing', 'well', 'cheers', 'troy'] 属于正常文件
['peter', 'sure', 'thing', 'sounds', 'good', 'let', 'know', 'what', 'time', 'would', 'good', 'for', 'you', 'will', 'come', 'prepared', 'with', 'some', 'ideas', 'and', 'can', 'from', 'there', 'regards', 'vivek'] 属于正常文件
['scifinance', 'now', 'automatically', 'generates', 'gpu', 'enabled', 'pricing', 'risk', 'model', 'source', 'code', 'that', 'runs', '300x', 'faster', 'than', 'serial', 'code', 'using', 'new', 'nvidia', 'fermi', 'class', 'tesla', 'series', 'gpu', 'scifinance', 'derivatives', 'pricing', 'and', 'risk', 'model', 'development', 'tool', 'that', 'automatically', 'generates', 'and', 'gpu', 'enabled', 'source', 'code', 'from', 'concise', 'high', 'level', 'model', 'specifications', 'parallel', 'computing', 'cuda', 'programming', 'expertise', 'required', 'scifinance', 'automatic', 'gpu', 'enabled', 'monte', 'carlo', 'pricing', 'model', 'source', 'code', 'generation', 'capabilities', 'have', 'been', 'significantly', 'extended', 'the', 'latest', 'release', 'this', 'includes'] 属于正常文件
['been', 'working', 'running', 'website', 'using', 'jquery', 'and', 'the', 'jqplot', 'plugin', 'not', 'too', 'far', 'away', 'from', 'having', 'prototype', 'launch', 'you', 'used', 'jqplot', 'right', 'not', 'think', 'you', 'would', 'like'] 属于正常文件
['bargains', 'here', 'buy', 'phentermin', 'buy', 'genuine', 'phentermin', 'low', 'cost', 'visa', 'accepted', '130', '219', '292', '120', '366', '180', '513'] 属于垃圾文件
['benoit', 'mandelbrot', '1924', '2010', 'benoit', 'mandelbrot', '1924', '2010', 'wilmott', 'team', 'benoit', 'mandelbrot', 'the', 'mathematician', 'the', 'father', 'fractal', 'mathematics', 'and', 'advocate', 'more', 'sophisticated', 'modelling', 'quantitative', 'finance', 'died', '14th', 'october', '2010', 'aged', 'wilmott', 'magazine', 'has', 'often', 'featured', 'mandelbrot', 'his', 'ideas', 'and', 'the', 'work', 'others', 'inspired', 'his', 'fundamental', 'insights', 'you', 'must', 'logged', 'view', 'these', 'articles', 'from', 'past', 'issues', 'wilmott', 'magazine'] 属于正常文件
['saw', 'this', 'the', 'way', 'the', 'coast', 'thought', 'might', 'like', 'hangzhou', 'huge', 'one', 'day', 'wasn', 'enough', 'but', 'got', 'glimpse', 'went', 'inside', 'the', 'china', 'pavilion', 'expo', 'pretty', 'interesting', 'each', 'province', 'has', 'exhibit'] 属于正常文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe', 'the', 'proven', 'naturalpenisenhancement', 'that', 'works', '100', 'moneyback', 'guaranteeed'] 属于垃圾文件
['ryan', 'whybrew', 'commented', 'your', 'status', 'ryan', 'wrote', 'turd', 'ferguson', 'butt', 'horn'] 属于正常文件
错误率:0.00%
['will', 'there', 'the', 'latest'] 属于正常文件
['thought', 'about', 'this', 'and', 'think', 'possible', 'should', 'get', 'another', 'lunch', 'have', 'car', 'now', 'and', 'could', 'come', 'pick', 'you', 'this', 'time', 'does', 'this', 'wednesday', 'work', 'can', 'have', 'signed', 'copy', 'you', 'book'] 属于正常文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe'] 属于垃圾文件
['there', 'was', 'guy', 'the', 'gas', 'station', 'who', 'told', 'that', 'knew', 'mandarin', 'and', 'python', 'could', 'get', 'job', 'with', 'the', 'fbi'] 属于正常文件
['zach', 'hamm', 'commented', 'your', 'status', 'zach', 'wrote', 'doggy', 'style', 'enough', 'said', 'thank', 'you', 'good', 'night'] 属于正常文件
['peter', 'with', 'jose', 'out', 'town', 'you', 'want', 'meet', 'once', 'while', 'keep', 'things', 'going', 'and', 'some', 'interesting', 'stuff', 'let', 'know', 'eugene'] 属于正常文件
['saw', 'this', 'the', 'way', 'the', 'coast', 'thought', 'might', 'like', 'hangzhou', 'huge', 'one', 'day', 'wasn', 'enough', 'but', 'got', 'glimpse', 'went', 'inside', 'the', 'china', 'pavilion', 'expo', 'pretty', 'interesting', 'each', 'province', 'has', 'exhibit'] 属于正常文件
['codeine', '15mg', 'for', '203', 'visa', 'only', 'codeine', 'methylmorphine', 'narcotic', 'opioid', 'pain', 'reliever', 'have', '15mg', '30mg', 'pills', '15mg', 'for', '203', '15mg', 'for', '385', '15mg', 'for', '562', 'visa', 'only'] 属于垃圾文件
['bargains', 'here', 'buy', 'phentermin', 'buy', 'genuine', 'phentermin', 'low', 'cost', 'visa', 'accepted', '130', '219', '292', '120', '366', '180', '513'] 属于垃圾文件
['buyviagra', '25mg', '50mg', '100mg', 'brandviagra', 'femaleviagra', 'from', 'per', 'pill', 'viagranoprescription', 'needed', 'from', 'certified', 'canadian', 'pharmacy', 'buy', 'here', 'accept', 'visa', 'amex', 'check', 'worldwide', 'delivery'] 属于垃圾文件
错误率:0.00%
['thought', 'about', 'this', 'and', 'think', 'possible', 'should', 'get', 'another', 'lunch', 'have', 'car', 'now', 'and', 'could', 'come', 'pick', 'you', 'this', 'time', 'does', 'this', 'wednesday', 'work', 'can', 'have', 'signed', 'copy', 'you', 'book'] 属于正常文件
分类错误的测试集: ['yay', 'you', 'both', 'doing', 'fine', 'working', 'mba', 'design', 'strategy', 'cca', 'top', 'art', 'school', 'new', 'program', 'focusing', 'more', 'right', 'brained', 'creative', 'and', 'strategic', 'approach', 'management', 'the', 'way', 'done', 'today'] ['yay', 'you', 'both', 'doing', 'fine', 'working', 'mba', 'design', 'strategy', 'cca', 'top', 'art', 'school', 'new', 'program', 'focusing', 'more', 'right', 'brained', 'creative', 'and', 'strategic', 'approach', 'management', 'the', 'way', 'done', 'today'] 属于垃圾文件
['peter', 'sure', 'thing', 'sounds', 'good', 'let', 'know', 'what', 'time', 'would', 'good', 'for', 'you', 'will', 'come', 'prepared', 'with', 'some', 'ideas', 'and', 'can', 'from', 'there', 'regards', 'vivek'] 属于正常文件
['linkedin', 'kerry', 'haloney', 'requested', 'add', 'you', 'connection', 'linkedin', 'peter', 'like', 'add', 'you', 'professional', 'network', 'linkedin', 'kerry', 'haloney'] 属于正常文件
['been', 'working', 'running', 'website', 'using', 'jquery', 'and', 'the', 'jqplot', 'plugin', 'not', 'too', 'far', 'away', 'from', 'having', 'prototype', 'launch', 'you', 'used', 'jqplot', 'right', 'not', 'think', 'you', 'would', 'like'] 属于正常文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe', 'the', 'proven', 'naturalpenisenhancement', 'that', 'works', '100', 'moneyback', 'guaranteeed'] 属于垃圾文件
['codeine', '15mg', 'for', '203', 'visa', 'only', 'codeine', 'methylmorphine', 'narcotic', 'opioid', 'pain', 'reliever', 'have', '15mg', '30mg', 'pills', '15mg', 'for', '203', '15mg', 'for', '385', '15mg', 'for', '562', 'visa', 'only'] 属于垃圾文件
分类错误的测试集: ['home', 'based', 'business', 'opportunity', 'knocking', 'your', 'door', 'don抰', 'rude', 'and', 'let', 'this', 'chance', 'you', 'can', 'earn', 'great', 'income', 'and', 'find', 'your', 'financial', 'life', 'transformed', 'learn', 'more', 'here', 'your', 'success', 'work', 'from', 'home', 'finder', 'experts'] ['home', 'based', 'business', 'opportunity', 'knocking', 'your', 'door', 'don抰', 'rude', 'and', 'let', 'this', 'chance', 'you', 'can', 'earn', 'great', 'income', 'and', 'find', 'your', 'financial', 'life', 'transformed', 'learn', 'more', 'here', 'your', 'success', 'work', 'from', 'home', 'finder', 'experts'] 属于正常文件
['hydrocodone', 'vicodin', 'brand', 'watson', 'vicodin', '750', '195', '120', '570', 'brand', 'watson', '750', '195', '120', '570', 'brand', 'watson', '325', '199', '120', '588', 'noprescription', 'required', 'free', 'express', 'fedex', 'days', 'delivery', 'for', 'over', '200', 'order', 'major', 'credit', 'cards', 'check'] 属于垃圾文件
['oem', 'adobe', 'microsoft', 'softwares', 'fast', 'order', 'and', 'download', 'microsoft', 'office', 'professional', 'plus', '2007', '2010', '129', 'microsoft', 'windows', 'ultimate', '119', 'adobe', 'photoshop', 'cs5', 'extended', 'adobe', 'acrobat', 'pro', 'extended', 'windows', 'professional', 'thousand', 'more', 'titles'] 属于垃圾文件
错误率:20.00%
['ryan', 'whybrew', 'commented', 'your', 'status', 'ryan', 'wrote', 'turd', 'ferguson', 'butt', 'horn'] 属于正常文件
['bargains', 'here', 'buy', 'phentermin', 'buy', 'genuine', 'phentermin', 'low', 'cost', 'visa', 'accepted', '130', '219', '292', '120', '366', '180', '513'] 属于垃圾文件
['peter', 'sure', 'thing', 'sounds', 'good', 'let', 'know', 'what', 'time', 'would', 'good', 'for', 'you', 'will', 'come', 'prepared', 'with', 'some', 'ideas', 'and', 'can', 'from', 'there', 'regards', 'vivek'] 属于正常文件
['oem', 'adobe', 'microsoft', 'softwares', 'fast', 'order', 'and', 'download', 'microsoft', 'office', 'professional', 'plus', '2007', '2010', '129', 'microsoft', 'windows', 'ultimate', '119', 'adobe', 'photoshop', 'cs5', 'extended', 'adobe', 'acrobat', 'pro', 'extended', 'windows', 'professional', 'thousand', 'more', 'titles'] 属于垃圾文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe'] 属于垃圾文件
['buyviagra', '25mg', '50mg', '100mg', 'brandviagra', 'femaleviagra', 'from', 'per', 'pill', 'viagranoprescription', 'needed', 'from', 'certified', 'canadian', 'pharmacy', 'buy', 'here', 'accept', 'visa', 'amex', 'check', 'worldwide', 'delivery'] 属于垃圾文件
['codeine', '15mg', 'for', '203', 'visa', 'only', 'codeine', 'methylmorphine', 'narcotic', 'opioid', 'pain', 'reliever', 'have', '15mg', '30mg', 'pills', '15mg', 'for', '203', '15mg', 'for', '385', '15mg', 'for', '562', 'visa', 'only'] 属于垃圾文件
['buy', 'ambiem', 'zolpidem', '5mg', '10mg', 'pill', 'pills', '129', 'pills', '199', '180', 'pills', '430', 'pills', '138', '120', 'pills', '322'] 属于垃圾文件
['ordercializviagra', 'online', 'save', '0nline', 'pharmacy', 'noprescription', 'required', 'buy', 'canadian', 'drugs', 'wholesale', 'prices', 'and', 'save', 'fda', 'approved', 'drugs', 'superb', 'quality', 'drugs', 'only', 'accept', 'all', 'major', 'credit', 'cards'] 属于垃圾文件
['peter', 'these', 'are', 'the', 'only', 'good', 'scenic', 'ones', 'and', 'too', 'bad', 'there', 'was', 'girl', 'back', 'one', 'them', 'just', 'try', 'enjoy', 'the', 'blue', 'sky'] 属于正常文件
错误率:0.00%
['codeine', 'the', 'most', 'competitive', 'price', 'net', 'codeine', 'wilson', '30mg', '156', 'codeine', 'wilson', '30mg', '291', 'freeviagra', 'pills', 'codeine', 'wilson', '30mg', '396', 'freeviagra', 'pills', 'codeine', 'wilson', '30mg', '120', '492', 'freeviagra', 'pills'] 属于垃圾文件
分类错误的测试集: ['home', 'based', 'business', 'opportunity', 'knocking', 'your', 'door', 'don抰', 'rude', 'and', 'let', 'this', 'chance', 'you', 'can', 'earn', 'great', 'income', 'and', 'find', 'your', 'financial', 'life', 'transformed', 'learn', 'more', 'here', 'your', 'success', 'work', 'from', 'home', 'finder', 'experts'] ['home', 'based', 'business', 'opportunity', 'knocking', 'your', 'door', 'don抰', 'rude', 'and', 'let', 'this', 'chance', 'you', 'can', 'earn', 'great', 'income', 'and', 'find', 'your', 'financial', 'life', 'transformed', 'learn', 'more', 'here', 'your', 'success', 'work', 'from', 'home', 'finder', 'experts'] 属于正常文件
['scifinance', 'now', 'automatically', 'generates', 'gpu', 'enabled', 'pricing', 'risk', 'model', 'source', 'code', 'that', 'runs', '300x', 'faster', 'than', 'serial', 'code', 'using', 'new', 'nvidia', 'fermi', 'class', 'tesla', 'series', 'gpu', 'scifinance', 'derivatives', 'pricing', 'and', 'risk', 'model', 'development', 'tool', 'that', 'automatically', 'generates', 'and', 'gpu', 'enabled', 'source', 'code', 'from', 'concise', 'high', 'level', 'model', 'specifications', 'parallel', 'computing', 'cuda', 'programming', 'expertise', 'required', 'scifinance', 'automatic', 'gpu', 'enabled', 'monte', 'carlo', 'pricing', 'model', 'source', 'code', 'generation', 'capabilities', 'have', 'been', 'significantly', 'extended', 'the', 'latest', 'release', 'this', 'includes'] 属于正常文件
['peter', 'sure', 'thing', 'sounds', 'good', 'let', 'know', 'what', 'time', 'would', 'good', 'for', 'you', 'will', 'come', 'prepared', 'with', 'some', 'ideas', 'and', 'can', 'from', 'there', 'regards', 'vivek'] 属于正常文件
['ryan', 'whybrew', 'commented', 'your', 'status', 'ryan', 'wrote', 'turd', 'ferguson', 'butt', 'horn'] 属于正常文件
['there', 'was', 'guy', 'the', 'gas', 'station', 'who', 'told', 'that', 'knew', 'mandarin', 'and', 'python', 'could', 'get', 'job', 'with', 'the', 'fbi'] 属于正常文件
['thought', 'about', 'this', 'and', 'think', 'possible', 'should', 'get', 'another', 'lunch', 'have', 'car', 'now', 'and', 'could', 'come', 'pick', 'you', 'this', 'time', 'does', 'this', 'wednesday', 'work', 'can', 'have', 'signed', 'copy', 'you', 'book'] 属于正常文件
['peter', 'these', 'are', 'the', 'only', 'good', 'scenic', 'ones', 'and', 'too', 'bad', 'there', 'was', 'girl', 'back', 'one', 'them', 'just', 'try', 'enjoy', 'the', 'blue', 'sky'] 属于正常文件
['that', 'cold', 'there', 'going', 'retirement', 'party', 'are', 'the', 'leaves', 'changing', 'color'] 属于正常文件
['percocet', '625', 'withoutprescription', 'tabs', '225', 'percocet', 'narcotic', 'analgesic', 'used', 'treat', 'moderate', 'moderately', 'severepain', 'top', 'quality', 'express', 'shipping', '100', 'safe', 'discreet', 'private', 'buy', 'cheap', 'percocet', 'online'] 属于垃圾文件
错误率:10.00%
['what', 'going', 'there', 'talked', 'john', 'email', 'talked', 'about', 'some', 'computer', 'stuff', 'that', 'went', 'bike', 'riding', 'the', 'rain', 'was', 'not', 'that', 'cold', 'went', 'the', 'museum', 'yesterday', 'was', 'get', 'and', 'they', 'had', 'free', 'food', 'the', 'same', 'time', 'was', 'giants', 'game', 'when', 'got', 'done', 'had', 'take', 'the', 'train', 'with', 'all', 'the', 'giants', 'fans', 'they', 'are', 'drunk'] 属于正常文件
分类错误的测试集: ['yay', 'you', 'both', 'doing', 'fine', 'working', 'mba', 'design', 'strategy', 'cca', 'top', 'art', 'school', 'new', 'program', 'focusing', 'more', 'right', 'brained', 'creative', 'and', 'strategic', 'approach', 'management', 'the', 'way', 'done', 'today'] ['yay', 'you', 'both', 'doing', 'fine', 'working', 'mba', 'design', 'strategy', 'cca', 'top', 'art', 'school', 'new', 'program', 'focusing', 'more', 'right', 'brained', 'creative', 'and', 'strategic', 'approach', 'management', 'the', 'way', 'done', 'today'] 属于垃圾文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe'] 属于垃圾文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe'] 属于垃圾文件
['arvind', 'thirumalai', 'commented', 'your', 'status', 'arvind', 'wrote', 'you', 'know', 'reply', 'this', 'email', 'comment', 'this', 'status'] 属于正常文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe', 'the', 'proven', 'naturalpenisenhancement', 'that', 'works', '100', 'moneyback', 'guaranteeed'] 属于垃圾文件
['ordercializviagra', 'online', 'save', '0nline', 'pharmacy', 'noprescription', 'required', 'buy', 'canadian', 'drugs', 'wholesale', 'prices', 'and', 'save', 'fda', 'approved', 'drugs', 'superb', 'quality', 'drugs', 'only', 'accept', 'all', 'major', 'credit', 'cards'] 属于垃圾文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe', 'the', 'proven', 'naturalpenisenhancement', 'that', 'works', '100', 'moneyback', 'guaranteeed'] 属于垃圾文件
['get', 'off', 'online', 'watchesstore', 'discount', 'watches', 'for', 'all', 'famous', 'brands', 'watches', 'arolexbvlgari', 'dior', 'hermes', 'oris', 'cartier', 'and', 'more', 'brands', 'louis', 'vuitton', 'bags', 'wallets', 'gucci', 'bags', 'tiffany', 'jewerly', 'enjoy', 'full', 'year', 'warranty', 'shipment', 'via', 'reputable', 'courier', 'fedex', 'ups', 'dhl', 'and', 'ems', 'speedpost', 'you', 'will', '100', 'recieve', 'your', 'order'] 属于垃圾文件
['get', 'off', 'online', 'watchesstore', 'discount', 'watches', 'for', 'all', 'famous', 'brands', 'watches', 'arolexbvlgari', 'dior', 'hermes', 'oris', 'cartier', 'and', 'more', 'brands', 'louis', 'vuitton', 'bags', 'wallets', 'gucci', 'bags', 'tiffany', 'jewerly', 'enjoy', 'full', 'year', 'warranty', 'shipment', 'via', 'reputable', 'courier', 'fedex', 'ups', 'dhl', 'and', 'ems', 'speedpost', 'you', 'will', '100', 'recieve', 'your', 'order'] 属于垃圾文件
错误率:10.00%
['peter', 'the', 'hotels', 'are', 'the', 'ones', 'that', 'rent', 'out', 'the', 'tent', 'they', 'are', 'all', 'lined', 'the', 'hotel', 'grounds', 'much', 'for', 'being', 'one', 'with', 'nature', 'more', 'like', 'being', 'one', 'with', 'couple', 'dozen', 'tour', 'groups', 'and', 'nature', 'have', 'about', '100m', 'pictures', 'from', 'that', 'trip', 'can', 'through', 'them', 'and', 'get', 'you', 'jpgs', 'favorite', 'scenic', 'pictures', 'where', 'are', 'you', 'and', 'jocelyn', 'now', 'new', 'york', 'will', 'you', 'come', 'tokyo', 'for', 'chinese', 'new', 'year', 'perhaps', 'see', 'the', 'two', 'you', 'then', 'will', 'thailand', 'for', 'winter', 'holiday', 'see', 'mom', 'take', 'care'] 属于正常文件
['ryan', 'whybrew', 'commented', 'your', 'status', 'ryan', 'wrote', 'turd', 'ferguson', 'butt', 'horn'] 属于正常文件
['ordercializviagra', 'online', 'save', '0nline', 'pharmacy', 'noprescription', 'required', 'buy', 'canadian', 'drugs', 'wholesale', 'prices', 'and', 'save', 'fda', 'approved', 'drugs', 'superb', 'quality', 'drugs', 'only', 'accept', 'all', 'major', 'credit', 'cards', 'order', 'today', 'from'] 属于垃圾文件
['get', 'off', 'online', 'watchesstore', 'discount', 'watches', 'for', 'all', 'famous', 'brands', 'watches', 'arolexbvlgari', 'dior', 'hermes', 'oris', 'cartier', 'and', 'more', 'brands', 'louis', 'vuitton', 'bags', 'wallets', 'gucci', 'bags', 'tiffany', 'jewerly', 'enjoy', 'full', 'year', 'warranty', 'shipment', 'via', 'reputable', 'courier', 'fedex', 'ups', 'dhl', 'and', 'ems', 'speedpost', 'you', 'will', '100', 'recieve', 'your', 'order'] 属于垃圾文件
['you', 'have', 'everything', 'gain', 'incredib1e', 'gains', 'length', 'inches', 'yourpenis', 'permanantly', 'amazing', 'increase', 'thickness', 'yourpenis', 'betterejacu1ation', 'control', 'experience', 'rock', 'harderecetions', 'explosive', 'intenseorgasns', 'increase', 'volume', 'ofejacu1ate', 'doctor', 'designed', 'and', 'endorsed', '100', 'herbal', '100', 'natural', '100', 'safe'] 属于垃圾文件
['thanks', 'peter', 'definitely', 'check', 'this', 'how', 'your', 'book', 'going', 'heard', 'chapter', 'came', 'and', 'was', 'good', 'shape', 'hope', 'you', 'are', 'doing', 'well', 'cheers', 'troy'] 属于正常文件
['get', 'off', 'online', 'watchesstore', 'discount', 'watches', 'for', 'all', 'famous', 'brands', 'watches', 'arolexbvlgari', 'dior', 'hermes', 'oris', 'cartier', 'and', 'more', 'brands', 'louis', 'vuitton', 'bags', 'wallets', 'gucci', 'bags', 'tiffany', 'jewerly', 'enjoy', 'full', 'year', 'warranty', 'shipment', 'via', 'reputable', 'courier', 'fedex', 'ups', 'dhl', 'and', 'ems', 'speedpost', 'you', 'will', '100', 'recieve', 'your', 'order', 'save', 'off', 'quality', 'watches'] 属于垃圾文件
['yay', 'you', 'both', 'doing', 'fine', 'working', 'mba', 'design', 'strategy', 'cca', 'top', 'art', 'school', 'new', 'program', 'focusing', 'more', 'right', 'brained', 'creative', 'and', 'strategic', 'approach', 'management', 'the', 'way', 'done', 'today'] 属于正常文件
['there', 'was', 'guy', 'the', 'gas', 'station', 'who', 'told', 'that', 'knew', 'mandarin', 'and', 'python', 'could', 'get', 'job', 'with', 'the', 'fbi'] 属于正常文件
['hommies', 'just', 'got', 'phone', 'call', 'from', 'the', 'roofer', 'they', 'will', 'come', 'and', 'spaying', 'the', 'foaming', 'today', 'will', 'dusty', 'pls', 'close', 'all', 'the', 'doors', 'and', 'windows', 'could', 'you', 'help', 'close', 'bathroom', 'window', 'cat', 'window', 'and', 'the', 'sliding', 'door', 'behind', 'the', 'don', 'know', 'how', 'can', 'those', 'cats', 'survive', 'sorry', 'for', 'any', 'inconvenience'] 属于正常文件
错误率:0.00%
10次总的错误率为:50.00%
平均错误率为:5.00%

实战四 新闻分类

数据集参考文末链接

from sklearn.naive_bayes import MultinomialNB
import matplotlib.pyplot as plt
import os
import random
import jieba


def TextProcessing(folder_path, test_size=0.2):
    folder_list = os.listdir(folder_path)                  # 查看folder_path下的文件
    data_list = []  # 数据集数据
    class_list = []  # 数据集类别

    # 遍历每个子文件夹
    for folder in folder_list:
        new_folder_path = os.path.join(folder_path, folder)    # 根据子文件夹,生成新的路径
        files = os.listdir(new_folder_path)                    # 存放子文件夹下的txt文件的列表

        j = 1
        for file in files:   # 遍历每个txt文件
            if j > 100:      # 每类txt样本数最多100个
                break
            with open(os.path.join(new_folder_path, file), 'r', encoding='utf-8') as f:    # 打开txt文件
                raw = f.read()

            word_cut = jieba.cut(raw, cut_all=False)      # 精简模式,返回一个可迭代的generator
            word_list = list(word_cut)                    # generator转换为list

            data_list.append(word_list)             # 添加数据集数据
            class_list.append(folder)               # 添加数据集类别
            j += 1

    data_class_list = list(zip(data_list, class_list))   # zip压缩合并,将数据与标签对应压缩
    random.shuffle(data_class_list)                   # 将data_class_list乱序
    index = int(len(data_class_list) * test_size) + 1  # 训练集和测试集切分的索引值
    train_list = data_class_list[index:]        # 训练集
    test_list = data_class_list[:index]           # 测试集
    train_data_list, train_class_list = zip(*train_list)    # 训练集解压缩
    test_data_list, test_class_list = zip(*test_list)     # 测试集解压缩

    all_words_dict = {}                # 统计训练集词频,建立一个空字典,键值对
    for word_list in train_data_list:     # 遍历每个列表
        for word in word_list:              # 遍历每个单词
             if word in all_words_dict.keys():
                all_words_dict[word] += 1
             else:
                all_words_dict[word] = 1
    # 根据键的值倒序排序
    all_words_tuple_list = sorted(all_words_dict.items(), key=lambda f: f[1], reverse=True)   # sorted返回的是一个新的列表
    all_words_list, all_words_nums = zip(*all_words_tuple_list)  # 解压缩
    all_words_list = list(all_words_list)  # 转换成列表
    return all_words_list, train_data_list, test_data_list, train_class_list, test_class_list   # 训练词汇表,训练集,测试集,训练标签,测试标签


def MakeWordsSet(words_file):
    words_set = set()      # 创建set集合
    with open(words_file, 'r', encoding='utf-8') as f:  # 打开文件
        for line in f.readlines():  # 一行一行读取
            word = line.strip()  # 去回车
            if len(word) > 0:  # 有文本,则添加到words_set中
                words_set.add(word)
    return words_set  # 返回处理结果


def words_dict(all_words_list, deleteN, stopwords_set):
    feature_words = []  # 特征列表
    n = 1
    for t in range(deleteN, len(all_words_list), 1):
        if n > 1000:  # feature_words的维度为1000
            break
        # 如果这个词不是数字,并且不是指定的结束语,并且单词长度大于1小于5,那么这个词就可以作为特征词
        if not all_words_list[t].isdigit() and all_words_list[t] not in stopwords_set and 1 < len(all_words_list[t]) < 5:
            feature_words.append(all_words_list[t])
        n += 1
    return feature_words


# 根据feature_words将文本向量化
def TextFeatures(train_data_list, test_data_list, feature_words):
    def text_features(text, feature_words):  # 出现在特征集中,则置1
        text_words = set(text)                     # 首先对text去重,没有重复的值,作为词汇表
        features = [1 if word in text_words else 0 for word in feature_words]
        return features

    train_feature_list = [text_features(text, feature_words) for text in train_data_list]
    test_feature_list = [text_features(text, feature_words) for text in test_data_list]
    return train_feature_list, test_feature_list  # 训练集,测试集向量化


# 新闻分类器
def TextClassifier(train_feature_list, test_feature_list, train_class_list, test_class_list):
    classifier = MultinomialNB().fit(train_feature_list, train_class_list)
    test_accuracy = classifier.score(test_feature_list, test_class_list)
    return test_accuracy

if __name__ == '__main__':
    # 文本预处理
    folder_path = './SogouC/Sample'  # 训练集存放地址
    all_words_list, train_data_list, test_data_list, train_class_list, test_class_list = TextProcessing(folder_path)
    # 生成stopwords_set
    stopwords_file = './stopwords_cn.txt'
    stopwords_set = MakeWordsSet(stopwords_file)

    test_accuracy_list = []
    '''
    deleteNs = range(0, 1000, 20)  # 0 20 40 60 ... 980
    for deleteN in deleteNs:
        feature_words = words_dict(all_words_list, deleteN, stopwords_set)
        train_feature_list, test_feature_list = TextFeatures(train_data_list, test_data_list, feature_words)
        test_accuracy = TextClassifier(train_feature_list, test_feature_list, train_class_list, test_class_list)
        test_accuracy_list.append(test_accuracy)

    plt.figure()
    plt.plot(deleteNs, test_accuracy_list)
    plt.title('Relationship of deleteNs and test_accuracy')
    plt.xlabel('deleteNs')
    plt.ylabel('test_accuracy')
    plt.show()
    '''

    feature_words = words_dict(all_words_list, 450, stopwords_set)
    train_feature_list, test_feature_list = TextFeatures(train_data_list, test_data_list, feature_words)
    test_accuracy = TextClassifier(train_feature_list, test_feature_list, train_class_list, test_class_list)
    test_accuracy_list.append(test_accuracy)
    ave = lambda c: sum(c) / len(c)
    print(ave(test_accuracy_list))

    clt = MultinomialNB()
    clt.fit(train_feature_list, train_class_list)
    final_class_list = list(zip(test_data_list, clt.predict(test_feature_list)))  # zip压缩合并,将测试数据与标签对应压缩
    for each in final_class_list:
        print(each)
0.5789473684210527
(['\u3000', '\u3000', '20', '位', '网友', '领到', '免费', '回家', '机票', '\n', '\u3000', '\u3000', '自从', 'Qunar', '与', '搜狐', '、', '天益游', '网站', '合办', '“', '夺宝奇兵', '”', '的', '活动', '以来', ',', '已经', '有', '好多', '人中', '得', '免费', '机票', ',', '其中', '有', '二十位', '已经', '定', '好', '回家', '的', '机票', ',', '时间', '就', '在', '临近', '春节', '之前', '。', '为了', '让', '大家', '能够', '轻松愉快', '的', '领到', '机票', ',', 'Qunar', '和', '天益游', '决定', '把', '领票', '地点', '放在', '咖啡店', ',', '让', '大家', '既', '可', '领到', '免费', '机票', ',', '又', '可以', '享受', '到', '咖啡', '的', '浓香', ',', '让', '活动', '至始', '至', '终有', '个', '完美', '的', '诠释', '。', '\n', '\u3000', '\u3000', '上周五', '晚上', '六点', '多', '钟', ',', '中奖人', '陆陆续续', '来到', '领奖', '现场', ',', '在', 'Qunar', '几个', '工作人员', '的', '组织', '下', ',', '由', '去', '哪儿', '旅游', '搜索引擎', '合伙人', '庄臣', '超', '和', '天益游', '总经理', '谭', '治国', '把', '机票', '发到', '每位', '中奖人', '手中', '。', '先来', '的', '惊诧', ',', '后来', '的', '惊讶', ',', '大家', '都', '没想到', '有', '这么', '多中', '得', '大奖', '的', '人', '可以', '拿到', '年前', '的', '免费', '机票', '。', '其中', '有', '好几位', '家离', '北京', '都', '很', '远', ',', '家', '在', '贵阳', '、', '兰州', '、', '重庆', '、', '广州', '的', '都', '有', ',', '每次', '都', '挺', '害怕', '过年', ',', '而', '今年', '他们', '不再', '为此', '而', '担心', '了', '。', '当', '大家', '听到', '还有', '到', '机场', '的', '免费', '接送', '时', ',', '不由得', '发出', '欢乐', '的', '笑声', '。', '\n', '\u3000', '\u3000', '活动', '很快', '结束', '了', ',', '大家', '留下', '合影', ',', '也', '回去', '了', '。', '对', '某些', '人', '来说', '这', '一刻', '已经', '在', '记忆', '中', '消失', ',', '而', '对于', '某些', '人', '来说', ',', '这', '一刻', '刻骨铭心', '!'], 'C000022')
(['\u3000', '\u3000', '关键字', ':', '裁员', '\u3000', '美国在线', '\u3000', '呼叫', '中心', '\n', '\u3000', '\u3000', '标题', ':', '美国在线', '计划', '裁员', '1300', '人', '占', '全球', '员工', '总数', '7%', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '10', '时', '30', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '英文', '雅虎', '\n', '\u3000', '\u3000', '内容摘要', ':', '美国在线', '计划', '裁员', '1300', '人', ',', '约', '占', '其', '全球', '员工', '总数', '的', '7%', ',', '位于', '费罗', '里', '达州', '杰克逊', '维尔', '呼叫', '中心', '将', '被', '关闭', ',', '此外', ',', '位于', '犹他州', '奥格登', '美国', '亚利桑那州', '图森', '的', '呼叫', '中心', '也', '被', '列入', '此次', '裁员', '的', '范围', '。', '这', '是', '自', '去年', '秋天', '美国在线', '裁员', '700', '人', '以来', '最', '大规模', '的', '一次', '人员', '精简', '行动', '。', '去年', '10', '月份', ',', '面对', '拨号上网', '用户数量', '持续', '下跌', ',', '美国在线', '关闭', '奥兰多', '的', '呼叫', '中心', ',', '位于', '杰克逊', '维尔和', '总部', '杜勒斯', '的', '呼叫', '中心', '有', '部分', '职位', '被', '削减', ',', '总共', '裁员', '700', '人', ',', '约', '占', '其', '全球', '员工', '总数', '的', '4%', ',', '尽管', '美国在线', '的', '用户', '流失', '现象', '严重', ',', '但', '该', '公司', '的', '发言人', '尼古拉斯', '-', '格', '拉汉姆', '将', '这', '一', '结果', '归咎于', '用户', '对', '电脑', '的', '日益', '了解', '以及', '更', '多', '工具', '的', '出现', ',', '他', '表示', ':', '“', '与', '1996', '年', '美国在线', '建立', '会员中心', '相比', ',', '2006', '年', '的', '英特网', '世界', '是', '一个', '完全', '不同', '的', '世界', ',', '美国在线', '的', '会员', '们', '头脑', '更加', '灵活', ',', '具备', '更加', '丰富', '的', '电脑知识', ',', '他们', '几乎', '都', '是', '电脑', '通', ',', '一般', '的', '故障', '都', '能', '自己', '排除', ',', '呼叫', '中心', '的', '功能', '日趋', '减弱', '。', '”', '一项', '数据', '显示', ',', '自', '2004', '年', '以来', ',', '美国在线', '的', '呼叫', '量', '下降', '了', '近一半', '。', '\n', '\u3000', '\u3000', '关键字', ':', '手机', '销售', '\u3000', '排名', '\u3000', '瑞典', '\n', '\u3000', '\u3000', '标题', ':', '4', '月份', 'Telia', '商店', '手机', '销售', '排名', '前', '10', '位', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '11', '时', '35', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '法新社', '\n', '\u3000', '\u3000', '内容摘要', ':', '瑞典', '最大', '的', '通信', '产品', '零售店', 'Telia', '今天', '公布', '2006', '年', '4', '月份', '手机', '销售', '排行榜', ',', '进入', '销售', '前十', '的', '手机', '中索', '爱', '占', '5', '款', ',', '诺基亚', '占', '3', '款', ',', '三星', '占', '2', '款', ',', '其中', '有', '两款', '是', '3G', '手机', '(', '诺基亚', '6280', '和', '三星', 'Z140', ')', ',', '六款', '有', '照相', '功能', ',', '六款', '有', 'MP3', '播放', '功能', ',', '具体', '的', '排名', '为', ':', '排名', '前', '十位', '的', '手机', '为', ':', '(', '1', ')', '索爱', 'K750i', '(', '上', '月', '排名', '第四', ')', '、', '(', '2', ')', '诺基亚', '3120', '(', '上', '月', '排名', '第三', ')', '、', '(', '3', ')', '诺基亚', '5140i', '(', '上', '月', '排名', '第一', ')', '、', '(', '4', ')', '索爱', 'Z300i', '(', '上', '月', '排名', '第五', ')', '、', '(', '5', ')', '诺基亚', '6280', '(', '与', '上', '月', '的', '排名', '一致', ')', '、', '(', '6', ')', '索爱', 'W810i', '(', '与', '上', '月', '的', '排名', '一致', ')', '、', '(', '7', ')', '三星', 'X660', '(', '与', '上', '月', '的', '排名', '一致', ')', '、', '(', '8', ')', '索爱', 'Z520i', '(', '上', '月', '排名', '第二', ')', '、', '(', '9', ')', '索爱', 'W800i', '(', '上', '月', '排名', '第六', ')', '、', '(', '10', ')', '三星', 'Z140', '(', '上', '月', '排名', '第九', ')', '。', 'Telia', '是', '瑞典', '最大', '的', '移动电话', '零售店', ',', '拥有', '78', '个', '商店', ',', '该', '排名', '就是', '依据', '各', '商店', '的', '销售', '数据', '得出', '的', '结果', ',', 'Telia', '市场部', '的', '负责人', '指出', ',', '“', '照相', '以及', 'MP3', '播放', '功能', '已经', '成为', '许多', '客户', '对', '手机', '的', '基本', '要求', ',', '手机用户', '对于', '移动', '电视', '的', '需求', '也', '在', '不断', '增加', '。', '”', '\n', '\u3000', '\u3000', '关键字', ':', '业内', '合作', '\u3000', '下载', '\u3000', '电视', '连续剧', '\n', '\u3000', '\u3000', '标题', ':', '苹果公司', '提供', '福克斯', '娱乐', '集团', '出品', '的', '电视', '连续剧', '的', '下载', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '11', '时', '20', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '英文', '雅虎', '\n', '\u3000', '\u3000', '内容摘要', ':', '苹果公司', '日前', '宣布', ',', 'iTunes', '音乐', '商店', '(', 'Music', ' ', 'Store', ')', '已经', '开始', '销售', '福克斯', '娱乐', '集团', '出品', '的', '电视', '连续剧', ',', '例如', '此前', '风靡', '全球', '的', '《', '24', '》', '。', '苹果公司', '介绍', '称', ',', '每部', '电视', '连续剧', '的', '下载', '费用', '为', '1.99', '美元', ',', '除了', '《', '24', '》', '之外', ',', '《', '盾牌', '》', '、', '《', '越狱', '》', '、', '《', '吸血鬼', '猎人', '巴菲', '》', '也', '在', '下载', '之', '列', '。', '此前', ',', 'iTunes', '音乐', '商店', '提供', '来自', 'ABC', '、', 'CBS', '以及', 'NBC', '的', '节目', '下载', '服务', '。', '\n', '\u3000', '\u3000', '关键字', ':', '民意测验', '\u3000', '电子游戏', '\u3000', '美国', '\n', '\u3000', '\u3000', '标题', ':', '40%', '美国', '成年', '男子', '玩', '电子游戏', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '10', '时', '20', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '英文', '雅虎', '\n', '\u3000', '\u3000', '内容摘要', ':', '美联社', '与', '美国在线', '近期', '开展', '的', '一项', '民意测验', '显示', ',', '十个', '成年', '美国', '男人', '当中', '有四人', '通过', '电脑', '或者', '游戏机', '玩', '电子游戏', ',', '其中', '有', '45%', '的', '人', '通过', '因特网', '玩', '电子游戏', ',', '多于', '三分之一', '的', '人', '2005', '年', '花费', '在', '网络游戏', '上', '的', '资金', '达到', '两百', '美元', ',', '42%', '的', '人', '每周', '玩', '电子游戏', '的', '时间', '超过', '了', '四个', '小时', ',', '26%', '的', '人', '通过', '游戏机', '玩', '电子游戏', ',', '六分之一', '的', '人', '每周', '在线', '玩游戏', '的', '时间', '为', '十个', '小时', '。', '关于', '游戏', '的', '内容', ',', '战略', '游戏', '最', '受欢迎', ',', '其次', '为', '体育', '游戏', ',', '冒险游戏', '还有', '射击', '游戏', '以及', '仿真', '游戏', '。', '\n', '\u3000', '\u3000', '关键字', ':', '打击', '盗版', '\u3000', '下载', '\u3000', '华纳', '兄弟', '\n', '\u3000', '\u3000', '标题', ':', '华纳', '兄弟', '计划', '通过', 'BitTorrent', '提供', '影片', '下载', '服务', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '11', '时', '55', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '英文', '雅虎', '\n', '\u3000', '\u3000', '内容摘要', ':', '美国', '娱乐业', '巨头', '华纳', '兄弟', '公司', '(', 'Warner', ' ', 'Brothers', ')', '将', '成为', '第一家', '向', 'BitTorrent', '用户', '提供', '电影', '内容', '下载', '服务', '的', '公司', ',', '该', '公司', '希望', '通过', '此举', '打击', '盗版', '行为', '。', '华纳', '兄弟', '家庭', '娱乐', '公司总裁', 'Tsujihara', '表示', ':', '“', '盗版', '的', '问题', '变得', '越来越', '严重', ',', '我们', '的', '这种', '作法', '是', '将', '这', '一', '问题', '变成', '一种', '机会', ',', '如果', '我们', '能够', '将', '5%', ',', '10%', '甚至', '是', '15%', '的', '这些', '用户', '转化成', '合法', '的', '用户', ',', '其', '影响力', '将会', '十分', '的', '重大', '。', '”', '华纳', '兄弟', '公司', '指出', ',', '用户', '可以', '租用', '或者', '下载', '那些', '可以', '被', '制作', '成', 'DVD', '的', '拷贝', ',', '但是', '此项', '服务', '推出', '日期', '以及', '具体', '的', '定价', '目前', '还', '不得而知', '。', '此前', ',', '华纳', '兄弟', '准备', '将', '电影', '如', '《', '蝙蝠侠', '》', '、', '电视', '连续剧', '《', '玩酷', '世代', '》', '等', '影片', '通过', 'P2P', '网络', '在', '网路上', '销售', '。', '该', '公司', '一', '负责人', '指出', ',', '成功', '打败', '目前', '线上', '剽窃', '行为', '最', '有效', '的', '武器', '之一', '就是', '向', '用户', '提供', '合法', '且', '容易', '使用', '的', '替代性', '选择', '。', 'In2Movies', '服务', '使', '观众', '能够', '合法', '下载', '华纳', '旗下', '百视', '达', '的', '电影', '、', '地区性', '节目', '。', '\n', '\u3000', '\u3000', '关键字', ':', '业绩', '\u3000', '荷兰', '电讯', '公司', '\u3000', '净收入', '\n', '\u3000', '\u3000', '标题', ':', '荷兰', '电讯', '公司', 'Royal', ' ', 'KPN', ' ', 'NV', '周二', '表示', '其', '第一季度', '净收入', '达到', '3.83', '亿美元', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '11', '时', '20', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '道琼斯', '新闻', '\n', '\u3000', '\u3000', '内容摘要', ':', '荷兰', '电讯', '公司', 'Royal', ' ', 'KPN', ' ', 'NV', '周二', '表示', '其', '第一季度', '净收入', '达到', '3.83', '亿美元', ',', '比', '去年同期', '的', '2.74', '亿美元', '增长', '了', '40%', ',', '销售收入', '也', '达到', '了', '37.2', '亿美元', '。', '在', '固定', '电话', '部门', '收入', '下降', '2.3%', '达到', '21.4', '亿美元', '的', '情况', '下', ',', '移动', '收入', '增长', '了', '15%', ',', '达到', '了', '19', '亿美元', '。', '此外', ',', '该', '公司', '在', '德国', '新', '增加', '用户', '70', '万', '。', '\n', '\u3000', '\u3000', '关键字', ':', '新举措', '\u3000', '漫游费', '\u3000', '沃达丰', '\n', '\u3000', '\u3000', '标题', ':', '沃达丰', '表示', '将', '在', '明年', '降低', '手机', '漫游', '资费', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '10', '时', '25', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '道琼斯', '新闻', '\n', '\u3000', '\u3000', '内容摘要', ':', '迫于', '欧洲委员会', '的', '压力', ',', '英国', '电信', '巨头', '沃达丰公司', '(', 'Vodafone', ')', '近日', '表示', '将', '在', '明年', '降低', '手机', '漫游', '资费', ',', '其', '低价', '幅度', '将', '达到', '40%', '。', '欧洲委员会', '此前', '的', '建议', '称', ',', '当', '欧洲', '用户', '出国', '后', ',', '他们', '不', '应该', '被', '收取', '漫游费', ',', '不能', '因为', '他们', '出国', '旅行', '而', '缴纳', '更', '高', '的', '费用', '。', '\n', '\u3000', '\u3000', '关键字', ':', '新', '产品', '\u3000', '超薄', '手机', '\u3000', '三星', '\n', '\u3000', '\u3000', '标题', ':', '三星公司', '在', '莫斯科', '电信展', '推出', '两款', '超薄', '手机', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '10', '时', '40', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '英文', '雅虎', '\n', '\u3000', '\u3000', '内容摘要', ':', '在', '莫斯科', '的', 'Sviaz', ' ', 'ExpoComm', ' ', '2006', '电信展', '上', ',', '三星公司', '推出', '两款', '超薄', '手机', ',', '其中', '一款', '为', 'SGH', '-', 'X820', ',', '厚', '6.9', '毫米', ',', '重', '66', '克', ',', '内置', '200', '万', '像素', '摄像头', '和', 'MP3', '播放器', ',', '容量', '80MB', ',', '支持', '视频', '录制', '、', '蓝牙', '和', '电视', '输出', '。', '另外', '一款', '为', '滑盖式', '手机', 'SGH', '-', 'D900', ',', '厚度', '及', '重量', '比', 'SGH', '-', 'X820', '稍大', '一些', ',', '内置', '300', '万', '像素', '摄像头', ',', '支持', 'Quad', '-', 'band', ' ', 'GSM', '网络', ',', '但', '三星公司', '并', '没有', '透露', '这', '两款', '手机', '的', '价格', '。', '\n', '\u3000', '\u3000', '关键字', ':', '服务', ' ', '高清晰', ' ', '数字', '广播', '\n', '\u3000', '\u3000', '标题', ':', '英国广播公司', '(', 'BBC', ')', '首次', '推出', '免费', '的', '数字', '广播', '服务', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '7', '时', '10', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '路透社', '\n', '\u3000', '\u3000', '内容摘要', ':', '英国广播公司', '(', 'BBC', ')', '本周', '内', '首次', '推出', '了', '使用', '电视', '格式', '的', '高清晰', '数字', '广播', ',', '这项', '服务', '将', '进行', '为期', '一年', '的', '试验', '。', '根据', '此前', '英国广播公司', '所作', '的', '调查', '显示', ',', '了解', '高清晰', '数字', '广播', '的', '听众', '都', '期待', '着', 'BBC', '尽早', '开通', '高清晰', '数字', '广播', '服务', ',', '并', '希望', '在', '任何', '频道', '都', '能', '收到', '该', '广播', '。', '据', '报道', ',', '该项', '广播', '将', '从', '5', '月', '11', '日', '正式', '开通', ',', '开通', '之初', '仅限于', '拥有', '高清晰', '设备', '的', '用户', '。', 'BBC', '公司', '同时', '还', '证实', '了', '在', '世界杯', '期间', ',', '在', '某些', '地区', '数字', '广播', '能', '用', '电缆', '进行', '传播', '。', '从', '6', '月', '9', '日', '开始', ',', 'BBC', '公司', '将', '对', '世界杯', '进行', '高清晰', '无线电', '和', '电视', '的', '同时', '联播', '。', '这种', '联播', '还', '将', '应用', '于', '温布尔登', '主要', '的', '赛事', '。', 'BBC', '电视', '部门', '总监', '加纳', '?', '贝内特', '(', 'Jana', ' ', 'Bennett', ')', '说', ':', '“', '高清晰', '数字', '广播', '是', 'BBC', '公司', '计划', '在', '未来', '向', '全世界', '提供', '高清晰', '服务', '的', '而', '迈出', '的', '第一步', ',', '虽然', '步幅', '小', ',', '但是', '是', '激动人心', '的', '。', '”', '\n', '\u3000', '\u3000', '关键字', ':', '电脑', '黑客', ' ', '审判', ' ', '服刑', '\n', '\u3000', '\u3000', '标题', ':', '美国', '电脑', '黑客', '安契塔', '被判', '入狱', '57', '个', '月', '\n', '\u3000', '\u3000', '时间', ':', '美国', '东部', '时间', '5', '月', '9', '日', '上午', '10', '时', '35', '分', '消息', '\n', '\u3000', '\u3000', '来源', ':', '法新社', '\n', '\u3000', '\u3000', '内容摘要', ':', '美国', '电脑', '黑客', '安契塔', '被判', '入狱', '57', '个', '月', '。', '检方', '指出', ',', '安契塔', ',', '20', '岁', ',', '是', '知名', '秘密', '骇客', '网络', '“', '地下', '蠕虫', '大师', '”', '的', '要员', ',', '于', '去年', '十一月', '被捕', ',', '这是', '第一', '起遭', '起诉', '的', '相关', '案件', '。', '他', '被控', '侵入', '四十万', '余部', '电脑', '(', '或称', '僵尸', '网路', ',', 'bot', ' ', 'nets', ')', '损害', '其', '系统', ',', '并', '促使', '受害', '电脑', '大量', '寄发', '垃圾邮件', '。', '遭', '安契塔', '入侵', '的', ',', '还', '包括', '美国', '军方', '的', '服务器', '。', ' ', '在', '洛杉矶', '的', '联邦', '法庭', '上', ',', '面对', '17', '项', '指控', ',', '安契塔', '承认', '密谋', '违反', '电脑', '诈欺', '滥用', '法', '、', '反', '垃圾邮件', '法', ',', '和', '损及', '美国', '军方', '电脑', '。', '他', '并', '坦承', '散播', '能', '促使', '电脑', '发送', '垃圾邮件', '、', '广告', '以及', '对', '网站', '发动', '瘫痪', '性', '攻击', '的', '恶意', '软体', '。', ' ', '检方', '发言人', '莫柴克', '说', ':', '“', '安契塔', '尤其', '对', '这', '一连串', '的', '秘密', '犯行', '负有责任', ',', '他', '入侵', '加州', '近', '五十万', '部', '电脑系统', ',', '受', '波及', '的', '电脑', '并', '不', '限于', '家用电脑', ',', '这', '也', '让', '他', '与', '他人', '得以', '发动', '大规模', '的', '攻击', '。', '”', ' ', '安契塔', '在', '庭上', '同意', '赔偿', '军事', '单位', '一万五千', '美元', ',', '他', '的', '不法', '获益', '也', '遭', '没收', ',', '其中', '包括', '逾', '六万美元', '现金', '、', '一辆', 'B', 'M', 'W', '汽车', '与', '一些', '电脑设备', '。', '(', '章田', '编译', ')'], 'C000008')
(['\u3000', '\u3000', '\u3000', '世界', '的', '旅游业', '越来越', '熟悉', '一个', '新名词', '—', '—', '中国', '的', '黄金周', '。', '每到', '这个', '时候', ',', '中国', '都', '会', '迎来', '一次', '旅游', '高潮', ',', '一直', '席卷', '周边', '甚至', '更为', '遥远', '的', '一些', '国家', '和', '地区', ',', '使', '他们', '也', '跟', '随着', '这种', '固定', '的', '周期', '迎来', '一个个', '旅游', '、', '消费', '旺季', '。', '\n', '\u3000', '\u3000', '尽管', '出入境', '管理', '部门', '尚未', '公布', '具体', '数字', ',', '全国假日办', '负责人', '预测', '说', ',', '今年', '“', '五一', '”', '黄金周', ',', '出境', '旅游', '规模', '很', '可能', '超过', '去年', '“', '五一', '”', '黄金周', '1000', '多万人次', '的', '水平', '。', '\n', '\u3000', '\u3000', '中国', '游客', '涌', '来', '\n', '\u3000', '\u3000', '“', '标志', '”', '泰国', '从', '海啸', '中', '复苏', '\n', '\u3000', '\u3000', '5', '月', '2', '日', ',', '从事', '服装设计', '的', '胡明明', '第四次', '飞往', '泰国', '普吉岛', '度假', '。', '黄金周', '对', '她', '而言', ',', '就是', '躺', '在', '普吉岛', '沙滩', '上', ',', '晒', '一周', '太阳', '。', '作为', '中国', '公民', '最早', '的', '旅游', '目的地', '代表', '景点', ',', '普吉岛', '代表', '了', '东南亚', '国家', '在', '中国', '消费者', '心目', '中', '的', '独特', '地位', ':', '回头客', '越来越', '多', '。', '\n', '\u3000', '\u3000', '泰国', '国家旅游局', '的', '数据', '显示', ',', '2005', '年', '前往', '普吉', '的', '中国', '旅游者', '达', '10', '万人次', '左右', ',', '预计', '2006', '年', '将', '突破', '15', '万', ',', '从而', '成为', '泰国', '南部', '旅游业', '在', '印度洋', '海啸', '后', '全面', '恢复', '的', '“', '重要', '标志', '”', '。', '\n', '\u3000', '\u3000', '目前', '中国', '人', '出境游', '基本', '都', '是', '第一次', '出国', ',', '因此', '更', '看重', '价格', '。', '“', '中国', '人', '喜欢', '出访', '大城市', ',', '且', '往往', '都', '是', '走马观花', ',', '到', '哪里', '都', '要', '先', '照相', '。', '”', '一', '旅行社', '总经理', '助理', '郭明', '告诉', '记者', '。', '出境', '爱', '购物', '可能', '是', '中国', '人', '出境游', '的', '又', '一大', '特色', '。', '\n', '\u3000', '\u3000', '俄罗斯', '、', '蒙古', '游', '\n', '\u3000', '\u3000', '国人', '今年', '出游', '“', '新亮点', '”', '\n', '\u3000', '\u3000', '东南亚', '国家', '打出', '“', '山水相连', '”', '牌', ',', '韩国', '和', '日本', '旅游界', '则', '希望', '以', '“', '文化', '渊源', '”', '赢得', '中国', '“', '休闲', '商机', '”', '。', '在', '《', '大长', '今', '》', '、', '“', '韩流', '”', '等', '文化', '因素', '刺激', '之下', ',', '中', '韩', '两国之间', '的', '航线', '变得', '越来越', '繁忙', '。', '就', '在', '“', '五一', '”', '前', ',', '大', '韩', '航空', '宣布', '计划', '5', '年内', '将', '韩中', '航线', '增至', '50', '条', '。', '\n', '\u3000', '\u3000', '旅游', '交通', '经济', '分析', '师刘斌', '说', ',', '2006', '年', '“', '五一', '”', '黄金周', ',', '中国', '周边旅游', '的', '新亮点', '是', '俄罗斯', '、', '蒙古国', '。', '随着', '夏季', '到来', ',', '北亚', '风光', '呈现出', '独特', '的', '吸引力', '。', '目前', ',', '俄罗斯', '专门', '为', '中国', '旅游者', '成立', '的', '“', '无国界', '世界', '”', '协会', '正', '全力以赴', '利用', '中', '俄', '两国', '互办', '“', '国家', '年', '”', '的', '机遇', ',', '吸引', '更', '多', '中国', '游客', '“', '北上', '消费', '”', '。', '\n', '\u3000', '\u3000', '羡慕', '黄金周', '\n', '\u3000', '\u3000', '印度', '日本', '都', '“', '心动', '”', '了', '\n', '\u3000', '\u3000', '旅游', '观察家', '指出', ',', '中国', '“', '旅游', '休闲', '”', '商机', ',', '正', '从', '东南亚', '向', '东北亚', '“', '扇形', '展开', '”', ',', '并', '惠及', '越来越', '多', '的', '邻邦', '。', '\n', '\u3000', '\u3000', '刘斌', '认为', ',', '目前', '东南亚', '抢', '得', '中国', '“', '休闲', '潮', '”', '之先', ',', '可以', '为', '中国', '东盟', '经济', '贸易', '一体化', '“', '推波助澜', '”', '。', '东北亚地区', '作为', '中国', '主要', '客源', '市场', ',', '“', '双向', '流动', '”', '将', '催生', '“', '东北亚', '旅游圈', '”', ',', '从而', '与', '东南亚', '旅游圈', '南北', '呼应', '。', '这样', ',', '中国', '人', '的', '休闲', '不仅', '将', '成为', '所有', '周边国家', '的', '商机', ',', '而且', '将', '成为', '中国', '与', '这些', '国家', '睦邻友好', '的', '“', '休闲', '纽带', '”', '。', '\n', '\u3000', '\u3000', '从', '发展', '旅游', '经济', '的', '角度', '来说', ',', '中国', '的', '黄金周', '无疑', '让', '各国', '羡慕', '。', '印度', '的', '一家', '报纸', '曾', '对', '中国政府', '“', '聪明', '并且', '执行', '有力', '的', '黄金周', '政策', '”', '大加', '赞赏', ',', '认为', '印度政府', '应当', '向', '中国', '学习', '。', '而', '日本', '为了', '促进', '旅游', '、', '拉动', '内需', ',', '也', '修改', '了', '“', '节日', '法', '”', ',', '人为', '地', '制造', '出', '更', '多', '的', '长假', ',', '方便', '人们', '外出', '旅游', '或', '安排', '各种', '休闲活动', '。', '(', '新华', '每日电讯', ')', '\n', '\u3000', '\u3000', '新闻', '链接', '\n', '\u3000', '\u3000', '悉尼', '\n', '\u3000', '\u3000', '“', '处处', '是', '中国', '人', ',', '还', '以为', '回国', '了', '”', '\n', '\u3000', '\u3000', '“', '到', '悉尼', '来', '旅游', ',', '到处', '都', '能', '看到', '中国', '人', '的', '面孔', '。', '要不是', '看到', '外国人', '多点', ',', '还', '以为', '又', '回到', '了', '中国', '呢', '!', '”', '一位', '来自', '北京', '的', '张姓', '游客', '说', '。', '\n', '\u3000', '\u3000', '这', '也', '是', '不少', '中国', '游客', '初到', '澳大利亚', '时', '的', '感觉', '。', '去年', ',', '有', '28', '万', '中国', '游客', '赴', '澳', '旅游', ',', '占来', '澳', '游客', '总数', '的', '5.2%', '。', '\n', '\u3000', '\u3000', '在', '去年', '12', '月', '澳大利亚联邦政府', '发布', '的', '旅游', '战略', '中', ',', '中国', '被', '认为', '是', '澳', '旅游业', '增长', '最快', '的', '市场', '。', '据澳', '旅游业', '预测', '委员会', '预计', ',', '中国', '到', '澳大利亚', '旅游', '的', '人数', '将', '以', '每年', '16.5%', '的', '速度', '增长', ',', '到', '2014', '年', ',', '将会', '有', '110', '万', '中国', '游客', '来澳', '旅游', ',', '澳大利亚', '每', '7', '名', '游客', '中', '就', '有', '1', '名', '中国', '公民', '。', '届时', ',', '中国', '将', '有望', '成为', '澳大利亚', '最大', '的', '客源国', ',', '中国', '游客', '每年', '将', '为', '澳', '旅游业', '贡献', '60', '亿澳元', '。', '\n', '\u3000', '\u3000', '巴黎', '\n', '\u3000', '\u3000', '中国', '人', '不再', '“', '上车', '睡觉', '下车', '拍照', '”', '\n', '\u3000', '\u3000', '四五', '月份', '本是', '中国', '人', '赴法', '旅游', '的', '淡季', ',', '但', '“', '五一', '”', '长假', '却是', '淡季', '中', '的', '旺季', ',', '法国', '各大', '华人', '旅行社', '在此期间', '接待', '的', '中国', '游客', '数量', '几乎', '是', '平时', '的', '两倍', '。', '而', '中国', '人', '对', '赴', '法国', '乃至', '欧洲', '旅游', '的', '观念', '也', '发生', '改变', '。', '\n', '\u3000', '\u3000', '据', '法国', '文华', '旅行社', '总经理', '陈超英', '介绍', ',', '过去', ',', '中国', '游客', '总想', '在', '最', '短时间', '内以', '最少', '费用', '游览', '到', '最', '多', '数量', '的', '法国', '及其', '周边国家', '景点', '。', '一时间', ',', '“', '上车', '睡觉', ',', '下车', '拍照', ',', '一问', '什么', '都', '不', '知道', '”', '这', '段', '顺口溜', '成', '了', '此类', '贪多', '求全', '的', '旅游', '方式', '的', '生动', '写照', '。', '\n', '\u3000', '\u3000', '几年', '过去', ',', '随着', '出境游', '机会', '增加', ',', '越来越', '多', '的', '中国', '游客', '迷上', '了', '欧美', '游客', '所', '青睐', '的', '休闲游', '和', '主题', '游', '。', '陈超英', '说', ',', '以', '文华', '旅行社', '为例', ',', '参加', '休闲游', '和', '主题', '游', '的', '中国', '游客', '三年', '前', '只', '占', '中国', '游客', '总数', '的', '5%', ',', '现在', '已', '占', '到', '了', '30%', ',', '预计', '三年', '后', '将', '达到', '50%', '左右', '。', '他', '说', ',', '这', '不仅', '说明', '中国', '游客', '的', '消费', '能力', '提高', ',', '也', '说明', '他们', '的', '消费', '心理', '趋于', '成熟', '。', '\n', '\u3000', '\u3000'], 'C000016')
(['\u3000', '\u3000', '万络', '给', '止痛药', '市场', '带来', '的', '阴霾', '久久', '仍未散', '去', ',', '但', '这', '丝毫', '不能', '说明', '该', '市场', '的', '需求', '在', '减少', '。', '在', '既定', '的', '需求', '现实', '下', ',', 'C', 'O', 'X', '-', '2', '抑制剂', '的', '衰落', ',', '必然', '引来', '趁虚而入', '者', '。', '不久前', '我国', '河南', '帅克', '制药', '和', '贵州', '益佰', '先后', '宣称', '将', '倚靠', '新', '的', '止痛药', '进入', '该', '领域', ',', '一场', '“', '分羹', '”', '之战', '显然', '已经', '急促', '展开', '。', '\n', '\u3000', '\u3000', '潜力', '巨大', '的', '镇痛药', '市场', '一直', '是', '跨国公司', '的', '天下', ',', '而', '最近', '它们', '的', '优势', '地位', '正', '经受', '挑战', ',', '其', '缘由', '是', '2', '0', '0', '4', '年', '8', '月份', '王牌', '止痛药', '万络', '爆出', '安全性', '问题', '引发', '了', '市场', '对', '新型', '非甾体', '止痛药', '的', '不信任感', '。', '\n', '\u3000', '\u3000', '去年', '9', '月', '万络', '自动', '撤出', '我国', '后', '腾出', '了', '巨大', '的', '市场', '空间', ',', '引起', '了', '众多', '企业', '的', '觊觎', ',', '去年', '5', '月', '1', '3', '日', ',', '中美史克', '曾经', '发起', '“', '霞光', '行动', '”', ',', '试图', '从', '困境', '中', '挽救', '其', 'O', 'T', 'C', '王牌', '药', '芬必得', ',', '但', '更', '多', '的', '国内', '企业', '则', '尽量', '避开', '身处', '安全性', '危机', '旋涡', '中', '的', 'C', 'O', 'X', '-', '2', '抑制剂', '领域', ',', '希望', '从', '新', '的', '镇痛', '领域', '入手', '找到', '征战', '止痛药', '市场', '的', '新', '武器', '。', '\n', '\u3000', '\u3000', '不久前', '我国', '河南', '帅克', '制药', '和', '贵州', '益佰', '先后', '宣称', '将', '倚靠', '新', '的', '止痛药', '进入', '这个', '潜力', '仅次于', '感冒药', '的', '新', '领域', ',', '据帅克', '制药', '董事长', '张克军', '透露', ',', '帅克', '开发', '的', '止痛', '新药', '氨酚', '曲马', '多片', '即将', '上市', '。', '据', '记者', '了解', ',', '该', '产品', '也', '是', '今年', '西安', '杨森', '力推', '的', '重点', '产品', '。', '而', '贵州', '益佰', '方面', '则', '透露', ',', '该', '公司', '将', '凭借', '一种', '止痛', '中药', '来', '分切', '国内', '巨大', '的', '止痛药', '市场', '。', '\n', '\u3000', '\u3000', '显然', ',', '一场', '新', '的', '止痛药', '市场', '“', '分羹', '”', '大战', '已经', '打响', '。', '\n', '\u3000', '\u3000', '止痛药', '市场', '依然', '是', '金矿', '\n', '\u3000', '\u3000', '分析', '人士', '指出', ',', '尽管', '目前', '使用', '最多', '的', 'C', 'O', 'X', '-', '2', '抑制剂', '正', '遭遇', '安全性', '危机', ',', '但', '对于', '整个', '止痛药', '并', '不', '构成', '影响', ',', '此', '事件', '的', '最大', '可能', '是', '各大类', '止痛药', '由此', '进行', '一轮', '市场', '替代', ',', '而', '与此同时', ',', '整个', '市场', '还', '在', '继续', '增长', '。', '\n', '\u3000', '\u3000', '中国', '已经', '步入', '老龄化', '社会', ',', '中老年', '人口', '约', '有', '5', '亿', '。', '风湿', '和', '类风湿', '关节炎', '、', '肩周炎', '、', '颈椎病', '、', '骨质增生', '等', '疾病', '在', '老年', '甚至', '中年人', '群中', '属于', '常见病', '、', '多发病', ',', '各类', '疼痛', '病症', '患者', '约', '占', '中老年', '群体', '的', '6', '5', '%', ',', '而且', '这一', '群体', '数量', '还', '在', '不断', '的', '增加', '。', '\n', '\u3000', '\u3000', '另外', ',', '随着', '我国', '制造业', '大国', '地位', '的', '不断', '提升', ',', '产业工人', '数量', '急剧', '膨胀', ',', '长期', '的', '劳作', '容易', '导致', '各种', '机体', '劳损', '和', '关节', '疼痛', ',', '因此', ',', '该', '群体', '已经', '成为', '疼痛', '药物', '消费', '的', '另', '一个', '大', '群体', '。', '由于', '电脑', '等', '工具', '的', '引入', ',', '人们', '的', '工作', '和', '生活', '方式', '已经', '发生', '了', '根本', '的', '改变', ',', '长期', '的', '静坐', '催生', '了', '这', '一', '人群', '各种', '疼痛', '的', '出现', ',', '这是', '导致', '疼痛', '人群', '增长', '的', '又', '一个', '重要', '因素', '。', '\n', '\u3000', '\u3000', '据', 'I', 'M', 'S', '国际', '咨询', '公司', '预测', ',', '2', '0', '0', '5', '年', ',', '全球', '止痛剂', '市场', '总量', '达', '8', '0', '0', '亿美元', '以上', '。', '目前', ',', '美国', '、', '欧洲', '和', '日本', '是', '全球', '最大', '的', '止痛药', '市场', ',', '过去', '3', '0', '年', '来', '止痛药', '市场', '销售额', '一直', '在', '稳步', '上升', '。', '国内', '的', '资料', '也', '显示', ':', '我国', '非处方药', '市场', '上', '止痛药', '增长', '迅速', ',', '其', '销售', '仅次于', '感冒药', ',', '大约', '占', '到', '了', '2', '0', '%', '的', '比例', '。', '\n', '\u3000', '\u3000', '与此同时', ',', '目前', '医学', '更加', '注重', '病人', '的', '生活', '质量', ',', '对患', '各种', '疾病', '引起', '的', '疼痛', '的', '治疗', '也', '催生', '了', '新', '的', '止痛药', '市场', '。', '以', '癌症', '疼痛', '为例', ',', '\n', '\u3000', '\u3000', '据', '我国', '卫生部', '统计数据', '显示', ',', '2', '0', '世纪', '9', '0', '年代', '我国', '肿瘤', '发病率', '已', '上升', '为', '1', '2', '7', '例', '/', '1', '0', '万人', '。', '近年来', '我国', '每年', '新增', '肿瘤', '患者', '1', '6', '0', '万', '~', '1', '7', '0', '万人', ',', '死', '于', '恶性肿瘤', '人数', '达', '1', '4', '0', '万人', ',', '肿瘤', '患者', '总数', '估计', '在', '4', '5', '0', '万人', '左右', '。', '肿瘤', '患者', '中', '至少', '有', '1', '/', '3', '存在', '着', '不同', '程度', '的', '疼痛', ',', '其中', '晚期', '患者', '占', '6', '0', '%', '~', '9', '0', '%', '。', '\n', '\u3000', '\u3000', '市场', '加速', '洗牌', '\n', '\u3000', '\u3000', '由于', '止痛药', '使用', '领域', '及其', '广泛', ',', '所以', '各类', '药物', '的', '使用', '不能', '一概而论', ',', '但', '就', '医院', '处方', '板块', '分析', ',', '目前', '主要', '有', '四大', '类', '镇痛药', ',', '分别', '为', '阿片类', '镇痛药', '、', '非甾体', '类', '镇痛药', '、', '植物', '类', '镇痛药', '以及', '抗', '偏头痛', '制剂', '。', '非甾体', '类', '镇痛药', '原本', '是', '被', '寄予', '了', '厚望', ',', '在', '万络', '以及', '西乐', '葆', '等', '一批', '新型', '药物', '的', '带动', '下', '整个', '市场', '发展趋势', '非常', '喜人', '。', '1', '9', '9', '8', '年', ',', '全国', '1', '4', '个', '典型', '城市', '入网', '医院', '的', '非甾体', '抗炎药', '购药', '金额', '为', '9', '9', '0', '3', '.', '3', '万元', ',', '到', '2', '0', '0', '2', '年', '已经', '增长', '至', '1', '4', '0', '2', '2', '.', '3', '万元', '(', '见表', '1', ')', '。', '\n', '\u3000', '\u3000', '不过', '由于', '非甾体', '类', '镇痛药', '的', '安全性', '问题', ',', '其', '市场', '有', '逐渐', '下滑', '的', '趋势', ',', '而', '阿片类', '药物', '则', '有', '上升', '的', '势头', ',', '相互', '市场', '取代', '现象', '比较', '明显', '。', '以', '使用', '较', '多', '的', '癌症', '镇痛', '为例', ',', '在', '2', '0', '0', '2', '~', '2', '0', '0', '4', '年', '样本', '医院', '镇痛', '类药物', '使用', '情况', '(', '见表', '2', ')', '中', ',', '阿片类', '镇痛药', '的', '市场', '分额', '由', '2', '0', '0', '2', '年', '的', '6', '2', '.', '4', '%', '上升', '到', '2', '0', '0', '4', '年', '的', '6', '8', '.', '4', '%', '。', '而', '非甾体', '类', '镇痛药', '的', '份额', '却', '从', '2', '0', '0', '2', '年', '的', '3', '4', '.', '4', '%', '下跌', '至', '2', '0', '0', '4', '年', '的', '2', '9', '.', '2', '%', '。', '\n', '\u3000', '\u3000', '在', '阿片类', '镇痛药', '中', ',', '目前', '主要', '由曲', '马多', '、', '芬太尼', '和', '吗啡', '3', '大', '品种', '领衔', ',', '这三大', '品种', '占', '整个', '阿片类', '药品', '使用', '金额', '的', '7', '0', '%', '以上', '(', '见', '附图', ')', '。', '\n', '\u3000', '\u3000', '芬太尼', '为', '人工合成', '的', '非', '衍生物', '类', '阿片', '药片', ',', '属于', '强', '阿片类', '镇痛药', ',', 'W', 'H', 'O', '将', '它', '归入', '第三', '阶梯', '镇痛药', ',', '其', '主要', '通过', '激动', '阿片类', '受体', '(', 'μ', '受体', ')', '而', '发挥', '镇痛', '作用', ',', '止痛', '作用', '为', '相同', '剂量', '吗啡', '的', '5', '0', '~', '1', '0', '0', '倍', '。', '吗啡', '主要', '用于', '晚期', '癌症', '患者', '第三', '阶梯', '止痛', '。', '从', '市场趋势', '来看', ',', '曲马多', '增长', '后劲', '十足', ',', '该', '产品', '是', '胺', '苯环', '醇类', '人工合成', '弱', '阿片类', '药物', ',', '镇痛', '强度', '在', '同等', '剂量', '时', ',', '相当于', '吗啡', '的', '1', '/', '5', ',', '但', '明显', '强于', '其他', '非', '类固醇', '抗炎药', ',', '适用', '于', '中', '、', '重度', '癌性', '疼痛', ',', '被', 'W', 'H', 'O', '列为', '癌痛', '三', '阶梯', '止痛', '治疗', '的', '第二', '阶梯', '推荐', '药物', '。', '该药', '与', '阿片', '受体', '的', '亲和力', '比', '吗啡', '弱', '6', '0', '0', '0', '倍', ',', '基本', '不', '存在', '成瘾性', ',', '可以', '长期', '使用', ',', '因此', '在', '治疗', '剂量', '下', ',', '不', '产生', '呼吸', '抑制', ',', '不', '影响', '心血管', '功能', ',', '也', '不', '产生', '便秘', '、', '排尿', '困难', '等', '不良反应', '。', '由于', '该药', '的', '管制', '相对', '较松', ',', '除', '可以', '用于', '癌症', '疼痛', '的', '治疗', '外', ',', '还', '可以', '在', '骨关节炎', '、', '腰椎间盘', '突出', '症', '、', '肩关节', '周围', '炎', '、', '创伤', '、', '手术', '后', '疼痛', '和', '骨质疏松症', '所致', '的', '腰腿痛', '中', '使用', '。', '该类', '药', '在', '医保', '目录', '中属', '乙类', '药物', ',', '目前', '癌痛', '临床', '应用', '中多为', '缓释片', '。', '\n', '\u3000', '\u3000', '复合', '使用', '药物', '增长势头', '明显', '\n', '\u3000', '\u3000', '目前', '镇痛药', '市场', '还有', '一个', '明显', '的', '趋势', '就是', '越来越', '强调', '联合', '用药', ',', '根据', '2', '0', '0', '5', '年前', '三季度', '典型', '医院', '用药', '情况', '显示', ',', '一些', '复合', '使用', '的', '药物', '增长势头', '明显', ',', '像', '氨基', '比林', '+', '安替比林', '+', '巴比', '妥', ',', '克痛宁', '+', '曲马多', '+', '布洛芬', ',', '羟考', '酮', '+', '对乙酰氨基酚', '等', '。', '\n', '\u3000', '\u3000', '张克军', '也', '认为', ',', '鉴于', '止痛', '新药', '不断', '遭受', '安全性', '问题', ',', '复方', '用药', '将', '是', '镇痛药', '今后', '新', '产品开发', '的', '一个', '重要', '方向', ',', '一些', '新型', '的', '复方', '产品', '正', '显示', '良好', '的', '市场前景', ',', '目前', '选择', '的', '重点', '就是', '将', '一些', '原来', '在', '临床', '使用', '多年', ',', '疗效', '确切', ',', '安全性', '高', '的', '药', '组合', '在', '一起', '。', '像', '最近', '上市', '的', '氨酚', '曲马', '多片', '就是', '由', '阿片类', '和', '非甾体', '类', '使用', '最久', '的', '盐酸', '曲马多', '和', '对乙酰氨基酚', '组合', '在', '一起', '的', '复方', '产品', ',', '临床', '研究', '证实', '该药', '主要', '用于', '缓解', '中度', '及', '重度', '疼痛', ',', '起效', '迅速', ',', '镇痛', '效果', '明显', ',', '无', '成瘾性', ',', '不良反应', '相比', '其', '单方', '制剂', '和', '其他', '参比', '制剂', '明显', '更', '低', ',', '该', '产品', '2', '0', '0', '1', '年', '8', '月', '在', '美国', '由', 'F', 'D', 'A', '批准', '上市', '。', '西安', '杨森', '在', '去年', '将', '该药', '引进', '我国', ',', '目前', '正在', '力拓', '市场', '。', '鉴于', '该', '产品', '在', '我国', '无', '相关', '产权保护', ',', '河南', '帅克', '制药', '在', '国内', '企业', '中', '抢先', '仿制', '了', '这个', '产品', '。', '张克军', '透露', ',', '该', '产品', '目前', '已经', '上市', ',', '有望', '培养', '成为', '一个', '镇痛药', '的', '大', '品种', ',', '或许', '依靠', '新型', '复方', '制剂', '可以', '参与', '重新', '划分', '止痛药', '市场', '的', '格局', '。'], 'C000008')
(['\u3000', '\u3000', '牙防组', '事件', '再起', '风波', ',', '此次', '争议', '的', '核心', '是', ',', '口腔', '用品', '认证', '办法', '的', '管理', '对象', '应该', '是', '“', '保健', '”', '品', '还是', '“', '护理', '”', '品', '。', '\n', '\u3000', '\u3000', '本报', '独家', '获悉', ',', '4', '月', '24', '日', ',', '中国', '口腔', '清洁', '护理', '用品', '工业协会', '(', '原', '牙膏', '工业协会', ',', '下称', '“', '牙膏', '协会', '”', ')', '以', '书面形式', '向', '国家', '认证', '认可', '监督管理', '委员会', '(', '下称', '“', '认监委', '”', ')', '递交', '了', '一份', '文件', ',', '称', '如果', '把', '牙膏', '纳入', '认证', ',', '将', '不利于', '企业', '的', '发展', '。', '\n', '\u3000', '\u3000', '文件', '陈述', '了', '数条', '理由', ',', '诸如', '牙膏', '企业', '的', '每个', '产品', '都', '必须', '认证', '将会', '影响', '到', '生产', '和', '销售', '的', '效率', '等等', '。', '\n', '\u3000', '\u3000', '文件', '还称', ',', '即便', '必须', '认证', ',', '也', '应该', '是', '认证', '“', '口腔', '护理', '”', '用品', ',', '而', '不是', '“', '口腔', '保健', '”', '用品', '。', '\n', '\u3000', '\u3000', '4', '月', '13', '日', ',', '认监委', '发布', '了', '《', '口腔', '保健用品', '认证', '管理', '办法', '(', '征求意见', '稿', ')', '》', '。', '\n', '\u3000', '\u3000', '自', '发布', '之', '日', '以来', ',', '围绕', '这', '两个', '词', '的', '拉锯', '始终', '没有', '停止', '。', '而', '在', '意见', '征求', '期', '过后', ',', '卫生部', '法规', '司将', '根据', '程序', '将', '这个', '办法', '发布', '成为', '部颁标准', '。', '\n', '\u3000', '\u3000', '“', '如', '不', '采用', '‘', '保健', '’', ',', '而', '采用', '‘', '护理', '’', ',', '那么', '办法', '将', '失去', '意义', '。', '”', '江苏', '雪豹', '日化', '有限公司', '的', '董事长', '童渝于', '昨日', '向', '认监委', '提交', '了', '一份', '针锋相对', '的', '建议', '。', '\n', '\u3000', '\u3000', '据', '知情', '人士', '透露', ',', '牙膏', '协会', '如此', '激烈', '反对', '的', '原因', '是', ',', '一旦', '“', '保健', '”', '认证', '推行', ',', '将会', '由', '具备', '专业', '团队', '的', '相关', '单位', '来', '担当', '。', '而', '牙膏', '协会', '属于', '原', '轻工', '系统', ',', '缺乏', '这些', '资源', '。', '\n', '\u3000', '\u3000', '“', '所以', '他们', '更', '倾向', '于用', '‘', '护理', '’', '一词', ',', '可以', '名正言顺', '地', '把', '认证', '权', '纳入', '自己', '的', '管理', '范畴', '。', '”', '\n', '\u3000', '\u3000', '相对', '于', '强调', '牙膏', '功能性', '的', '“', '保健', '”', ',', '“', '护理', '”', '一词', '在', '字面', '的', '意义', '更', '倾向', '于', '清洁', '。', '前者', '的', '主管部门', '是', '卫生部门', ',', '后者', '则', '是', '牙膏', '协会', '。', '\n', '\u3000', '\u3000', '有', '消息人士', '称', ',', '现在', '已有', '数百家', '单位', '开始', '申请', '成为', '合法', '的', '牙膏', '认证', '机构', '。', '\n', '\u3000', '\u3000', '“', '最后', '的', '认证', '机构', '已经', '基本', '成型', '。', '”', '有关', '人士', '透露', '说', ',', '这个', '即将', '浮出', '水面', '的', '机构', '与', '卫生系统', '下属', '的', '全国', '牙防组', '有着', '紧密', '的', '“', '血缘', '”', '关系', '。', '\n', '\u3000', '\u3000', '在此之前', '的', '牙防组', '事件', '中', ',', '没有', '认证', '资格', '的', '全国', '牙防组', '违规', '认证', '十多年', ',', '被', '北京', '律师', '李纲告', '上', '法庭', '。', '此后', ',', '认监委', '紧急', '启动', '认证', '程序', ',', '目前', '最后', '的', '用词', '尚', '不明朗', '。'], 'C000008')
(['\u3000', '\u3000', '设想', '一下', ',', '如果', '某', '家', '银行', '花', '了', '大', '力气', '进行', '品牌', '建设', ',', '可', '顾客', '每每', '面对', '的', '是', '铁栅栏', '后面', '一张', '冷冰冰', '的', '脸', ',', '敷衍', '推诿', ',', '甚至', '恶语相向', ',', '他们', '自然', '很难', '相信', '这家', '银行', '所作', '的', '品牌', '承诺', ',', '也', '会', '动摇', '对', '银行', '的', '信任', '\n', '\u3000', '\u3000', '本报记者', '范松璐', '发自', '上海', '\n', '\u3000', '\u3000', '在', '一个', '金融服务', '品牌', '提升', '研讨会', '上', ',', '扬特', '品牌', '欧洲', '的', '董事长', 'TerryTyrrell', '饶有兴趣', '地', '展示', '了', '一些', '别出心裁', '的', '银行', '标志', ',', '从', '图案', '的', '设计', '中', '很', '容易', '发现', '为', '人们', '所', '熟悉', '的', '知名', '公司', '品牌', '的', '影子', ',', '比如', '麦当劳', '那个', '醒目', '的', '“', 'm', '”', '和', '苹果电脑', '缺', '了', '口', '的', '苹果', ',', '而', '类似', '可口可乐', '的', '标志', '下', ',', '索性', '写', '着', '“', 'CocaCash', '”', ',', '看到', '这些', '易于', '识别', '和', '引发', '联想', '的', '标志', ',', '台下', '观众', '发出', '一阵阵', '会心', '的', '笑声', '。', '\n', '\u3000', '\u3000', '“', '当然', ',', '这些', '银行', '标志', '只是', '我', '的', '想象', ',', '不过', ',', '目前', '在', '金融', '服务业', '领域', ',', '有没有', '像', '这', '几家', '企业', '那样', '影响', '深远', '的', '品牌', '呢', '?', '恐怕', '还', '没有', '。', '”', 'Terry', '说', '。', '在', '激烈', '的', '竞争', '环境', '中', ',', '弱势', '品牌', '可能', '会', '被', '猎食', ',', '不过', ',', '只', '知道', '掏钱', '购买', '弱势', '品牌', '、', '而', '并', '不能', '建立', '一个', '强大', '品牌', '的', '猎食', '者', '也', '未必', '能', '得到', '良好', '的', '投资', '回报', '。', '对', '现有', '的', '银行', '而言', ',', '建立', '自身', '的', '强势', '品牌', '适逢其时', ',', '而且', '相当', '重要', '。', '\n', '\u3000', '\u3000', '应求', '与众不同', '\n', '\u3000', '\u3000', '国内', '金融', '服务业', '暗流', '汹涌', '。', '2006', '年', '是', '中国', '进入', 'WTO', ',', '承诺', '开放', '金融市场', '的', '关键', '一年', ',', '外资银行', '即将', '进入', ',', '竞争', '格局', '正', '发生变化', ',', '市场', '内部', '也', '萌生', '诸多', '影响', '零售', '银行业务', '成长', '的', '因素', '—', '—', '高强度', '的', '经济', '发展', '、', '政府', '收缩', '对', '社会福利', '的', '补助', '、', '房屋', '私有', '率', '提高', '、', '人口', '日益', '老龄化', '、', '个人消费', '成为', '经济', '发展', '的', '关键', '动力', ',', '而且', '企业', '银行业务', '要', '利用', '总体性', '平衡', '来', '管理', '中小型', '企业', '贷款', '、', '开发', '收费', '产品', '。', '\n', '\u3000', '\u3000', '讲', '到', '银行', '现存', '的', '症结', ',', '人们', '的', '第一', '反应', '往往', '是', '不良贷款', '比率', '偏高', '、', '风险', '评估', '实战经验', '不足', '、', '消费性', '金融', '产品', '缺失', '、', '企业', '管理', '标准', '不够', '完备', '等等', '。', '但', '另一方面', ',', '不容忽视', '的', '是', ',', '国内', '银行', '的', '品牌', '建设', '也', '存在', '某种', '滞后', '—', '—', '鲜有', '差异化', '的', '品牌', '定位', '、', '品牌', '经营', '思维', '和', '以', '客户', '为本', '的', '鲜明形象', ',', '顾客', '感受', '到', '的', '环境', '和', '服务', '面目', '雷同', ',', '甚至', '干脆', '一模一样', '。', '扬特', '中国区', '创意', '总监', '黄鼎杰', '展示', '了', '一页', '图片', ',', '是', '某家', '知名', '商业银行', '的', '营业厅', ',', '“', '能', '看', '出来', '这', '是', '哪', '一家', '银行', '吗', '?', '”', '的确', ',', '对', '多数', '人', '来说', ',', '只能', '感觉', '似曾相识', ',', '却', '基本', '无从', '分辨', '究竟', '是', '哪', '一家', '。', '\n', '\u3000', '\u3000', '再', '看', '银行', '的', '图标', ',', '如果', '把', '具体', '的', '图案', '及', '字体', '隐', '去', ',', '会', '发现', '图标', '的', '颜色', '和', '形状', '极其', '接近', ',', '比如', '四大', '国有', '商业银行', '的', '图标', '都', '是', '圆形', '图案', '加上', '银行', '名字', '。', '“', '圆形', ',', '应该', '是', '钱币', '的', '意思', ',', '不过', '是否', '可以', '改换', '一下', '视觉', '形象', ',', '让', '自己', '更', '醒目', '些', ',', '区分', '性会', '带来', '更', '多', '机会', '。', '”', '黄鼎杰', '还', '展示', '了', '某家', '美国银行', '的', '营业厅', '照片', ',', '乍一看', '去', ',', '难以想象', '这', '居然', '会', '是', '银行', ',', '而', '更', '像', '一家', '前卫', '酒吧', '—', '—', '设计', '活泼', '明快', ',', '各种', '独特', '有趣', '的', '细节', '点缀', '夺人', '眼球', ',', '还有', '咖啡', '台', '和', '上网', '的', '电脑', ',', '“', '在', '这样', '的', '银行', '里', ',', '等待', '也', '似乎', '不', '那么', '让', '人', '心焦', '了', '—', '—', '不过', '这种', '风格', '在', '国内', '还是', '有些', '超前', ',', '可能', '很多', '人会', '不', '放心', '把', '钱', '放进去', '。', '”', '黄鼎杰', '觉得', ',', '毕竟', '大多数', '顾客', '对', '银行', '的', '期望', '还是', '以', '“', '专业', '、', '安全', '、', '权威', '”', '为主', ',', '在', '此基础', '上', ',', '如果', '适当', '加入', '更', '多', '“', '友善', '、', '亲切', '”', '的', '元素', ',', '会', '进一步', '提升', '银行', '在', '顾客', '心中', '的', '形象', '。', '比如', '在', '香港', ',', '大多数', '银行', '的', '保安', '并', '不', '穿', '制服', ',', '这些', '细节', '往往', '能', '拉近', '顾客', '的', '心理', '距离', '。', '\n', '\u3000', '\u3000', '对', '银行', '来说', ',', '通过', '识别系统', '、', '广告', '活动', '等', '方式', '来', '建立', '品牌', '构造', '是', '远远不够', '的', ',', '必须', '有', '更', '高标准', ',', '还要', '更', '多', '地', '从', '感情', '上', '联结', '顾客', ',', '建立', '强烈', '的', '认同感', '。', '银行业', '正在', '掀起', '一场', '争取', '客户', '心智', '的', '战役', '。', '\n', '\u3000', '\u3000', '别', '让', '冰山', '倾覆', '\n', '\u3000', '\u3000', 'Terry', '展示', '了', '一幅', '冰山', '的', '图片', ',', '在', '他', '看来', ',', '人们', '从', '外面', '感受', '一家', '企业', ',', '就', '如同', '看到', '露出', '海面', '的', '冰山', ',', '其中', '包括', '品牌', '的', '定位', '、', '个性', '、', '表述', '等', '方面', ',', '而', '水面', '以下', '深藏不露', '的', '更', '大部分', '则', '是', '企业', '自身', '对内', '的', '战略', '、', '愿景', '、', '价值', '和', '激励', ',', '这些', '是', '令', '品牌', '长久', '保持', '活力', '的', '源泉', ',', '作用', '更为', '关键', ',', '正', '所谓', '“', '吸引', '人', '的', '真实', '”', '(', 'com', ' ', 'p', ' ', 'e', ' ', 'llin', ' ', 'g', ' ', 'tru', ' ', 'th', ')', '。', '露出', '水面', '的', '冰山', '可以', '吸引', '外界', '注意', ',', '但', '倘若', '缺少', '真实', '的', '根基', ',', '冰山', '终究', '难逃', '倾覆', '的', '命运', '。', '\n', '\u3000', '\u3000', '很多', '企业', '在', '努力', '建立', '和', '管理', '品牌', '的', '时候', ',', '不觉', '间会犯', '一个', '错误', ',', '只', '把', '注意力', '聚焦', '在', '顾客', '身上', ',', '而', '忽略', '了', '对', '员工', '的', '沟通', '、', '了解', '和', '重视', '。', '\n', '\u3000', '\u3000', '“', '如果', '不能', '把', '员工', '培养', '成', '忠实', '的', '内部', '品牌', '拥护者', ',', '那', '就', '太', '可惜', '了', '。', '”', '扬特', '中国区', '董事', '总经理', 'Debora', ' ', 'Chatwin', ' ', '认为', ',', '前线', '员工', '应该', '成为', '真正', '的', '品牌', '大使', ',', '发挥', '独特', '能力', ',', '和', '顾客', '建立', '良好', '关系', ',', '给', '公司', '带来', '利润', ',', '自己', '也', '得到', '更大', '的', '满足', '。', '\n', '\u3000', '\u3000', '员工', '投入', '度', '对', '公司', '的', '回报', '影响', '不可', '忽视', ',', '《', '星期日', '泰晤士报', '》', '在', '2002', '年', '一项', '“', '最佳雇主', '”', '调查', '中', '也', '指出', ',', '获得', '雇员', '好评', '的', '公司', '股价', '和', '股息', '收益', '增幅', '达', '25', '%', ',', '远高于', '同期', '英国', '全股', '指数', '6.3%', '的', '上涨幅度', '。', '再', '回到', '国内', ',', '盖勒', '普', '2004', '年', '进行', '了', '一项', '调查', ',', '将', '工作', '的', '人们', '分为', '“', '投入', '型', '”', '、', '“', '不', '投入', '型', '”', '、', '“', '积极', '投入', '型', '”', '三种', '类型', ',', '结果显示', ',', '有', '68%', '的', '人', '属于', '“', '不', '投入', '型', '”', ',', '对', '工作', '没有', '激情', ',', '觉得', '工作', '与', '自己', '个人', '关系不大', ',', '工作', '时', '几乎', '形同', '梦游', '。', '粗暴', '、', '冷漠', '、', '不', '满足', '的', '员工', '会', '伤及', '客户', '和', '公司', '自身', ',', '身处', '服务业', '的', '银行', '更是如此', '。', '\n', '\u3000', '\u3000', '设想', '一下', ',', '如果', '某', '家', '银行', '花', '了', '大', '力气', '进行', '品牌', '建设', ',', '可', '顾客', '每每', '面对', '的', '是', '铁栅栏', '后面', '一张', '冷冰冰', '的', '脸', ',', '敷衍', '推诿', ',', '甚至', '恶语相向', ',', '他们', '自然', '很难', '相信', '这家', '银行', '所作', '的', '品牌', '承诺', ',', '也', '会', '动摇', '对', '银行', '的', '信任', '。', '许多', '国有', '商业银行', '在', '此', '方面', '可能', '需要', '多一些', '反思', '。', '“', '领导层', '的', '重视', '是', '使得', '员工', '与', '品牌', '紧密', '联结', '在', '一起', '的', '重要', '因素', '。', '”', 'Terry', '表示', '。', '\n', '\u3000', '\u3000', '“', '员工', '联结', '”', '修固', '品牌', '根基', '\n', '\u3000', '\u3000', '银行', '的', '顾客', '细分', '、', '产品开发', '、', '风险管理', '都', '需要', '高水平', '的', '管理者', '和', '职员', ',', '有些', '人才', '要', '从', '外部', '市场', '引进', '并', '整合', '到', '银行', '的', '运营', '和', '文化', '中', ',', '这', '一点', '上', ',', '超越', '金钱', '奖励', '而', '创造', '积极向上', '的', '企业', '文化', '可能', '更为', '长远', '。', '\n', '\u3000', '\u3000', '渣打银行', '在', '员工', '联结', '方面', '的', '努力', '产生', '了', '一定', '的', '效果', ',', '面对', '资源', '收缩', '、', '员工', '士气', '开始', '低落', '的', '现象', ',', '银行', '开展', '了', '名为', '“', '树立', '典范', '”', '(', 'TaketheLead', ')', '的', '内部', '沟通', '计划', ',', '希望', '将', '所有', '人力资源', '和', '传播', '活动', '加以', '整合', ',', '清晰', '传递', '管理层', '的', '承诺', ',', '对', '员工', '进行', '积极', '有效', '的', '奖励', ',', '使', '他们', '重获', '工作', '的', '信心', '和', '自豪感', ',', '表现', '自己', '的', '领导', '才能', '。', '\n', '\u3000', '\u3000', '计划', '的', '代言人', '是', '一个', '活泼', '的', '卡通人物', '“', 'StarMan', '”', '(', '星仔', ')', ',', '它', '的', '各种', '形象', '代表', '了', '各种', '“', '树立', '典范', '”', '的', '行动', ',', '力求', '将', '抽象', '鼓励', '变成', '具体', '榜样', '。', '渣打银行', '向', '高级', '经理', '们', '发放', '一套', '介绍', '计划', '的', '录像带', '和', '新', '的', '员工', '通讯录', ',', '贯彻', '名为', '“', 'JustSayThankYou', '”', '(', '说句', '谢谢您', ')', '的', '员工', '表扬', '计划', ',', '用', '有', '“', '星', '”', '形象', '的', '卡片', '给', '努力', '工作', '的', '同事', '写', '谢谢', ',', '公司', '刊物', '也', '更名', '为', '“', 'TheLeader', '”', '(', '典范', ')', '。', '另外', ',', '银行', '在', '对外', '的', '信息', '传递', '中', '也', '采用', '很多', '“', '星仔', '”', '标志', ',', '这', '一切', '都', '使', '员工', '对', '整个', '计划', '的', '印象', '不断', '深化', ',', '并', '逐步', '加强', '认同感', '。', '最终', ',', '顾客', '满意度', '显著', '上升', ',', '员工', '流失', '减少', ',', '对', '品牌', '内涵', '的', '理解', '更深', '。', '\n', '\u3000', '\u3000', '“', '员工', '联结', '”', '不', '只是', '让', '大伙儿', '了解', '正在', '发生', '的', '事情', ',', '更要', '得到', '他们', '的', '投入', '和', '参与', ',', '与', '品牌', '之间', '产生', '一种', '紧密', '的', '情感', '。', '这样', '不仅', '能', '使', '冰山', '露出', '水面', '的', '部分', '看上去', '很', '美', ',', '深埋在', '水下', '、', '不易', '为', '人', '所', '见', '的', '真实', '根基', '也', '会', '更加', '牢固', ',', '做到', '这些', ',', '依靠', '银行', '自身', '长久', '的', '修为', '。'], 'C000008')
(['\u3000', '\u3000', '杭州', '\u3000', '\u3000', '时间', ':', '2005', '年', '10', '月', '9', '日', '-', '11', '日', ' ', ' ', '9', ':', '00', '-', '18', ':', '00', '\u3000', '\u3000', '地址', ':', '杭州', '华辰', '国际饭店', ' ', '四层', '会议厅', '(', '杭州', '平', '海路', '27', '号', ')', '\u3000', '\u3000', '南京', '\u3000', '\u3000', '时间', ':', '2005', '年', '10', '月', '17', '日', '-', '19', '日', ' ', ' ', ' ', '9', ':', '00', '-', '18', ':', '00', '\u3000', '\u3000', '地址', ':', '南京', '希尔顿', '国际', '大酒店', ' ', '二层', 'A', '厅', '(', '南京', '中山东路', '319', '号', ')', '\u3000', '\u3000', '上海', '\u3000', '\u3000', '时间', ':', '2005', '年', '10', '月', '21', '日', '-', '23', '日', ' ', '9', ':', '00', '-', '18', ':', '00', '\u3000', '\u3000', '地址', ':', '上海图书馆', ' ', '第一', '展厅', '(', '上海市', '淮海中路', '1555', '号', ')', '\u3000', '\u3000', '济南', '\u3000', '\u3000', '时间', ':', '2005', '年', '10', '月', '27', '日', '-', '29', '日', ' ', '9', ':', '00', '-', '18', ':', '00', '\u3000', '\u3000', '地址', ':', '山东', '大厦', ' ', '一层', '多功能厅', '(', '济南市', '马鞍山', '路', '2', '-', '1', '号', ')', '\u3000', '\u3000', '北京', '\u3000', '\u3000', '时间', ':', '2005', '年', '11', '月', '1', '日', '-', '3', '日', ' ', '9', ':', '00', '-', '18', ':', '00', '\u3000', '\u3000', '地址', ':', '北京', '港澳', '中心', ' ', '二层', '宴会', '大厅', '(', '北京', '朝阳门', '北大街', '2', '号', ')', '\u3000', '\u3000', '\u3000', '\u3000', '拍', ' ', '卖', ' ', '预', ' ', '展', '\u3000', '\u3000', '时间', ':', '2005', '年', '11', '月', '23', '日', '-', '25', '日', ' ', ' ', ' ', '9', ':', '00', '-', '20', ':', '00', '\u3000', '\u3000', '地点', ':', '北京', '亚洲', '大酒店', '(', '北京', '工体', '北路', '新中', '西街', '8', '号', ')', '\u3000', '\u3000', '拍', ' ', ' ', ' ', ' ', ' ', '卖', '\u3000', '\u3000', '时间', ':', '\u3000', '\u3000', '2005', '年', '11', '月', '26', ' ', ' ', ' ', '上午', '9', ':', '30', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', '2005', '年', '11', '月', '26', ' ', ' ', '下午', '13', ':', '00', '\u3000', '\u3000', '中国书画', '(', '一', ')', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', '中国书画', '(', '二', ')', '\u3000', '\u3000', '2005', '年', '11', '月', '27', ' ', ' ', ' ', '上午', '9', ':', '30', '\u3000', '\u3000', '中国书画', '(', '三', ')', ' ', ' ', '-', '-', '《', '当代', '中国画', '风貌', '》', '\u3000', '\u3000', '2005', '年', '11', '月', '27', ' ', ' ', '下午', '13', ':', '00', '\u3000', '\u3000', '中国', '油画', '\u3000', '\u3000', '地点', ':', '北京', '亚洲', '大酒店', ' ', '三层', '多功能厅', '(', '北京', '工体', '北路', '新中', '西街', '8', '号', ')', '\u3000', '\u3000', '搜狗', '(', 'www', '.', 'sogou', '.', 'com', ')', '搜索', ':', '“', '书画', '”', ',', '共', '找到', '2', ',', '095', ',', '334', '\n', '个', '相关', '网页', '.', '\x00', '\x00'], 'C000023')
(['\u3000', '\u3000', '新华网', '深圳', '3', '月', '3', '日电', '(', '记者', '贾文军', ')', '全国', '拳击', '锦标赛', '3', '日', '在', '深圳市', '龙岗', '体育中心', '拉开战幕', ',', '在', '接下来', '的', '一周', '里', ',', '来自', '全国', '各地', '的', '200', '多名', '拳击', '健儿', '将', '在', '这里', '展开', '角逐', '。', '\n', '\n', '\u3000', '\u3000', '本次', '锦标赛', '由', '国家体育总局', '拳击', '跆拳道', '运动', '管理中心', '主办', '。', '比赛', '设置', '了', '51', '公斤', '、', '57', '公斤', '、', '64', '公斤', '、', '75', '公斤', '和', '91', '公斤', '5', '个', '级别', ',', '全国', '各地', '共有', '45', '支', '代表队', '参赛', '。', '\n', '\n', '\u3000', '\u3000', '此前', ',', '中国', '拳击', '队', '已经', '在', '深圳', '进行', '了', '3', '个', '月', '的', '冬训', '。', '国家体育总局', '拳击', '跆拳道', '运动', '管理中心', '副', '主任', '崔', '富国', '表示', ',', '要', '通过', '这次', '比赛', '来', '检验', '冬训', '的', '成果', ',', '也', '要', '根据', '比赛', '成绩', '为', '2008', '年', '北京', '奥运会', '选拔', '优秀人才', '。', '\n'], 'C000014')
(['\u3000', '\u3000', '中广网', '5', '月', '9', '日', '广州', '图库', '消息', '(', '记者', '何伟奇', ' ', '通讯员', '仇文确', ')', '据', '广东', '肇庆', '图库', '旅游', '部门', '统计', ',', '“', '五一', '”', '黄金周', '到', '肇庆', '各地', '主要', '旅游', '景区', '的', '游客', '人数', '达', '106', '万人次', ',', '与', '去年', '同期相比', '增长', '16%', ',', '其中', '城市', '接待', '旅游者', '人数', '为', '55.95', '万人次', ',', '同比', '增长', '10.2%', ',', '旅游', '收入', '2.09', '亿元', ',', '同比', '增长', '12.4%', '。', '\n', '\u3000', '\u3000', ' ', '\n', '\n', '\n', '\n', '\n', '\n', '\n', '\u3000', '\u3000', '\u3000', '“', '五一', '”', '黄金周', '肇庆', '鼎湖山', '举行', '“', '山泉', '泼水节', '”', '\n', '\u3000', '\u3000', '“', '五一', '”', '黄金周', '期间', ',', '七星岩', '图库', '推出', '的', '“', '十里', '走单骑', '”', '自行车', '环湖', '游', '、', '鼎湖山', '“', '山泉', '泼水节', '”', '、', '德庆', '醇正', '岭面', '古迹', '游', '、', '封开', '萝筐', '节', '、', '梦多奇', '溶洞', '、', '怀集', '燕峰峡', '温泉', '漂流', '、', '广宁', '竹海', '美食', '、', '四', '会', '造纸', '村', '访古', '、', '高', '要', '生态园', '寻梦', '等', '活动', '让', '游客', '感受', '到', '肇庆', '千里', '旅游', '走廊', '旅游', '“', '天天', '有', '新意', '、', '日日', '景', '不同', '”', '的', '休闲', '旅游', '新体验', '。', '\n', '\u3000', '\u3000', '\n', '\n', '\u3000', '\u3000', '\u3000', '\u3000', '肇庆', '千里', '旅游', '走廊', '如诗如画', '\n', '\u3000', '\u3000', '今年', '肇庆市', '不断完善', '旅游', '配套', '设施', '建设', ',', '在', '千里', '旅游', '走廊', '上', '新', '增设', '了', '多个', '一目了然', '的', '景区', '指引', '牌', ',', '为', '自驾车', '旅游', '人士', '提供', '了', '清晰', '的', '指引', '。', '此外', '还', '加强', '了', '旅游', '安全', '生产', '管理', '和', '规范', '旅游', '服务质量', '管理', ',', '推出', '了', '旅游', '志愿者', '服务', ',', '为', '到达', '景区', '的', '游客', '免费', '提供方便', '指引', ',', '受到', '众多', '中外', '旅游者', '的', '欢迎', '。', '\n', '\u3000', '\u3000', '来源', ':', '中国', '广播网'], 'C000016')
(['\n', '\u3000', '\u3000', '皇帝', '“', '金口', '”', '吓', '走', '奇才', '\n', '\u3000', '\u3000', '詹姆斯', '绝对', '全能', ',', '能', '突破', '、', '能', '投篮', '、', '能', '运球', '、', '能', '传球', ',', '还', '能', '…', '…', '用', '嘴', '赢得', '比赛', '。', '在', '骑士队', '114', '比', '113', '战胜', '奇才队', '以', '总比分', '4', '比', '2', '晋级', '东区', '半决赛', '的', '比赛', '中', ',', '詹姆斯', '就', '施展', '了', '一回', '他', '的', '嘴', '上', '功夫', ',', '仅', '只言片语', '就', '说', '得', '阿里', '纳斯罚', '输', '了', '比赛', '。', '刚刚', '在', '联盟', '里', '混', '了', '三年', '的', '詹姆斯', ',', '已经', '开始', '向伯德', '、', '米勒', '等', '“', '口技', '”', '出众', '的', '老前辈', '看齐', '了', '。', '\n', '\u3000', '\u3000', '现场', ' ', '一', '张嘴', '战败', '一', '双手', '\n', '\u3000', '\u3000', '阿里', '纳斯有', '一双', '投手', '的', '手', ',', '这', '双手', '可以', '让', '他', '投中', '三分', '线', '两米', '开外', '的', '三分球', ',', '可以', '让', '他', '在', '对', '骑士队', '的', '生死', '大战', '上', '独得', '36', '分', '。', '然而', '阿里', '纳斯', '没有', '想到', ',', '当', '这', '双', '可以', '把', '罚球', '命中率', '控制', '在', '80', '%', '以上', '的', '手', '遭遇', '詹姆斯', '宽', '而', '厚', '的', '双唇', '时', ',', '竟然', '抖', '得', '连', '一个', '球', '也', '罚', '不进', '。', '\n', '\u3000', '\u3000', '是', '阿里', '纳斯', '的', '手', '葬送', '了', '奇才队', ',', '还是', '从', '詹姆斯', '唇间', '吐出', '的', '只言片语', '成就', '了', '骑士', '?', '\n', '\u3000', '\u3000', '一切', '应该', '从', '比赛', '最后', '两秒', '说起', '。', '当时', ',', '得到', '球', '的', '阿里', '纳斯', '没有', '选择地', '在', '三分', '线', '两米', '开外', '起跳', '投篮', '。', '球', '出手', '后', ',', '阿里', '纳斯', '的', '双眼', '一直', '盯', '着', '皮球', '在', '空中', '飞行', '的', '轨迹', ',', '当球', '进筐', '的', '一刹那', ',', '阿里', '纳斯', '几乎', '和', '全场', '观众', '的', '惊呼', '声', '同步', '举起', '双手', '。', '这', '是', '他', '对', '这', '双手', '的', '感谢', ',', '是', '它们', '让', '奇才队', '出现', '了', '一丝', '生', '的', '希望', '。', '或许', ',', '当时', '的', '阿里', '纳斯', '已经', '开始', '认为', '胜利', '女神', '在', '这', '一天', '是', '站', '在', '他们', '这边', '的', '。', '\n', '\u3000', '\u3000', '可', '一切', '并', '不', '顺利', ',', '阿里', '纳斯', '的', '最后', '一投', '好像', '耗尽', '了', '他', '的', '神奇', '。', '在', '加时赛', '里', ',', '骑士队', '的', '防守', '让', '他', '一分', '未得', '。', '直到', '比赛', '还', '剩', '15', '秒', ',', '休斯', '对', '阿里', '纳斯', '犯规', ',', '后者', '才', '获得', '了', '两次', '轻易', '得分', '的', '罚球', '机会', '。', '而', '这时', ',', '奇才队', '领先', '一分', '。', '\n', '\u3000', '\u3000', '本赛季', '罚球', '命中率', '高达', '82%', '的', '阿里', '纳斯', '走上', '了', '罚球线', ',', '在', '习惯性', '的', '将', '球', '绕身', '三周', '之后', ',', '他', '的', '第一', '罚', '并', '没有', '罚中', '。', '手感', '还', '没有', '恢复', ',', '阿里', '纳斯', '深吸', '了', '一口气', '。', '\n', '\u3000', '\u3000', '就', '在', '这时', ',', '詹姆斯', '走', '到', '阿里', '纳斯', '身边', ',', '拍', '着', '对方', '的', '胸口', ',', '低着头', '轻轻地', '说道', ':', '“', '如果', '你', '连', '第二', '罚', '也', '错失', '了', ',', '你', '知道', '谁', '会', '来', '终结', '比赛', '。', '”', '在', '之前', '第三场', '和', '第五场', '的', '较量', '中', ',', '骑士队', '均', '以', '一分', '优势', '险胜', ',', '而且', '都', '是', '由', '詹姆斯', '在', '最后', '时刻', '强攻', '上篮', '投中', '制胜球', '。', '\n', '\u3000', '\u3000', '阿里', '纳斯', '的', '表情', '变得', '很', '凝重', ',', '而', '他', '的', '罚篮', '准备', '动作', '也', '发生', '了', '改变', '。', '他', '第二次', '罚球', '前', ',', '并', '没有', '在', '腰间', '绕球', ',', '而是', '直接', '罚篮', '。', '这是', '平时', '的', '阿里', '纳斯', '绝不会', '做', '的', '事情', '。', '阿里', '纳斯', '心急', '了', ',', '方寸大乱', '!', '结果', ',', '第二', '罚球', '偏得', '比', '第一', '罚时', '还', '离谱', '。', '骑士队', '反攻', '的', '机会', '来', '了', '。', '\n', '\u3000', '\u3000', '战术', ' ', '皇帝', '发话', ' ', '小兵', '下手', '\n', '\u3000', '\u3000', '詹姆斯', '真的', '履行', '了', '对', '阿里', '纳斯', '的', '“', '诺言', '”', ',', '在', '接下来', '的', '进攻', '中', '对', '奇才队', '进行', '了', '绝杀', '吗', '?', '没有', '。', '完成', '绝杀', '的', '是', '阿里', '纳斯', '根本', '想不到', '的', '达蒙', '·', '琼斯', '。', '应该', '说', ',', '詹姆斯', '的话', '完全', '是', '一次', '攻心', '战术', '。', '\n', '\u3000', '\u3000', '在', '阿里', '纳斯罚', '失两球', '后', ',', '骑士队', '随即', '叫', '了', '暂停', '。', '主帅', '布朗', '布置', '了', '他', '这场', '比赛', '的', '最后', '一个', '战术', ':', '詹姆斯', '主攻', ',', '休斯', '接应', ',', '如果', '休斯', '还', '没有', '机会', ',', '球', '就', '交给', '琼斯', '投', '。', '\n', '\u3000', '\u3000', '比赛', '再次', '开始', ',', '詹姆斯', '一', '接到', '球', ',', '阿里', '纳斯', '和', '丹尼尔斯', '马上', '跟', '出', '三分', '线', ',', '对', '詹姆斯', '进行', '包夹', ',', '奇才队', '显然', '不', '希望', '再', '重蹈', '前', '几场', '的', '覆辙', ',', '因此', '立刻', '对', '其', '采取', '包夹', '战术', '。', '已经', '知道', '如何', '应对', '的', '“', '小', '皇帝', '”', '将球', '传给', '休斯', ',', '而', '在', '一旁', '防守', '琼斯', '的', '巴特勒', '立刻', '选择', '了', '放弃', '对', '琼斯', '的', '防守', ',', '去', '盯防', '休斯', '。', '而', '此时', '琼斯', '在', '底线', '无人', '防守', ',', '休斯', '立即', '传球', ',', '琼斯', '一击', '命中', '。', '\n', '\u3000', '\u3000', ' ', '\n', '“', '很', '显然', ',', '胜利', '女神', '今晚', '并', '没有', '站', '在', '我们', '这边', '。', '你', '能', '想象', '吗', '?', '一个', '罚球', '命中率', '在', '80%', '的', '投手', ',', '在', '最后', '时刻', '竟然', '两罚', '不', '中', '。', '我', '只能', '说', ',', '今晚', '太', '糟糕', '了', '。', '”', '比赛', '已经', '结束', ',', '阿里', '纳斯', '还', '在', '想着', '刚才', '发生', '的', '事情', '。', '\n', '\u3000', '\u3000', '历史', ' ', '“', '邮差', '周日', '不', '送信', '”', '\n', '\u3000', '\u3000', '詹姆斯', '并', '不是', '第一个', '使用', '攻心', '战术', '帮助', '球队', '获胜', '的', '人', '。', '这', '其中', '最', '经典', '的', '莫过于', '原', '公牛队', '著名', '球星', '皮蓬', '对', '马龙', '说', '的', '那句', '“', '邮差', '周日', '不', '送信', '”', ',', '简直', '就是', '詹姆斯', '对', '阿里', '纳斯', '的', '翻版', '。', '\n', '\u3000', '\u3000', '1996', '-', '97', '赛季', '公牛', '与', '爵士', '总决赛', '第六场', ',', '那', '是', '一个', '星期天', '。', '两支', '球队', '杀得', '难解难分', ',', '终场', '前', '35', '秒', '战成', '82', '比', '82', '平', '。', '马龙', '在', '最后', '关头', '获得', '罚球', '机会', ',', '但', '站', '在', '一边', '的', '皮蓬', '对', '绰号', '“', '邮差', '”', '的', '马龙', '说', ':', '“', '星期天', '邮差', '不', '送信', '。', '”', '一句', '话', '让', '马龙', '“', '心惊胆战', '”', ',', '结果', '终场', '前', '9.2', '秒', '居然', '两次', '关键', '罚球', '砸', '筐', '而', '出', '。', '\n', '\u3000', '\u3000', '而', '此后', '“', '飞人', '”', '乔丹', '在', '下', '一', '回合', '进攻', '时', ',', '一个', '胯下', '运球', ',', '突然', '急停', '并', '向', '后撤', '步', ',', '一记', '稳稳', '的', '跳投', '随着', '终场哨', '响', '飞入', '篮筐', ',', '公牛队', '84', '比', '82', '两分', '险胜', '。', '这一球', '也', '是', '近', '20', '年来', 'NBA', '总决赛', '中', '惟一', '一个', '真正', '的', '压哨', '绝杀', '球', '。', '\n', '\u3000', '\u3000', '“', '口技', '大师', '”', ' ', '各有', '绝活', '\n', '\u3000', '\u3000', '用', '言语', '干扰', '对手', '心态', ',', '从', '精神', '上', '击败', '对手', '的', '情况', '在', 'NBA', '的', '赛场', '上', '很', '普遍', ',', '包括', '伯德', '、', '乔丹', '、', '米勒', '在内', '的', '一批', '天皇巨星', '都', '会', '利用', '这', '招来', '打击', '对手', '的', '自信心', '。', '然而', '每位', '巨星', '运用', '“', '口技', '”', '的', '特点', '却', '各不相同', '。', '\n', '\u3000', '\u3000', '伯德', ' ', '先知', '型', '\n', '\u3000', '\u3000', '伯德', '喜欢', '对', '某个', '事件', '进行', '“', '预测', '”', ',', '再', '把', '他', '“', '预测', '”', '的', '结果', '告诉', '对手', ',', '最后', '用', '自己', '的', '实力', '将', '他', '的', '“', '预言', '”', '实现', '。', '\n', '\u3000', '\u3000', '“', '我要', '在', '这里', '进', '三分', '送', '你们', '回家', '。', '”', '—', '—', '伯德', '在', '一场', '比赛', '的', '最后', '一次', '进攻', '前', '指着', '三分', '线外', '的', '一块', '地板', '对', '对手', '说', ',', '当时', '拥有', '进攻', '权', '的', '凯尔特人', '队', '与', '对手', '平分', '。', '结果', '界外球', '开出', '后', ',', '伯德', '真的', '在', '那里', '接球', '投进', '压哨', '三分', ',', '赢下', '比赛', '。', '\n', '\u3000', '\u3000', '“', '你们', '决定', '谁', '要', '拿', '第二名', '了', '吗', '?', '”', '—', '—', '1986', '年', '全明星', '三分球', '大赛', '前', ',', '伯德', '一进', '休息室', '就', '问', '所有', '参赛者', '。', '伯德', '最终', '夺得', '了', '那届', '三分', '大赛', '的', '冠军', '。', '\n', '\u3000', '\u3000', '乔丹', ' ', '显摆', '型', '\n', '\u3000', '\u3000', '乔丹', '喜欢', '向', '所有人', '炫耀', '自己', '的', '超人', '实力', ',', '因此', ',', '使用', '“', '口技', '”', '也', '就', '变成', '了', '他', '向', '对手', '显摆', '的', '工具', '。', '在', '他', '使用', '这', '招时', ',', '完全', '是', '一副', '上帝', '对', '凡人', '训诫', '的', '模样', '。', '\n', '\u3000', '\u3000', '“', '你', '投', '呀', ',', '我', '让', '你', '投', '…', '…', '投呀', '!', '”', '—', '—', '乔丹', '在', '防守', '时', '最常', '说', '的话', ',', '通常', '情况', '下', '对手', '都', '会', '投篮不中', '。', '\n', '\u3000', '\u3000', '“', '加油', ',', '你', '差点', '就', '守住', '我', '了', '。', '”', '—', '—', '乔丹', '在', '进攻', '得手', '之后', '最常', '说', '的话', '。', '\n', '\u3000', '\u3000', '姚明', ' ', '\n', '努力', '型', '\n', '\u3000', '\u3000', '别以为', '母语', '是', '汉语', '的', '姚明', '不会', '使用', '“', '口技', '”', '。', '在', 'NBA', '征战', '了', '三个', '赛季', '的', '姚明', '融入', 'NBA', '是', '全方位', '的', ',', '在', '口技', '方面', '虽然', '不比', '之前', '几位', '大师', ',', '但', '也', '有', '上乘之作', '。', '\n', '\u3000', '\u3000', '“', '我要', '打得', '你', '把', '护齿', '都', '吞下去', '。', '”', '—', '—', '2005', '年', '2', '月', '10', '日', ',', '在', '火箭队', '105', '比', '92', '战胜', '公牛队', '的', '比赛', '中', ',', '姚明', '对', '公牛队', '中锋', '钱德勒', '说', '。', '在', '说完', '这句', '话', '后', ',', '姚明', '在', '对手', '头上', '连得', '6', '分', '。', '是', '役', ',', '他', '10', '投', '9', '中', '砍', '下', '21', '分', '。', '\n', '\u3000', '\u3000', '“', '口技', '对决', '”', '米勒', '太嫩', '\n', '\u3000', '\u3000', '使用', '“', '口技', '”', '攻击', '对手', ',', '并', '不是', '百分之百', '能', '成功', '的', '。', '在', 'NBA', '的', '历史', '中', ',', '经常', '使用', '“', '口技', '”', '的', '雷杰', '·', '米勒', '就', '碰到', '过', '使用', '“', '口技', '”', '得到', '反', '效果', '的', '事情', ',', '因为', '他', '攻击', '的', '对象', '是', '心理素质', '超强', '且', '更', '擅长', '“', '口技', '”', '的', '伯德', '。', '\n', '\u3000', '\u3000', '在', '米勒', '的', '新秀', '赛季', ',', '年轻', '的', '米勒', '在', '步行者队', '的', '主场', '第一次', '碰到', '伯德', '。', '当时', '步行者队', '落后', '两分', ',', '伯德', '获得', '罚球', '机会', '。', '米勒', '随即', '向伯德', '发出', '“', '嘿', '!', '嘿', '!', '”', '的', '干扰', '声', '。', '“', '你', '没', '开玩笑', '吧', ',', '菜鸟', '?', '”', '伯德', '对', '米勒', '说', ',', '然后', '从容', '地', '罚进', '一', '球', '。', '当伯德', '再次', '得到', '球时', ',', '他', '又', '说', ':', '“', '菜鸟', ',', '我', '告诉', '你', ',', '我', '是', '现在', '联盟', '里', '最', '顶尖', '的', '投手', ',', '全', 'NBA', '!', '知道', '吗', '?', '你', '还有', '什么', '想', '说', '的', '吗', '?', '”', '接着', ',', '伯德', '又', '罚进', '一', '球', '。', '“', '我', '当时', '真是', '蠢到', '十八层', '地狱', '去', '了', '。', '”', '米勒', '在', '自己', '的', '回忆录', '中', '提到', '这', '段', '往事', '时', ',', '评价', '自己', '当时', '的', '表现', '说', '。'], 'C000014')
(['\n', '【', '倾城', '之恋', '】', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', ' ', '1984', '年', '香港', '邵氏', '公司出品', '\n', '倾城', '之恋', '\n', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', ' ', '到处', '都', '是', '传奇', ',', '可', '不见得', '有', '这么', '圆满', '的', '收场', '。', '胡琴', '咿咿呀呀', '拉着', ',', '在', '万盏', '灯火', '的', '夜晚', ',', '拉过来', '又', '拉', '过去', ',', '说', '不尽', '的', '苍凉', '的', '故事', '—', '—', '不问', '也罢', '!', '---', '【', '倾城', '之恋', '】', '\n', '出品', ':', '邵逸夫', '原著', ':', '张爱玲', '改编', ':', '蓬草', '美术', ':', '区丁平', '摄影', ':', '何东尼', '作曲', ':', '林敏怡', '作词', ':', '林敏聪', '演唱', ':', '汪明荃', '片长', ':', '95min', '语言', ':', '粤语', '/', '普通话', '外文', '别名', ':', 'Love', ' ', 'in', ' ', 'a', ' ', 'FallenCity', '(', '1984', ')', '副', '导演', ':', '关锦鹏', '、', '曹建南', '导演', ':', '许鞍华', '主演', ':', '周润发', '&', 'nbsp', ';', ' ', '饰', '&', 'nbsp', ';', ' ', '范柳原', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', ' ', '缪骞', '人', '&', 'nbsp', ';', ' ', '饰', '&', 'nbsp', ';', ' ', '白流苏', '获奖', ':', '第', '25', '届', '金马奖', '最佳', '服装设计', ' ', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', ' ', '第', '4', '届', '香港电影', '金像奖', '最佳', '音乐', '\n', '【', '剧情简介', '】', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', '&', 'nbsp', ';', ' ', '本片', '改编自', '张爱玲', '的', '同名', '原著', '小说', ',', '是', '一部', '具有', '相当', '怀旧', '色彩', '的', '爱情故事', ',', '讲述', '一个', '城市', '(', '香港', ')', '的', '陷落', ',', '是', '为了', '成全', '范柳原', '(', '周润发', ')', '和', '白流苏', '(', '缪骞', '人', ')', '的', '爱情', '。', '导演', '许鞍华', '捕捉到', '了', '男女之间', '那种', '似假', '还', '真的', '微妙', '感情', ',', '但', '对白', '有所', '拘紧', ',', '局限', '在', '原著', '小说', '中', ',', '有', '欠', '挥洒自如', '。', '本片', '的', '情节', '发展', '为', '前后', '二', '部分', ',', '前半部', '描写', '离婚', '多年', '的', '白流苏', '在', '上海', '的', '娘家', '饱爱', '兄嫂', '的', '讽刺', '欺凌', ',', '后半部', '白流苏', '到', '了', '香港', ',', '跟', '风流', '浪子', '周润发', '展开', '了', '拉锯', '式', '的', '爱情', '。', '缪演', '得', '相当', '敏感', '而', '细腻', ',', '把', '一个', '不错', '的', '上海', '女子', '塑造', '得', '相当', '有', '味道', ',', '而周', '也', '卖弄', '了', '他', '的', '俊雅', '潇洒', '。', '幸而', '导演', '掌握', '了', '对白', '独有', '的', '尖刻', '嘲讽', ',', '重现', '了', '香港', '四十年代', '的', '风情', '。', '上', '一页', '&', 'nbsp', ';', '[', '1', ']', '&', 'nbsp', ';', '[', '2', ']', '&', 'nbsp', ';', '[', '3', ']', '&', 'nbsp', ';', '[', '4', ']', '&', 'nbsp', ';', '[', '5', ']', '&', 'nbsp', ';', '[', '6', ']', '&', 'nbsp', ';', '[', '7', ']', '&', 'nbsp', ';', '[', '8', ']', '&', 'nbsp', ';', '[', '9', ']', '&', 'nbsp', ';', '下', '一页', '&', 'nbsp', ';'], 'C000023')
(['\u3000', '\u3000', '时报讯', ' ', '昨天', '是', '五一', '黄金周', '的', '最后', '一天', ',', '游客', '们', '纷纷', '踏上', '了', '回家', '的', '旅程', ',', '宁波', '各大', '景区', '全面', '“', '退烧', '”', '。', '而', '此时', ',', '宁波', '的', '各大', '餐饮', '商场', '负责人', '却', '喜笑颜开', '。', '\n', '\u3000', '\u3000', '宁波市', '假日办', '统计数据', '显示', ',', '7', '天', '时间', '内', ',', '宁波市', '共', '接待', '游客', '216', '.', '3', '万人次', ',', '创', '历年', '五一', '黄金周', '新高', '。', '全市', '旅游', '总收入', '达', '12', '.', '9', '亿元', '人民币', ',', '同比', '增长', '12', '.', '5%', '。', '也就是说', ',', '游客', '在', '宁波', '的', '人均', '旅游', '单项', '消费', '近', '600', '元', '。', '\n', '\u3000', '\u3000', '随着', '人们', '旅游', '需求', '层次', '的', '提高', ',', '旅游', '正', '从', '观光', '时代', '转向', '休闲', '时代', ',', '这个', '特点', '在', '今年', '更为', '明显', '。', '“', '吃', '农家饭', '、', '住', '农家', '屋', '、', '学', '农家', '活', '、', '享', '农家乐', '”', ',', '乡村', '旅游', '景区', '成为', '了', '热点', '。', '\n', '\u3000', '\u3000', '从', '宁波市', '接待', '的', '游客', '分布', '情况', '分析', ',', '大部分', '来自', '省内', '周边地区', '和', '上海', '、', '江苏', '等', '地', ',', '景区', '内', '各地', '牌照', '的', '私家车', '成为', '亮点', '和', '看点', ',', '特别', '是', '随着', '高速公路', '网络', '的', '完善', ',', '来自', '长三角', '地区', '、', '福建', '、', '江西', '等', '地', '的', '私家车', '明显', '增多', ',', '宁波市', '已', '成为', '长三角', '地区', '一个', '重要', '的', '旅游', '目的地', '。', '\n', '\u3000', '\u3000', '今年', '的', '五一', '黄金周', ',', '宁波', '游客', '的', '出游', '观念', '趋于', '理性', '。', '和', '去年', '相比', ',', '出境游', '人数', '下降', ',', '国内游', '人数', '增长', ',', '但', '长线', '游', '的', '人数', '增长幅度', '不', '大', ',', '短线', '游', '和', '休闲', '度假', '线', '人气旺盛', '。', '宁波', '市民', '长线', '游', '主要', '集中', '在', '北京', '、', '海南', '、', '桂林', '[', '图库', ']', '、', '西安', '[', '图库', ']', '、', '大连', '[', '图库', ']', '、', '香港', '等', '地', ',', '长三角', '周边', '景点', '成为', '短线', '游', '的', '热点', '。', '甬金', '高速', '开通', '以后', ',', '往', '金华', '、', '江西', '方向', '的', '游客', '数量', '也', '呈', '快速增长', '态势', '。', '\n', '\u3000', '\u3000'], 'C000016')
(['\u3000', '\u3000', '新华社', '电', ' ', '美国宇航局', '官员', '近日', '说', ',', '宇航局', '已', '决定', '设立', '一项', '总', '奖金', '为', '2', '5', '0', '万美元', '的', '大奖赛', ',', '希望', '用', '这种', '方式', '选出', '未来', '登陆', '月球', '的', '飞行器', '设计方案', '。', '\n', '\u3000', '\u3000', '美宇航局', '副局长', '戴尔', '5', '月', '5', '日', '在', '加利福尼亚州', '举行', '的', '一次', '航天', '会议', '上', '说', ',', '宇航局', '已', '选定', '“', 'X', '大奖', '”', '基金会', '管理', '这项', '竞赛', ',', '宇航局', '除了', '出', '奖金', '外', ',', '也', '将', '在', '未来', '的', '月球', '登陆', '计划', '中', '应用', '获奖', '方案', '。', '\n', '\u3000', '\u3000', '这项', '大奖赛', '要求', '参赛者', '设计', '出能', '在', '月球', '上', '飞行', '、', '着陆', '的', '飞行器', '原型', '。', '“', 'X', '大奖', '”', '基金会', '说', ',', '它', '将', '比赛', '分成', '两个', '级别', ',', '在', '地球', '上', '模拟', '月球', '飞行', '。', '第一阶段', ',', '参赛', '飞行器', '要求', '从', '地球', '上', '的', '发射点', '发射', '到', '5', '0', '米', '高度', ',', '盘旋', '飞行', '9', '0', '秒钟', ',', '并', '在', '距', '发射点', '1', '0', '0', '米处', '的', '指定', '地点', '着陆', ',', '比赛', '的', '第一名', '将', '获得', '3', '5', '万美元', '奖金', '。', '\n', '\u3000', '\u3000', '而', '第二级', '别的', '难度', '高得', '多', '。', '参赛', '飞行器', '要求', '从', '发射点', '发射', '至', '5', '0', '米', '高度', ',', '盘旋', '飞行', '1', '8', '0', '秒', ',', '并', '在', '1', '0', '0', '米外', '类似', '月球', '表面', '的', '一处', '崎岖', '地点', '精确', '着陆', '。', '这项', '比赛', '的', '第一名', '将', '获得', '1', '2', '5', '万美元', '的', '奖金', ',', '其', '方案', '很', '可能', '被', '宇航局', '采纳', ',', '作为', '未来', '登陆', '月球', '的', '飞行器', '的', '原型', '。', '\n', '\u3000', '\u3000', '“', 'X', '大奖', '”', '基金会', '因', '举办', '私人', '设计', '航天器', '大奖赛', '而', '著名', ',', '著名', '航天', '设计师', '伯特', '·', '鲁坦', '设计', '的', '“', '宇宙飞船', '一号', '”', '于', '2', '0', '0', '4', '年', '成功', '地', '飞入', '亚', '轨道', ',', '成为', '全世界', '第一个', '私人', '设计', '建造', '的', '航天器', ',', '并', '赢得', '了', '1', '0', '0', '0', '万美元', '的', '“', 'X', '大奖', '”', '。'], 'C000013')
(['\u3000', '\u3000', '大学生', '小', '袁', '网上', '投', '简历', '求职', ',', '一家', '自称', '设在', '广东', '的', '跨国公司', '分公司', '很快', '就', '打来', '电话', '进行', '“', '面试', '”', '。', '然而', '小', '袁', '查询', '该', '公司', '在', '上海', '的', '总部', '得知', ',', '他们', '没有', '在', '广东', '设立', '分公司', ',', '也', '没有', '在', '广东', '进行', '招聘', '。', '警方', '提醒', ',', '这', '很', '可能', '是', '个', '骗局', '。', '\n', '\u3000', '\u3000', '小', '袁是', '在', '一', '知名', '人才', '网站', '上', '发出', '电子', '简历', '的', ',', '令小', '袁', '意外', '的', '是', ',', '简历', '没投', '几天', ',', '就', '有', '一家', '比较', '知名', '的', '半导体', '跨国公司', '给', '自己', '打', '来', '电话', '。', '一位', '姓', '曹', '的', '女士', '告诉', '他', ',', '公司', '现在', '正要', '\n', '\u3000', '\u3000', '引进', '一批', '毕业生', ',', '年前', '就', '到', '岗', '培训', ',', '询问', '小', '袁', '有没有', '去', '的', '意向', '。', '欣喜若狂', '的', '小', '袁', '当即', '就', '同意', '了', '。', '1', '月', '15', '日', ',', '对方', '煞有介事', '地', '给', '小', '袁', '进行', '了', '电话', '招聘', '面试', '。', '三天', '后', ',', '小', '袁', '接到', '电话', '通知', '面试', '通过', '了', ',', '于', '1', '月', '22', '日到', '广东', '东莞', '体检', '、', '复试', '。', '\n', '\u3000', '\u3000', '据', '小', '袁', '所知', ',', '这家', '半导体', '公司', '好像', '是', '在', '上海', ',', '而', '对方', '让', '去', '东莞', '复试', ',', '他', '有点', '纳闷', '。', '曹', '女士', '解释', '说', ',', '公司', '要', '在', '东莞', '设立', '分点', ',', '亟待', '一批', '相关', '专业', '的', '大学生', '加盟', '。', '随后', ',', '她', '又', '把', '公司', '丰厚', '的', '工资', '、', '住房', '待遇', '向小袁', '作', '了', '一番', '介绍', '。', '\n', '\u3000', '\u3000', '小', '袁', '动心', '了', ',', '1', '月', '17', '日', '他', '来到', '火车站', ',', '准备', '预订', '到', '东莞', '的', '车票', '。', '由于', '没有', '直达车', ',', '到', '广州', '的', '票', '也', '没有', '了', ',', '他', '只好', '又', '回到', '了', '学校', '。', '此时', ',', '冷静下来', '的', '小', '袁才', '感觉', '事情', '有点', '不对劲', '。', '随后', ',', '他', '上网', '搜索', '了', '这家', '公司', '的', '详细资料', ',', '发现', '只有', '上海', '总部', '在', '发布', '招聘启事', ',', '其他', '地方', '根本', '就', '没有', '设立', '分公司', '。', '东莞', '的', '114', '也', '根本', '查不到', '这家', '公司', '的', '电话', '。', '\n', '\u3000', '\u3000', '随后', ',', '小', '袁', '拨打', '了', '东莞', '110', '报警', '电话', ',', '当地', '民警', '告知', '这', '很', '可能', '是', '个', '骗局', '。', '此前', '就', '有', '不少', '急于', '找', '工作', '的', '大学生', ',', '被', '不法分子', '骗进', '传销', '窝点', '。', '\n', '\u3000', '\u3000', '(', '来源', ':', '北京', '人才', '市场报', ')'], 'C000022')
(['\u3000', '\u3000', '话题', '多', '、', '题材', '广', '、', '时间', '紧', '、', '要求', '高', '的', '议论文', '写作', '一直', '是', '雅思', '写作', '中', '的', '难点', ',', '思维', '狭窄', '、', '词汇', '不足', '也', '一直', '是', '中国', '考生', '的', '通病', ',', '如何', '在', '议论文', '写作', '中', '拓宽', '思路', '?', '怎样', '背诵', '8000', '个', '雅思', '词汇', '?', '备考', '雅思', '写作', '的', '误区', '和', '应对', '方法', '又', '是', '什么', '?', '上周末', ',', '启德', '教育', '吴建业', '老师', '在', '广州', '图书馆', '给', '广大', '考生', '上', '了', '一堂', '生动', '的', '雅思', '议论文', '写作', '课', '。', '\n', '\u3000', '\u3000', '开拓', '思维', '的', '十大', '原则', '\n', '\u3000', '\u3000', '据统计', ',', '近年来', '雅思', '议论文', '写作', '共有', '265', '个', '话题', ',', '常考', '的', '涉及', '环保', '、', '经济', '、', '社会', '、', '教育', '、', '犯罪', '等', '题材', ',', '十分', '广泛', '。', '鉴于', '很多', '考生', '写作', '时', '感觉', '无话可说', ',', '吴建业', '提醒', '考生', '从', '经济', '、', '时间', '、', '健康', '、', '情感', '、', '教育', '、', '心理', '、', '权利', '、', '文化', '、', '环保', '和', '道德', '十大', '原则', '来', '思考', '话题', '的', '意义', '。', '他', '以养', '狗', '为例', ':', '经济', '上要', '花', '很多', '钱', ';', '情感', '上', '亲近', '狗', '就', '会', '在', '一定', '程度', '上', '疏远', '家人', ';', '遛狗', '、', '给', '狗', '冲凉', '等', '浪费时间', ';', '狗', '传播', '疾病', '会', '影响', '健康', ';', '养狗会', '影响', '学习', ';', '狗', '很', '忠诚', ',', '养狗会', '让', '人', '从', '心理', '上', '疏远', '狡诈', '的', '人类', ';', '侵犯', '邻居', '的', '权利', ';', '狗', '到处', '排泄', '会', '破坏', '环境', '等', '。', '“', '这样', '大家', '碰到', '任何', '一个', '话题', '都', '不用', '心虚', '了', '。', '”', '但是', '他', '同时', '提醒', '广大', '考生', '不必', '面面俱到', ',', '只要', '挑出', '十大', '原则', '中', '的', '两三点', '来', '自圆其说', '就', '绰绰有余', '了', '。', '\n', '\u3000', '\u3000', '记住', '800', '个', '核心', '词汇', '\n', '\u3000', '\u3000', '“', '垃圾', '怎么', '说', '?', '可回收', '垃圾', '?', '可降解', '的', '垃圾', '?', '…', '…', '”', '课堂', '上', ',', '吴建业', '关于', '垃圾', '的', '几个', '提问', '难倒', '了', '很多', '在场', '的', '英语专业', '的', '学生', '。', '吴建业', '老师', '表示', ',', '中国', '学生', '在', '学校', '学习', '的', '词汇', '在', '很多', '场合', '用不上', ',', '比如', '英语专业', '八级', '侧重于', '文学名著', ',', '商务英语', '则', '侧重', '谈判', '、', '商业', '词汇', '。', '雅思', '需要', '8000', '词汇', ',', '但', '相当', '一部分', '考生', '疯狂', '地', '从', 'A', '背到', 'Z', ',', '还', '存在', '想', '说', '却说', '不', '出来', ',', '即使', '说', '得', '出来', '也', '衔接', '不来', '的', '问题', '。', '怎么办', '?', '\n', '\u3000', '\u3000', '“', '分类', '背诵', ',', '联想', '记忆', '。', '”', '吴建业', '告诉', '广大', '考生', ',', '只要', '掌握', '了', '800', '个', '词汇', ',', '就', '可', '轻松', '应对', '雅思', '写作', '。', '“', '当然', '这些', '词汇', '是', '剔除', '了', 'dog', '、', 'pig', '之类', '的', '核心', '词汇', '。', '”', '那', '什么', '词才', '叫', '核心', '词汇', '呢', '?', '吴建业', '举', '了', '一个', '例子', ',', '如由', '奢侈', '→', '贫穷', '→', '救助', '→', '难民', '→', '…', '…', ',', '就', '这样', '把', '相关联', '的', '词汇', '串通', '起来', '背诵', ',', '既', '掌握', '了', '词汇', ',', '而', '这些', '词汇', '往往', '是', '一篇', '文章', '中', '可能', '涉及', '的', '内容', '。', '\n', '\u3000', '\u3000', '写', '个性化', '的', '八股文', '\n', '\u3000', '\u3000', '吴', '老师', '还', '指出', '了', '考生', '的', '备考', '误区', '和', '应对', '方法', '。', '针对', '很多', '人', '希望', '通过', '学习', '外文', '名著', '来', '提高', '写作水平', '的', '想法', ',', '吴', '老师', '认为', '外国名著', '对', '大多数', '中国', '考生', '而言', '是', '可望而不可及', '的', '。', '“', '外国人', '学', '汉语', '要', '学习', '汉语', '说得好', '的', '大山', '和', '大牛', ',', '而', '不', '可能', '让', '他们', '学习', '鲁迅', '先生', '的', '《', '药', '》', '、', '《', '孔乙己', '》', '等', '名篇', '。', '”', '同样', ',', '中国', '考生', '要', '学习', '英语', '学得', '优秀', '的', '中国', '人', ',', '他', '认为', '真正', '优秀', '的', '教材', '其实', '是', '中国', '考生', '的', '优秀', '范文', '。', '\n', '\u3000', '\u3000', '提到', '一些', '辅导', '老师', '教育', '学生', '写作文', '一定', '要', '真情流露', ',', '想到', '什么', '就', '说', '什么', ',', '吴', '老师', '认为', '这', '是', '不', '现实', '的', ',', '因为', '对', '大多数', '中国', '考生', '来说', ',', '做到', '挥洒自如', '、', '下笔', '自若', '、', '真情流露', '很难', '。', '而', '很多', '人', '争相', '背诵', '名师', '的', '范文', '又', '搞', '得', '千人一面', ',', '味同嚼蜡', '。', '鉴于', '此', ',', '他', '认为', '既', '要', '学习', '范文', '的', '格式', ',', '又', '要', '有所', '改装', ',', '加入', '自己', '的', '东西', ',', '凸显', '个性', ',', '“', '写', '个性化', '的', '八股文', '”', '。', '\n', '\u3000', '\u3000', '讲座', '上', ',', '吴', '老师', '还', '提醒', '考生', '写作', '时', '不要', '想着', '标新立异', '、', '旁征博引', ',', '只要', '能够', '自圆其说', ',', '多用', '权威', '、', '翔实', '的', '数据', '事例', '来', '说明', '观点', '就', '好', ',', '否则', '会', '画蛇添足', '。'], 'C000020')
(['\u3000', '\u3000', '科龙德', '勤案', '又', '有', '新进展', ':', '已有', '多位', '科龙', 'H股', '股东', '到', '律师', '处', '咨询', '、', '登记', ',', '所涉', '股份', '达', '200', '余万股', '。', '而', '这些', '投资者', '正在', '为', '等待', '提起', '民事', '赔偿', '所', '需', '的', '前置条件', '焦急', '等待', '。', '\n', '\u3000', '\u3000', '4', '月', '29', '日', ',', '上海', '新', '望闻达', '律师', '事务所律师', '宋一欣', '、', '秦桢凯', '在', '中国', '证券', '网上', '发表', '了', '《', '向', '境内', '外科', '龙', 'H股', '投资者', '征集', '民事', '赔偿', '诉讼', '代理', '的', '启事', '》', ',', '全面', '接受', '科龙电器', '流通', 'H股', '及', 'A股', '投资者', '的', '诉讼', '及', '仲裁', '委托', '代理', '事项', '。', '宋一欣', '律师', '告诉', '《', '上海', '证券报', '》', '记者', ',', '“', '《', '启事', '》', '刊登', '当天', ',', '就', '有', 'H股', '股东', '前来', '咨询', '登记', ',', '由于', '五一', '长假', ',', '事务所', '休息', ',', '许多', 'H股', '股东', '想方设法', '找到', '我', '的', '电子信箱', '同', '我', '联系', '。', '截至', '今天', ',', '已有', '七八位', 'H股', '股东', '前来', '咨询', '、', '登记', ',', '所', '涉及', '股份', '己', '达', '50', '余万股', ',', '损失', '金额', '有待', '统计', '。', '这些', 'H股', '股东', '中有', '境外', '居民', '。', '他们', '正', '焦急', '等待', '此案', '前置程序', '的', '满足', '。', '”', '\n', '\u3000', '\u3000', '首位', '代表', '科龙', '股东', '状告', '德勤', '的', '上海市', '光明', '律师', '事务所', '南京', '分', '所', '律师', '涂勇则', '向', '记者', '透露', ':', '“', '多位', '科龙', 'H股', '股东', '前来', '向', '我', '咨询', '起诉', '事宜', '。', '其中', '一位', '就', '持有', '150', '万股', '科龙', 'H股', ',', '持股', '成本', '高达', '300', '多万元', '。', '他', '非常', '渴望', '前置程序', '能', '尽快', '满足', ',', '以便', '诉上', '公堂', '。', '”', '\n', '\u3000', '\u3000', '据', '宋一欣', '介绍', ',', '“', '根据', '最高人民法院', '司法解释', '的', '规定', ',', '提起', '虚假', '陈述', '民事', '赔偿', '诉讼', '必须', '满足', '前置条件', ',', '即', '中国证监会', '或', '财政部', '的', '行政处罚', '决定', ',', '或', '有关', '法院', '认定', '有罪', '并', '生效', '的', '刑事', '判决书', ',', '两者', '以先', '出台', '者', '为准', '。', '”', '\n', '\u3000', '\u3000', '“', '在', '科龙案', '中', ',', '中国证监会', '已经', '对', '科龙电器', '与', '德勤', '会计师', '事务所', '进行', '了', '行政处罚', '前', '的', '听证', '程序', ',', '如果', '没有', '意外', ',', '估计', '今年', '上半年', '内', '行政处罚', '决定', '将', '出台', ';', '而', '顾雏军', '编制', '虚假', '财务报告', '罪案', '已经', '被', '广东省', '佛山市', '人民检察院', '立案', '、', '即将', '提起公诉', ',', '刑事', '审判', '在', '即', '。', '因此', ',', '包括', 'H股', '股东', '在内', '的', '科龙电器', '权益', '受损', '的', '投资者', '提起', '民事', '赔偿', '应该', '不成问题', ',', '只是', '需要', '等待', ',', '万事俱备', '、', '只欠东风', '。', '”', '宋一欣', '进一步', '解释', '道', '。', '\n', '\u3000', '\u3000', '谈及', '此案', '的', '被告', ',', '宋一欣', '表示', ',', '“', '科龙电器', '虚假', '陈述', '可', '涉及', '很多', '被告', ',', '如', '科龙电器', '公司', ';', '顾雏军', '等', '原', '董事', '、', '高管', '人员', '及', '直接', '责任人员', ';', '存在', '失职', '的', '原', '监事会', '成员', '和', '独立', '董事', ';', '进行', '审计', '的', '会计师', '事务所', '(', '会计师', '行', ')', '及其', '承担责任', '的', '合伙人', '、', '相关', '注册', '会计师', ';', '由于', '虚假', '陈述', '而', '获益', '的', '关联', '企业', '、', '控股', '股东', '等', '。', '但', '主要', '被告', '有', '三', ',', '即', '科龙电器', '公司', '、', '顾雏军', '、', '德勤华', '永', '会计师', '事务所', '(', 'A股', '股东', ')', '或德勤', '·', '关黄陈', '会计师', '行', '(', 'H股', '股东', ')', '。', '”', '\n', '\u3000', '\u3000', '宋一欣', '称', ',', '“', '证券', '民事', '赔偿', '诉讼', '应当', '采取', '目前', '《', '民事', '诉讼法', '》', '规定', '的', '共同', '诉讼', '方式', ',', '科龙案', '也', '是', '如此', '。', '以', '共同', '诉讼', '提起', '的', '原告', '由于', '合并', '后', '按', '比例', '计算', '诉讼费', ',', '故其', '支出', '的', '诉讼费', '要', '比', '单独', '诉讼', '提起', '的', '原告', '所', '支付', '的', '诉讼费', '要少', '。', '所以', ',', '作为', '代理律师', ',', '从', '投资者', '的', '角度', '考虑', ',', '我', '需要', '筹集', '到', '一定', '数量', '投资者', '委托', '后', '才', '安排', '起诉', '。', '”', '(', '本报记者', ' ', '岳敬飞', ' ', '何军', ')'], 'C000008')
(['\u3000', '\u3000', '大学生', '小', '袁', '网上', '投', '简历', '求职', ',', '一家', '自称', '设在', '广东', '的', '跨国公司', '分公司', '很快', '就', '打来', '电话', '进行', '“', '面试', '”', '。', '然而', '小', '袁', '查询', '该', '公司', '在', '上海', '的', '总部', '得知', ',', '他们', '没有', '在', '广东', '设立', '分公司', ',', '也', '没有', '在', '广东', '进行', '招聘', '。', '警方', '提醒', ',', '这', '很', '可能', '是', '个', '骗局', '。', '\n', '\u3000', '\u3000', '小', '袁是', '在', '一', '知名', '人才', '网站', '上', '发出', '电子', '简历', '的', ',', '令小', '袁', '意外', '的', '是', ',', '简历', '没投', '几天', ',', '就', '有', '一家', '比较', '知名', '的', '半导体', '跨国公司', '给', '自己', '打', '来', '电话', '。', '一位', '姓', '曹', '的', '女士', '告诉', '他', ',', '公司', '现在', '正要', '\n', '\u3000', '\u3000', '引进', '一批', '毕业生', ',', '年前', '就', '到', '岗', '培训', ',', '询问', '小', '袁', '有没有', '去', '的', '意向', '。', '欣喜若狂', '的', '小', '袁', '当即', '就', '同意', '了', '。', '1', '月', '15', '日', ',', '对方', '煞有介事', '地', '给', '小', '袁', '进行', '了', '电话', '招聘', '面试', '。', '三天', '后', ',', '小', '袁', '接到', '电话', '通知', '面试', '通过', '了', ',', '于', '1', '月', '22', '日到', '广东', '东莞', '体检', '、', '复试', '。', '\n', '\u3000', '\u3000', '据', '小', '袁', '所知', ',', '这家', '半导体', '公司', '好像', '是', '在', '上海', ',', '而', '对方', '让', '去', '东莞', '复试', ',', '他', '有点', '纳闷', '。', '曹', '女士', '解释', '说', ',', '公司', '要', '在', '东莞', '设立', '分点', ',', '亟待', '一批', '相关', '专业', '的', '大学生', '加盟', '。', '随后', ',', '她', '又', '把', '公司', '丰厚', '的', '工资', '、', '住房', '待遇', '向小袁', '作', '了', '一番', '介绍', '。', '\n', '\u3000', '\u3000', '小', '袁', '动心', '了', ',', '1', '月', '17', '日', '他', '来到', '火车站', ',', '准备', '预订', '到', '东莞', '的', '车票', '。', '由于', '没有', '直达车', ',', '到', '广州', '的', '票', '也', '没有', '了', ',', '他', '只好', '又', '回到', '了', '学校', '。', '此时', ',', '冷静下来', '的', '小', '袁才', '感觉', '事情', '有点', '不对劲', '。', '随后', ',', '他', '上网', '搜索', '了', '这家', '公司', '的', '详细资料', ',', '发现', '只有', '上海', '总部', '在', '发布', '招聘启事', ',', '其他', '地方', '根本', '就', '没有', '设立', '分公司', '。', '东莞', '的', '114', '也', '根本', '查不到', '这家', '公司', '的', '电话', '。', '\n', '\u3000', '\u3000', '随后', ',', '小', '袁', '拨打', '了', '东莞', '110', '报警', '电话', ',', '当地', '民警', '告知', '这', '很', '可能', '是', '个', '骗局', '。', '此前', '就', '有', '不少', '急于', '找', '工作', '的', '大学生', ',', '被', '不法分子', '骗进', '传销', '窝点', '。', '\n', '\u3000', '\u3000', '(', '来源', ':', '北京', '人才', '市场报', ')'], 'C000022')
(['\n', '\n', '\n', '夜幕', '下', '的', '太和', '门', '广场', '\n', '\u3000', '\u3000', '9', '月', '18', '日晚', ',', '时值', '中国', '传统', '佳节', '农历', '八月', '十五', '中秋节', '之际', ',', '由', '中国', '故宫博物院', '主办', '、', '山东', '潍柴', '动力', '股份', '有限公司', '冠名', '赞助', '的', '“', '太和', '邀月颂', '和平', '—', '—', '潍柴', '动力', '之夜', '”', '中秋', '招待会', '在', '北京故宫', '太和', '门', '广场', '举行', '。', '来自', '国内', '政府', '、', '文化', '演艺界', '及', '企业界', '等', '各界', '精英', '汇聚', '古老', '神秘', '的', '宫内', '广场', ',', '抒发', '当代', '国人', '对', '历史', '的', '追思', '和', '对', '中华民族', '未来', '的', '憧憬', ',', '举杯', '邀月', '共度', '中秋', ',', '把', '纪念', '故宫博物院', '建院', '80', '周年', '、', '中国', '人民', '抗日战争', '胜利', '60', '周年', '两个', '活动', '再次', '推向', '了', '高潮', '。', '本次', '招待会', '由', '著名', '学者', '田青', '和', '凤凰卫视', '当家花旦', '陈鲁豫', '、', '曹', '景行', '主持', '。', '\n', '\u3000', '\u3000', '是', '日', '晚上', ',', '北京', '太和', '门', '广场', '灯光', '璀璨', ',', '高朋满座', ',', '文化氛围', '浓郁', '。', '来自', '戏曲界', '、', '演奏', '界', '、', '表演', '界', '的', '大师', '们', '给', '与会者', '奉献', '上', '了', '《', '思乡曲', '》', '《', '二泉映月', '》', '《', '八月', '十五', '月', '光明', '》', '等', '著名', '的', '传统', '曲目', ',', '著名', '表演家', '濮存昕', '、', '吴俊全', '等', '还', '朗诵', '了', '《', '水调歌头', '》', '《', '雪落', '在', '中国', '土地', '上', '》', '等', '著名', '古今', '诗歌', ',', '表达', '了', '对', '中华民族', '优秀', '传统', '文化', '的', '追思', '和', '对', '民族', '昌盛', '的', '期盼', '。', '此外', ',', '来自', '书画界', '的', '大师', '们', '还', '现场', '泼墨', ',', '鉴赏', '经典', '古画', ',', '并', '留下', '墨宝', '以作', '纪念', '。', '艺术表演', '家们', '在', '舞台', '上', '精彩', '的', '表现', '赢得', '了', '与会', '各界', '嘉宾', '的', '阵阵', '掌声', ',', '人们', '乘着', '朗朗', '月色', ',', '举杯', '邀月', ',', '畅谈', '古今', ',', '抒发', '着', '当代', '中国', '对', '历史', '的', '铭记', '和', '对', '未来', '民族', '复兴', '的', '祈盼', '。', '\n', '独唱', '《', '今夜', '无人', '入睡', '》', '—', '—', '著名', '男高音', '歌唱家', '莫华伦', '\n', '小提琴', '演奏家', '陈曦', '与', '主持人', '陈鲁豫', '交流', '\n', '\u3000', '\u3000', '今年', '是', '北京故宫博物院', '成立', '八十周年', ',', '八十年', '来', ',', '北京故宫', '为', '弘扬', '中华民族', '的', '传统', '文化', ',', '为', '保护', '我国', '珍贵', '的', '历史', '遗产', '作出', '了', '巨大', '的', '贡献', ';', '同时', ',', '今年', '也', '是', '中国', '人民', '抗日', '胜利', '六十周年', ',', '身处', '北京故宫', '的', '太和', '门', '广场', '正是', '当年', '日寇', '华北', '方面军', '向', '中国', '统辖', '华北地区', '的', '第十一', '战区', '投降', '的', '仪式', '举行', '的', '地方', '。', '可以', '说', ',', '身处', '紫禁城', '的', '太和殿', '见证', '了', '我国', '历史', '的', '兴衰', '荣辱', ',', '见证', '了', '中国', '人民', '抗日战争', '的', '伟大胜利', ';', '六十年', '后', ',', '在', '同一', '地点', '举行', '纪念活动', ',', '意义', '非同小可', '。', '它', '告诉', '我们', '要', '铭记', '历史', ',', '继往开来', ',', '要', '为', '中华民族', '的', '伟大', '复兴', ',', '为', '世界', '各族人民', '的', '和平', '而', '不懈', '奋斗', '!', '\n', '濮存昕', '朗诵', '\n', '\u3000', '\u3000', '据悉', ',', '来自', '潍柴', '动力', '股份', '有限公司', '的', '领导', '介绍', ',', '作为', '国内', '知名', '的', '内燃机', '研发', '、', '制造', '、', '销售', '骨干企业', ',', '潍柴', '动力', '一直', '关注', '首都', '文化产业', '的', '发展', ',', '希望', '凭借', '此次', '活动', ',', '给', '中国', '的', '精英', '人士', '提供', '一个', '更好', '的', '交流', '机会', '和', '场所', ',', '拓展', '企业', '发展', '平台', ',', '振奋', '民族', '精神', ',', '为', '繁荣', '国际', '文化交流', ',', '进一步', '开辟', '中国', '文化', '传承', '空间', '贡献', '更', '多', '的', '力量', '!', '\n', '书法', '表演', '\n', '\u3000', '\u3000', '晚会', '在', '著名', '男高音', '歌唱家', '莫华伦', '的', '一曲', '《', '今夜', '无人', '入眠', '》', '中', '结束', ',', '留给', '了', '节日', '的', '京城', '一个', '难忘', '的', '夜晚', '。', '\n', '\u3000', '\u3000', '搜狗', '(', 'www', '.', 'sogou', '.', 'com', ')', '搜索', ':', '“', '太和', '”', ',', '共', '找到', '322', ',', '079', '\n', '个', '相关', '网页', '.', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00', '\x00'], 'C000022')
(['\u3000', '\u3000', '50', '余名', '沈阳市', '职业', '学校', '校长', '近日', '走进', '清华园', ',', '在', '沈阳市', '教育局', '与', '清华大学', '共同', '举办', '的', '首期', '沈阳市', '职业', '学校', '校长', '高级', '研修班', '上', '为', '自己', ',', '更为', '沈阳', '的', '职业', '教育', '而', '“', '充电', '”', '。', '\n', '\u3000', '\u3000', '沈阳市', '中等职业', '学校', '重组', '于', '上', '世纪', '80', '年代', ',', '绝大部分', '学校', '是', '由', '薄弱', '学校', '改造', '而成', '。', '近年来', ',', '随着', '国家', '、', '省', '、', '市', '各级', '政府', '对', '职业', '教育', '的', '重视', ',', '沈阳市', '职业', '教育', '\n', '\u3000', '\u3000', '有', '了', '较大', '发展', '。', '目前', ',', '沈阳市', '已有', '中等职业', '学校', '131', '所', ',', '中等职业', '学校', '教师', '9500', '人', ',', '专业', '教师', '4800', '人', ',', '在校生', '9', '万余', '人', ',', '年', '毕业生', '3', '万余', '人', '。', '\n', '\u3000', '\u3000', '2006', '年', ',', '为了', '让', '职业', '教育', '有', '一个', '更大', '的', '发展', ',', '沈阳市', '决定', '不仅', '在', '硬件', '上', '加大', '投入', ',', '按照', '国家级', '示范校', '的', '标准', '建', '6', '所万人', '规模', '的', '中等职业', '学校', ',', '同时', ',', '还要', '在', '在', '软件', '建设', '上', '有', '一个', '新', '突破', ',', '按照', '国家', '职业', '教育', '教学质量', '评估', '标准', ',', '全面', '提升', '沈阳市', '中等职业', '学校', '教育', '教学质量', '。', '为此', ',', '沈阳市', '教育局', '借助', '清华大学', '这样', '一个', '高层次', '的', '培训', '平台', ',', '举办', '各种', '层次', '的', '共', '10', '期', '研修班', ',', '对', '分管', '各项', '工作', '的', '副校长', '和', '专业', '教师', '约', '500', '人', '进行', '培训', ',', '通过', '国家教育部', '职业', '与', '成人教育', '司', '有关', '领导', '、', '国内', '优秀', '企业家', '、', '教育', '专家', '、', '知名', '学者', '和', '国内', '重点', '职业院校', '校长', '的', '讲座', '及', '经验交流', ',', '使', '参加', '研修', '人员', '政策', '水平', '、', '理论知识', '、', '教学管理', '能力', '及', '个人', '学养', '得到', '提高', ',', '从而', '全面', '提升', '沈阳市', '职业院校', '的', '内涵', '建设', ',', '进一步', '培养', '、', '打造出', '一支', '高水平', '的', '职业院校', '优秀', '的', '管理者', '和', '“', '双师型', '”', '教师队伍', '。', '\n', '\u3000', '\u3000', '沈阳市', '副', '市长', '王玲', '、', '沈阳市', '教育局', '局长', '李梦玲', '、', '教育部', '职成司', '副司长', '刘占山', '、', '清华大学', '副校长', '陈吉宁', '参加', '了', '首期', '研修班', '的', '开班', '仪式', '。', '他们', '表示', ',', '清华大学', '和', '沈阳市', '的', '这种', '合作', ',', '必将', '促进', '沈阳市', '职业', '教育', '的', '跨越式', '发展', ',', '双方', '在', '市', '、', '校', '人才', '合作', '培养', '模式', '上', '的', '有益', '探索', ',', '不仅', '会', '加深', '和', '扩大', '双方', '在', '各个领域', '的', '合作', ',', '也', '会', '对', '全国', '的', '职业', '教育', '提供', '有益', '的', '经验', '。', '\n', '\u3000', '\u3000', '来源', ':', '光明日报'], 'C000024')

五、半朴素贝叶斯分类器

(1)半朴素贝叶斯理论

在朴素贝叶斯分类器中采用了属性条件独立性假设,但在现实任务中这个假设往往很难成立,于是半朴素贝叶斯分类器就适当考虑一部分属性间的相互依赖关系,从而既不需要进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖
在这里插入图片描述

实例1

属性依赖关系为:属性大小依赖于形状,且大小为大时,形状为圆,颜色没有依赖属性,属性形状依赖于大小,且形状为圆时,大小为大

判断属性大小为大,颜色为青,形状为圆下,是否为好果
苹果分类
先分别计算类先验概率和带有依赖属性的类条件概率,其中计算类先验概率时,由于好果只有是和否两种情况,所以分母+2,计算带有依赖属性的类条件概率时,每个属性的取值情况也恰好为2,所以分母+2,最后计算后验概率,属于一般果的后验概率较大,所以把属性大小为大,颜色为青,形状为圆的样本判别为一般果

(2)寻找父属性的三种方法

- 方法1 SPODE(Super-Parent ODE)

假设所有属性都依赖于同一个属性,称为“超父”,然后通过交叉验证等模型选择方法来确定超父属性,由此形成了SPODE方法,如图,x2,x3,…,xd都依赖于超父属性x1
在这里插入图片描述

- SPODE实战

训练集

1,青绿,蜷缩,浊响,清晰,凹陷,硬滑,是
2,乌黑,蜷缩,沉闷,清晰,凹陷,硬滑,是
5,浅白,蜷缩,浊响,清晰,凹陷,硬滑,是
6,青绿,稍蜷,浊响,清晰,稍凹,软粘,是
7,乌黑,稍蜷,浊响,稍糊,稍凹,软粘,是
9,乌黑,稍蜷,沉闷,稍糊,稍凹,硬滑,否
10,青绿,硬挺,清脆,清晰,平坦,软粘,否
11,浅白,硬挺,清脆,模糊,平坦,硬滑,否
14,浅白,稍蜷,沉闷,稍糊,凹陷,硬滑,否
15,乌黑,稍蜷,浊响,清晰,稍凹,软粘,否
16,浅白,蜷缩,浊响,模糊,平坦,硬滑,否

测试集

3,乌黑,蜷缩,浊响,清晰,凹陷,硬滑,是
4,青绿,蜷缩,沉闷,清晰,凹陷,硬滑,是
8,乌黑,稍蜷,浊响,清晰,稍凹,硬滑,是
12,浅白,蜷缩,浊响,模糊,平坦,软粘,否
13,青绿,稍蜷,浊响,稍糊,凹陷,硬滑,否
17,青绿,蜷缩,沉闷,稍糊,稍凹,硬滑,否
import math
import numpy as np
import random


# 加载数据
def loadData(filename):
    dataSet = []
    f = open(filename,encoding='utf-8')
    for line in f.readlines():
        lineArr = line.strip().split(',')
        dataSet.append(lineArr)
    labels = ['编号','色泽','根蒂','敲声','纹理','脐部','触感']
    return dataSet,labels           # 返回数据集,标签


# SPODE算法
def SPODE(dataSet,labels,testData):
    index = CrossValidation(dataSet, labels,testData)    # 交叉验证获取超父属性
    print("Super-Parent = ",labels[index])
    pn = [3, 3, 3, 3, 3, 2]  # 各变量的类型数
    tdata = dataSet[random.randint(0,len(dataSet)-1)]   # 选择一个测试样本,将其index属性作为超父属性
    px = np.zeros((2, 1))        # px为当前属性在类别和依赖属性下的计数
    pclass = 0  # 为正类的概率
    nclass = 0  # 为负类的概率
    pc = np.zeros((2, 1))        # pc为类别和依赖属性的计数,作分母
    tempdata = []

    for data in dataSet:       # 遍历训练数据,筛选出满足依赖属性的数据
        if (data[-1] == '是' and data[index] == tdata[index]):  # 刷选出满足依赖属性的数据
            pc[0] += 1
            tempdata.append(data)
        if (data[-1] == '否' and data[index] == tdata[index]):
            pc[1] += 1
            tempdata.append(data)
    for j in range(1, len(labels)):
        if (index != j):
            for data in tempdata:  # 遍历训练数据,筛选出符合条件数据
                if (data[-1] == '是' and data[index] == tdata[index] and data[j] == tdata[j]):  # 刷选出满足依赖属性的数据
                    px[0] += 1
                if (data[-1] == '否' and data[index] == tdata[index] and data[j] == tdata[j]):
                    px[1] += 1
            pclass += np.log((px[0] + 1) / (pc[0] + pn[j - 1]))         # 类条件概率
            nclass += np.log((px[1] + 1) / (pc[1] + pn[j - 1]))
    good = np.log((pc[0] + 1) / (pc[0] + pc[1] + 2)) + pclass          # 后验概率
    bad = np.log((pc[1] + 1) / (pc[0] + pc[1] + 2)) + nclass
    print(tdata)
    if (good >= bad):
        print('P(good) =',good,'\n','P(bad) = ',bad,'\n','是',sep='')
    else:
        print('P(good) =',good,'\n','P(bad) = ',bad,'\n','否',sep='')


# 交叉验证选择最优的属性
def CrossValidation(dataSet,labels,testData):
    pn = [3, 3, 3, 3, 3, 2]  # 各变量的类型数
    maxcorrect = 0
    index = 0
    for i in range(1,len(labels)):                  # 遍历所有属性,选择第i个属性作为超父
        correct = 0
        pc = np.zeros((2, 1))           # pc为类别和依赖属性的计数,作分母
        tempdata = []
        for tdata in testData:          # 遍历测试数据
            for data in dataSet:        # 遍历训练数据,筛选出满足依赖属性的数据
                if (data[-1] == '是' and data[i] == tdata[i]):
                    pc[0] += 1
                    tempdata.append(data)
                if (data[-1] == '否' and data[i] == tdata[i]):
                    pc[1] += 1
                    tempdata.append(data)
            # print(pc)

            for j in range(1,len(labels)):      # 该循环计算带有依赖属性的类条件概率
                px = np.zeros((2, 1))           # px为当前属性在依赖属性下的计数
                pclass = 0  # 为正类的概率
                nclass = 0  # 为负类的概率
                if (i != j):
                    for data in tempdata:  # 遍历训练数据,筛选出符合条件数据
                        if (data[-1] == '是' and data[i] == tdata[i] and data[j]==tdata[j] ):  # 刷选出满足依赖属性的数据
                            px[0] += 1
                        if (data[-1] == '否' and data[i] == tdata[i] and data[j]==tdata[j] ):
                            px[1] += 1
                    pclass += np.log((px[0] + 1) / (pc[0] + pn[j - 1]))
                    nclass += np.log((px[1] + 1) / (pc[1] + pn[j - 1]))
                    '''print(px)
                       print(pclass)
                       print(nclass)'''
            pclass = np.log((pc[0] + 1) / (pc[0] + pc[1] + 2)) + pclass            # 后验概率
            nclass = np.log((pc[1] + 1) / (pc[0] + pc[1] + 2)) + nclass
            if ((pclass >= nclass and tdata[-1]=='是') or (pclass < nclass and tdata[-1]=='否')):  # 正确的分类
                correct+=1

        if( correct > maxcorrect ):    # 正确分类最多的所依赖的属性作为”超父“
            maxcorrect = correct
            index= i
    return index


if __name__ == '__main__':
    dataSet, labels_1 = loadData('train_Data.txt')
    testData, label_2 = loadData('test_Data.txt')
    SPODE(dataSet, labels_1, testData)
Super-Parent =  纹理
['1', '青绿', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', '是']
P(good) =[0.23514949]
P(bad) = [-4.12274404]
是

- 方法2 TAN(Tree Augmented naive Bayes)

(1).计算任意两个属性之间的条件互信息
在这里插入图片描述
(2). 以属性为结点构建完全图,任意两个结点之间边的权重设为I(x_i,x_j|y)
(3). 构建此完全图的最大带权生成树,挑选根变量,将边置为有向。
(4). 加入类别结点y,增加从y到每个属性的有向边。

如下图,假设有4个属性(凹陷,清晰,青绿,浊响),首先计算任意两个结点间的条件互信息,得到一个无向完全图(左),再根据无向完全图构建最大带权生成数,挑选根变量(根变量的选择可以将树中所有结点均作为根结点),将边设置为有向,加入类别结点y,增加从y到每个属性的有向(右)
在这里插入图片描述

- 方法3 AODE(Averaged One-Dependent Estimator)

AODE一种基于集成学习机制、更为强大的独依赖分类器,其过程就是一个计数过程

相关计算公式:
计算公式
在这里插入图片描述
以西瓜数据集为例
在这里插入图片描述

- AODE实战

import numpy as np
import random


def getDataSet():
    dataSet = [
        ['青绿', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.697, 0.460, 1],
        ['乌黑', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', 0.774, 0.376, 1],
        ['乌黑', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.634, 0.264, 1],
        ['青绿', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', 0.608, 0.318, 1],
        ['浅白', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.556, 0.215, 1],
        ['青绿', '稍蜷', '浊响', '清晰', '稍凹', '软粘', 0.403, 0.237, 1],
        ['乌黑', '稍蜷', '浊响', '稍糊', '稍凹', '软粘', 0.481, 0.149, 1],
        ['乌黑', '稍蜷', '浊响', '清晰', '稍凹', '硬滑', 0.437, 0.211, 1],
        ['乌黑', '稍蜷', '沉闷', '稍糊', '稍凹', '硬滑', 0.666, 0.091, 0],
        ['青绿', '硬挺', '清脆', '清晰', '平坦', '软粘', 0.243, 0.267, 0],
        ['浅白', '硬挺', '清脆', '模糊', '平坦', '硬滑', 0.245, 0.057, 0],
        ['浅白', '蜷缩', '浊响', '模糊', '平坦', '软粘', 0.343, 0.099, 0],
        ['青绿', '稍蜷', '浊响', '稍糊', '凹陷', '硬滑', 0.639, 0.161, 0],
        ['浅白', '稍蜷', '沉闷', '稍糊', '凹陷', '硬滑', 0.657, 0.198, 0],
        ['乌黑', '稍蜷', '浊响', '清晰', '稍凹', '软粘', 0.360, 0.370, 0],
        ['浅白', '蜷缩', '浊响', '模糊', '平坦', '硬滑', 0.593, 0.042, 0],
        ['青绿', '蜷缩', '沉闷', '稍糊', '稍凹', '硬滑', 0.719, 0.103, 0]
    ]

    features = ['色泽', '根蒂', '敲声', '纹理', '脐部', '触感']

    featureDic = {}
    for i in range(len(features)):
        featureList = [example[i] for example in dataSet]
        uniqueFeature = list(set(featureList))
        featureDic[features[i]] = uniqueFeature

    dataSet = np.array(dataSet)
    return dataSet, features, featureDic   # 数据集,标签,属性取值字典


def AODE(dataSet, data, features, featureDic):
    m, n = dataSet.shape
    n = n - 3       # 特征不取连续值的属性,如密度和含糖量。
    pDir = {}       # 保存三个值。好瓜的可能性,坏瓜的可能性,和预测的值。
    for classLabel in ["好瓜", "坏瓜"]:
        P = 0.0
        if classLabel == "好瓜":
            sign = '1'
        else:
            sign = '0'
        extrDataSet = dataSet[dataSet[:, -1] == sign]    # 抽出类别为sign的数据
        for i in range(n):                               # 遍历每一个i个属性
            xi = data[i]
            # 计算当前类别下,第i个属性上取值为xi的样本对总数据集的占比
            Dcxi = extrDataSet[extrDataSet[:, i] == xi]  # 第i个属性上取值为xi的样本数
            Ni = len(featureDic[features[i]])            # 第i个属性可能的取值数
            Pcxi = (len(Dcxi) + 1) / float(m + 2 * Ni)
            # 计算类别为c且在第i和第j个属性上分别为xi和xj的样本,对于类别为c属性为xi的样本的占比
            mulPCond = 1
            for j in range(n):
                xj = data[j]
                Dcxij = Dcxi[Dcxi[:, j] == xj]
                Nj = len(featureDic[features[j]])
                PCond = (len(Dcxij) + 1) / float(len(Dcxi) + Nj)
                mulPCond *= PCond
            P += Pcxi * mulPCond
        pDir[classLabel] = P

    if pDir["好瓜"] > pDir["坏瓜"]:
        preClass = "好瓜"
    else:
        preClass = "坏瓜"

    return pDir["好瓜"], pDir["坏瓜"], preClass


def test_accuracy(dataSet, features, featureDic):
    cnt = 0
    for data in dataSet:
        _, _, pre = AODE(dataSet, data, features, featureDic)
        if (pre == '好瓜' and data[-1] == '1') or (pre == '坏瓜' and data[-1] == '0'):
            cnt += 1
    return cnt / float(len(dataSet))


def main():
    dataSet, features ,featureDic = getDataSet()
    testdata = dataSet[random.randint(0, len(dataSet) - 1)]
    pG, pB, pre = AODE(dataSet, testdata, features, featureDic)
    print(testdata)
    print("pG = ", pG)
    print("pB = ", pB)
    print("pre = ", pre)
    print("real class = ", testdata[-1])
    print(test_accuracy(dataSet, features, featureDic))


if __name__ == '__main__':
    main()
['浅白' '硬挺' '清脆' '模糊' '平坦' '硬滑' '0.245' '0.057' '0']
pG =  0.0004809492073765314
pB =  0.016070238820219938
pre =  坏瓜
real class =  0
0.9411764705882353

六、 贝叶斯网

(1)贝叶斯网理论

  • 贝叶斯网是一种概率图模型,借助有向无环图来刻画属性之间的依赖关系,并使用条件概率表来描述属性的联合概率分布

在这里插入图片描述
上图就是一个简单的贝叶斯结构,给定P(a,b,c)联合概率,把代数表达式转换为几何图形,第一个式子表示ab给定的条件下c的概率,即从a,b各引一条边到c,第二个式子表示a给定的条件下b的概率,即从a引一条边到b,a没有给定条件,就没有边引入。
贝叶斯网络的有向无环图的每个结点表示一个随机变量,它们可以是观察到的变量或隐变量,或未知参数,连接两个结点的箭头代表两个随机变量是具有“因果”关系,具有条件依赖关系,且两个结点会产生一个条件概率值
在这里插入图片描述
上图表示的是朴素贝叶斯的条件独立性假设,x1,x2,x3,x4只和y有关系,可以看作是有向边为0的有向无环图

  • 因为贝叶斯网结构有效表达了属性间的条件独立性,给定父结点集,贝叶斯网假设每个属性与它的非后裔属性独立,那么就有联合概率分布定义为:

在这里插入图片描述
在这里插入图片描述
如上图,由于x1,x2,x3没有父结点,x4有x1,x2,x3三个父结点,x5有x1,x3两个父结点,x6有x4一个父结点,x7有x4,x5两个父结点,所以其联合概率分布为
在这里插入图片描述

  • 贝叶斯网中三个变量之间的典型依赖关系
    在这里插入图片描述
    第一种结构为同父结构,表示在c给定的条件下,ab条件独立,或者称ab被c有向分离,下面的代数式为其证明过程,下同
    第二种结构为V型结构,表示在c未知的条件下,ab条件独立
    第三种结构为顺序结构,表示在c给定的条件下,ab条件独立
    在这里插入图片描述
    上图就是一个关于警报的贝叶斯网,Alarm受Burglary和Earthquake两个随机变量的影响,Johncalls和Marrycalls分别受Alarm的影响,有了贝叶斯网结构和条件概率表就可以计算任一个概率取值。如上图的求JohncallsMarrycalls,Alarm,非Burglary,非Earthquake同时发生的概率。

(2)贝叶斯网的结构学习和参数学习

  • 结构学习(基于评分搜索):

把所有的贝叶斯网络结构看为定义域,将衡量特定结构好坏的标准看为评分函数(基于信息论准则的评分函数:MDL评分函数,AIC评分函数,BIC评分函数),寻找最好的结构的过程。相当在定义域上求函数的最优值,即这是一个最优化问题。

  • 评分函数

在这里插入图片描述

  • 搜索策略
    爬山算法——爬山法使用的搜索算子由3种,分别为加边、减边、转边;其中在加边和转边的使用时有一个前提就是不能有环;主要思想:爬山法从一个初始网络结构出发,通过三个搜索算子对当前网络结构进行修改,得到一系列候选网络结构,然后计算每个候选网络结构的评分,并选出评分最大的作为最优候选结构,如果最优候选结构的评分大于当前网络结构的评分,则以最优候选结构作为当前网络结构,继续搜索; 否则,就停止搜索,并返回当前网络结构。
  • 参数学习

有了贝叶斯网结构,可在训练数据集D上通过经验估计求条件概率表

  • 贝叶斯网推断

通过已知变量观测值来推测查询变量(西瓜色泽青绿,敲声浊响,根蒂蜷缩,推断它是否成熟,甜度如何),可以通过吉布斯采样算法完成

1.已知贝叶斯网结构和条件概率表构建贝叶斯网

import warnings
from pgmpy.models import BayesianModel
from pgmpy.factors.discrete import TabularCPD
from pgmpy.inference import VariableElimination
import networkx as nx
from matplotlib import pyplot as plt
warnings.filterwarnings("ignore")


# 构建一个网络模型
model = BayesianModel([('D', 'G'),   # 一条有向边,D ---> G
                       ('I', 'G'),   # I ---> G
                       ('G', 'L'),   # G ---> L
                       ('I', 'S')])  # I ---> S

# 设置CPD参数
cpd_d = TabularCPD(variable='D', variable_card=2, values=[[0.6], [0.4]])

cpd_i = TabularCPD(variable='I', variable_card=2, values=[[0.7], [0.3]])

cpd_g = TabularCPD(variable='G', variable_card=3,
                   values=[[0.3, 0.05, 0.9,  0.5],
                           [0.4, 0.25, 0.08, 0.3],
                           [0.3, 0.7,  0.02, 0.2]],
                   evidence=['I', 'D'],
                   evidence_card=[2, 2])

cpd_l = TabularCPD(variable='L', variable_card=2,
                   values=[[0.1, 0.4, 0.99],
                           [0.9, 0.6, 0.01]],
                   evidence=['G'],
                   evidence_card=[3])

cpd_s = TabularCPD(variable='S', variable_card=2,
                   values=[[0.95, 0.2],
                           [0.05, 0.8]],
                   evidence=['I'],
                   evidence_card=[2])

model.add_cpds(cpd_d, cpd_i, cpd_g, cpd_l, cpd_s)  # 将概率分布表加入到贝叶斯网络中

print(model.check_model())    # 验证模型数据的正确性(检测节点是否定义,概率和是否为1)

print(model.get_cpds())   # 查看概率分布

infer = VariableElimination(model)
print('\n', 'P(G|D=0,I=1)')    # 计算条件分布 P(G∣D=0,I=1)
print(infer.query(['G'], evidence={'D': 0, 'I': 1}))


# 绘制网络结构图,并附上概率分布表
nx.draw(model,
        with_labels=True,
        node_size=1000,
        font_weight='bold',
        node_color='y',
        pos={"L": [4.2, 3], "G": [4.2, 5], "S": [8, 5], "D": [2, 7], "I": [6, 7]})
plt.text(2.5, 6.5, model.get_cpds("D"), fontsize=10, color='b')
plt.text(6.5, 6.5, model.get_cpds("I"), fontsize=10, color='b')
plt.text(1.4, 4, model.get_cpds("G"), fontsize=10, color='b')
plt.text(4.5, 2.6, model.get_cpds("L"), fontsize=10, color='b')
plt.text(7, 3.5, model.get_cpds("S"), fontsize=10, color='b')
plt.show()
True
[<TabularCPD representing P(D:2) at 0x17fe059ba88>, <TabularCPD representing P(I:2) at 0x17fe441db88>, <TabularCPD representing P(G:3 | I:2, D:2) at 0x17fe4ae2448>, <TabularCPD representing P(L:2 | G:3) at 0x17fe48be5c8>, <TabularCPD representing P(S:2 | I:2) at 0x17fe4db8ec8>]

 P(G|D=0,I=1)
+------+----------+
| G    |   phi(G) |
+======+==========+
| G(0) |   0.9000 |
+------+----------+
| G(1) |   0.0800 |
+------+----------+
| G(2) |   0.0200 |
+------+----------+

在这里插入图片描述

2.已知贝叶斯网结构进行参数学习

import pandas as pd
from pgmpy.models import BayesianModel
from pgmpy.estimators import ParameterEstimator, MaximumLikelihoodEstimator
from pgmpy.inference import VariableElimination
import networkx as nx
from matplotlib import pyplot as plt
import warnings
warnings.filterwarnings("ignore")

data = pd.DataFrame(data={'fruit': ["banana", "apple", "banana", "apple", "banana","apple", "banana",
                                    "apple", "apple", "apple", "banana", "banana", "apple", "banana",],
                          'tasty': ["yes", "no", "yes", "yes", "yes", "yes", "yes",
                                    "yes", "yes", "yes", "yes", "no", "no", "no"],
                          'size': ["large", "large", "large", "small", "large", "large", "large",
                                    "small", "large", "large", "large", "large", "small", "small"]})

print(data)

model = BayesianModel([('fruit', 'tasty'), ('size', 'tasty')])

pe = ParameterEstimator(model, data)
print("\n", pe.state_counts('fruit'))
print("\n", pe.state_counts('tasty'))  # 在fruit和size的条件下,tasty的频数

# 极大似然估计
mle = MaximumLikelihoodEstimator(model, data)

print('\n', '='*100, '\n')
print("\n", mle.estimate_cpd('fruit'))
print("\n", mle.estimate_cpd('tasty'))  # 在fruit和size的条件下,tasty的概率分布

model.fit(data, estimator=MaximumLikelihoodEstimator)

print('\n', '='*100, '\n')
# 概率分布
print(model.get_cpds('fruit'))
print(model.get_cpds('size'))
print(model.get_cpds('tasty'))

print('\n', '='*100, '\n')

nx.draw(model,
        with_labels=True,
        node_size=1000,
        font_weight='bold',
        node_color='y',
        pos={"fruit": [5, 6], "tasty": [3.4, 4.5], "size": [2.5, 6]})

plt.text(4.2, 5.7, model.get_cpds("fruit"), fontsize=10, color='b')
plt.text(2.7, 4.6, model.get_cpds("tasty"), fontsize=10, color='b')
plt.text(2.8, 5.7, model.get_cpds("size"), fontsize=10, color='b')

plt.show()

# 推断
infer = VariableElimination(model)

print('大,香蕉是美味的概率:\n', infer.query(['tasty'], evidence={'fruit': 1, 'size': 0}))  # 大,香蕉是否美味的概率
  fruit tasty   size
0   banana   yes  large
1    apple    no  large
2   banana   yes  large
3    apple   yes  small
4   banana   yes  large
5    apple   yes  large
6   banana   yes  large
7    apple   yes  small
8    apple   yes  large
9    apple   yes  large
10  banana   yes  large
11  banana    no  large
12   apple    no  small
13  banana    no  small

         fruit
apple       7
banana      7

 fruit apple       banana      
size  large small  large small
tasty                         
no      1.0   1.0    1.0   1.0
yes     3.0   2.0    5.0   0.0

 ==================================================================================================== 


 +---------------+-----+
| fruit(apple)  | 0.5 |
+---------------+-----+
| fruit(banana) | 0.5 |
+---------------+-----+

 +------------+--------------+--------------------+---------------------+---------------+
| fruit      | fruit(apple) | fruit(apple)       | fruit(banana)       | fruit(banana) |
+------------+--------------+--------------------+---------------------+---------------+
| size       | size(large)  | size(small)        | size(large)         | size(small)   |
+------------+--------------+--------------------+---------------------+---------------+
| tasty(no)  | 0.25         | 0.3333333333333333 | 0.16666666666666666 | 1.0           |
+------------+--------------+--------------------+---------------------+---------------+
| tasty(yes) | 0.75         | 0.6666666666666666 | 0.8333333333333334  | 0.0           |
+------------+--------------+--------------------+---------------------+---------------+

 ==================================================================================================== 

+---------------+-----+
| fruit(apple)  | 0.5 |
+---------------+-----+
| fruit(banana) | 0.5 |
+---------------+-----+
+-------------+----------+
| size(large) | 0.714286 |
+-------------+----------+
| size(small) | 0.285714 |
+-------------+----------+
+------------+--------------+--------------------+---------------------+---------------+
| fruit      | fruit(apple) | fruit(apple)       | fruit(banana)       | fruit(banana) |
+------------+--------------+--------------------+---------------------+---------------+
| size       | size(large)  | size(small)        | size(large)         | size(small)   |
+------------+--------------+--------------------+---------------------+---------------+
| tasty(no)  | 0.25         | 0.3333333333333333 | 0.16666666666666666 | 1.0           |
+------------+--------------+--------------------+---------------------+---------------+
| tasty(yes) | 0.75         | 0.6666666666666666 | 0.8333333333333334  | 0.0           |
+------------+--------------+--------------------+---------------------+---------------+

 ==================================================================================================== 

大,香蕉是美味的概率:
 +------------+--------------+
| tasty      |   phi(tasty) |
+============+==============+
| tasty(no)  |       0.1667 |
+------------+--------------+
| tasty(yes) |       0.8333 |
+------------+--------------+

在这里插入图片描述

3.通过数据集进行结构和参数学习

import pandas as pd
import numpy as np
from pgmpy.estimators import BicScore
from pgmpy.models import BayesianModel
from pgmpy.estimators import ExhaustiveSearch, HillClimbSearch
from pgmpy.estimators import BayesianEstimator
import warnings
import networkx as nx
from matplotlib import pyplot as plt
warnings.filterwarnings("ignore")

# 随机生成数据样本,包括三个变量,其中Z变量依赖于X,Y变量
data = pd.DataFrame(np.random.randint(0, 4, size=(5000, 2)), columns=list('XY'))
data['Z'] = data['X'] + data['Y']
print(data)

es = ExhaustiveSearch(data, scoring_method=BicScore(data))  # 对于几个节点,可用穷举法
best_model = es.estimate()
print("\nAll DAGs by score:")
for score, dag in reversed(es.all_scores()):
    print(score, dag.edges())

print(best_model.edges())

# 学习到了DAG结构,根据这个结构学习CPD参数
model = BayesianModel(best_model.edges())

model.fit(data, estimator=BayesianEstimator)

# 概率分布
print(model.get_cpds('X'))
print(model.get_cpds('Y'))
print(model.get_cpds('Z'))

nx.draw(model,
        with_labels=True,
        node_size=1000,
        font_weight='bold',
        node_color='y',
        pos={"X": [5, 4], "Y": [2, 4.5], "Z": [2.5, 6]})

plt.text(4.2, 4, model.get_cpds("X"), fontsize=7, color='b')
plt.text(2.1, 4, model.get_cpds("Y"), fontsize=7, color='b')
plt.text(2.5, 4.8, model.get_cpds("Z"), fontsize=6, color='b')

plt.show()
print(model.cpds)

print('\n', '='*500, '\n')

# 对于多个节点可用爬山法
data = pd.DataFrame(np.random.randint(0, 3, size=(2500, 8)), columns=list('ABCDEFGH'))
data['A'] += data['B'] + data['C']
data['H'] = data['G'] - data['A']
print(data)

hc = HillClimbSearch(data, scoring_method=BicScore(data))
best_model = hc.estimate()
edges = best_model.edges()
print(edges)

# 学习到了DAG结构,根据这个结构学习CPD参数
model = BayesianModel(edges)

model.fit(data, estimator=BayesianEstimator)

# 概率分布
print(model.get_cpds('A'))
print(model.get_cpds('G'))
print(model.get_cpds('B'))
print(model.get_cpds('C'))
print(model.get_cpds('H'))

nx.draw(model,
        with_labels=True,
        node_size=1000,
        font_weight='bold',
        node_color='y',
        pos={"A": [3, 6], "C": [2, 5], "H": [6, 5], "B": [2.5, 4], "G": [5.5, 4],})

plt.text(1.7, 5.2, model.get_cpds("A"), fontsize=5.5, color='b')
plt.text(2.5, 4, model.get_cpds("B"), fontsize=5.5, color='b')
plt.text(2, 4.5, model.get_cpds("C"), fontsize=5.5, color='b')
plt.text(5.5, 4, model.get_cpds("G"), fontsize=5.5, color='b')
plt.text(5.5, 4.5, model.get_cpds("H"), fontsize=5.5, color='b')

plt.show()
print(model.cpds)
     X  Y  Z
0     0  2  2
1     3  1  4
2     0  2  2
3     2  3  5
4     3  1  4
...  .. .. ..
4995  0  3  3
4996  3  3  6
4997  1  2  3
4998  2  1  3
4999  2  0  2

[5000 rows x 3 columns]

All DAGs by score:
-14295.447228090614 [('X', 'Z'), ('Y', 'Z')]
-14327.233960660378 [('Y', 'X'), ('Z', 'X'), ('Z', 'Y')]
-14327.233960660378 [('X', 'Y'), ('Z', 'X'), ('Z', 'Y')]
-14327.233960660378 [('X', 'Y'), ('X', 'Z'), ('Z', 'Y')]
-14327.233960660378 [('X', 'Y'), ('X', 'Z'), ('Y', 'Z')]
-14327.23396066038 [('Y', 'Z'), ('Y', 'X'), ('Z', 'X')]
-14327.23396066038 [('X', 'Z'), ('Y', 'Z'), ('Y', 'X')]
-16514.835832156296 [('Y', 'X'), ('Z', 'X')]
-16515.715374631058 [('X', 'Y'), ('Z', 'Y')]
-18724.781181338916 [('Z', 'X'), ('Z', 'Y')]
-18724.781181338916 [('X', 'Z'), ('Z', 'Y')]
-18724.78118133892 [('Y', 'Z'), ('Z', 'X')]
-20912.383052834834 [('Z', 'X')]
-20912.383052834834 [('X', 'Z')]
-20913.262595309596 [('Z', 'Y')]
-20913.262595309596 [('Y', 'Z')]
-20944.169785404596 [('X', 'Y'), ('Z', 'X')]
-20944.169785404596 [('X', 'Y'), ('X', 'Z')]
-20944.1697854046 [('X', 'Z'), ('Y', 'X')]
-20945.04932787936 [('X', 'Y'), ('Y', 'Z')]
-20945.049327879362 [('Y', 'X'), ('Z', 'Y')]
-20945.049327879362 [('Y', 'Z'), ('Y', 'X')]
-23100.864466805513 []
-23132.651199375276 [('X', 'Y')]
-23132.65119937528 [('Y', 'X')]
[('X', 'Z'), ('Y', 'Z')]
+------+----------+
| X(0) | 0.255594 |
+------+----------+
| X(1) | 0.247403 |
+------+----------+
| X(2) | 0.246603 |
+------+----------+
| X(3) | 0.2504   |
+------+----------+
+------+----------+
| Y(0) | 0.2504   |
+------+----------+
| Y(1) | 0.240809 |
+------+----------+
| Y(2) | 0.251798 |
+------+----------+
| Y(3) | 0.256993 |
+------+----------+
+------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
| X    | X(0)                   | X(0)                  | X(0)                   | X(0)                   | X(1)                  | X(1)                   | X(1)                   | X(1)                   | X(2)                   | X(2)                   | X(2)                   | X(2)                   | X(3)                   | X(3)                   | X(3)                   | X(3)                   |
+------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
| Y    | Y(0)                   | Y(1)                  | Y(2)                   | Y(3)                   | Y(0)                  | Y(1)                   | Y(2)                   | Y(3)                   | Y(0)                   | Y(1)                   | Y(2)                   | Y(3)                   | Y(0)                   | Y(1)                   | Y(2)                   | Y(3)                   |
+------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
| Z(0) | 0.9991139726512897     | 0.0001496513124420102 | 0.00013003562976255498 | 0.00013313806417254698 | 0.0001443293017348383 | 0.00013556380988531306 | 0.00015926102882624627 | 0.00013980930011464366 | 0.00014526860164444064 | 0.00015983121823354545 | 0.00013765382815296095 | 0.00013807958907514293 | 0.00013353630852228727 | 0.00014965131244201014 | 0.00014294290860230428 | 0.00014479742839767167 |
+------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
| Z(1) | 0.00014767122478513846 | 0.9991020921253484    | 0.00013003562976255498 | 0.00013313806417254698 | 0.9991340241895914    | 0.00013556380988531306 | 0.00015926102882624627 | 0.00013980930011464366 | 0.00014526860164444064 | 0.00015983121823354545 | 0.00013765382815296095 | 0.00013807958907514293 | 0.00013353630852228727 | 0.00014965131244201014 | 0.00014294290860230428 | 0.00014479742839767167 |
+------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
| Z(2) | 0.00014767122478513846 | 0.0001496513124420102 | 0.9992197862214249     | 0.00013313806417254698 | 0.0001443293017348383 | 0.9991866171406883     | 0.00015926102882624627 | 0.00013980930011464366 | 0.9991283883901336     | 0.00015983121823354545 | 0.00013765382815296095 | 0.00013807958907514293 | 0.00013353630852228727 | 0.00014965131244201014 | 0.00014294290860230428 | 0.00014479742839767167 |
+------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
| Z(3) | 0.00014767122478513846 | 0.0001496513124420102 | 0.00013003562976255498 | 0.999201171614965      | 0.0001443293017348383 | 0.00013556380988531306 | 0.9990444338270429     | 0.00013980930011464366 | 0.00014526860164444064 | 0.9990410126905991     | 0.00013765382815296095 | 0.00013807958907514293 | 0.9991987821488666     | 0.00014965131244201014 | 0.00014294290860230428 | 0.00014479742839767167 |
+------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
| Z(4) | 0.00014767122478513846 | 0.0001496513124420102 | 0.00013003562976255498 | 0.00013313806417254698 | 0.0001443293017348383 | 0.00013556380988531306 | 0.00015926102882624627 | 0.9991611441993122     | 0.00014526860164444064 | 0.00015983121823354545 | 0.9991740770310823     | 0.00013807958907514293 | 0.00013353630852228727 | 0.9991020921253481     | 0.00014294290860230428 | 0.00014479742839767167 |
+------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
| Z(5) | 0.00014767122478513846 | 0.0001496513124420102 | 0.00013003562976255498 | 0.00013313806417254698 | 0.0001443293017348383 | 0.00013556380988531306 | 0.00015926102882624627 | 0.00013980930011464366 | 0.00014526860164444064 | 0.00015983121823354545 | 0.00013765382815296095 | 0.9991715224655492     | 0.00013353630852228727 | 0.00014965131244201014 | 0.9991423425483863     | 0.00014479742839767167 |
+------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
| Z(6) | 0.00014767122478513846 | 0.0001496513124420102 | 0.00013003562976255498 | 0.00013313806417254698 | 0.0001443293017348383 | 0.00013556380988531306 | 0.00015926102882624627 | 0.00013980930011464366 | 0.00014526860164444064 | 0.00015983121823354545 | 0.00013765382815296095 | 0.00013807958907514293 | 0.00013353630852228727 | 0.00014965131244201014 | 0.00014294290860230428 | 0.9991312154296139     |
+------+------------------------+-----------------------+------------------------+------------------------+-----------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+------------------------+
[<TabularCPD representing P(X:4) at 0x26944dfe988>, <TabularCPD representing P(Z:7 | X:4, Y:4) at 0x26945013888>, <TabularCPD representing P(Y:4) at 0x2694501c8c8>]

 ==================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================================== 

      A  B  C  D  E  F  G  H
0     4  2  2  2  2  1  2 -2
1     0  0  0  2  0  1  1  1
2     2  0  1  2  0  2  2  0
3     4  1  1  0  0  0  1 -3
4     5  1  2  1  0  2  1 -4
...  .. .. .. .. .. .. .. ..
2495  1  0  1  1  0  1  1  0
2496  4  1  2  0  2  2  0 -4
2497  1  1  0  1  2  0  2  1
2498  1  0  0  0  0  0  1  0
2499  4  0  2  1  0  1  1 -3

[2500 rows x 8 columns]
[('A', 'B'), ('A', 'C'), ('B', 'C'), ('G', 'A'), ('G', 'H'), ('H', 'A')]
+------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
| G    | G(0)                  | G(0)                  | G(0)                   | G(0)                   | G(0)                   | G(0)                  | G(0)                  | G(0)                | G(0)                | G(1)                | G(1)                 | G(1)                   | G(1)                  | G(1)                   | G(1)                   | G(1)                  | G(1)                  | G(1)                | G(2)                | G(2)                | G(2)                  | G(2)                  | G(2)                | G(2)                   | G(2)                   | G(2)                  | G(2)                  |
+------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
| H    | H(-6)                 | H(-5)                 | H(-4)                  | H(-3)                  | H(-2)                  | H(-1)                 | H(0)                  | H(1)                | H(2)                | H(-6)               | H(-5)                | H(-4)                  | H(-3)                 | H(-2)                  | H(-1)                  | H(0)                  | H(1)                  | H(2)                | H(-6)               | H(-5)               | H(-4)                 | H(-3)                 | H(-2)               | H(-1)                  | H(0)                   | H(1)                  | H(2)                  |
+------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
| A(0) | 0.0009386146048432514 | 0.0002614515791675382 | 0.00015919004107103055 | 0.00011853397183632825 | 0.00014601098002569788 | 0.0002999940001199976 | 0.9943683123709408    | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.000821962847279303 | 0.00021651582730697615 | 0.0001328162354566222 | 0.00013553808620222278 | 0.00014682131845543967 | 0.0002694401034649997 | 0.9959492303537674    | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.0011410314924691922 | 0.0002539231120816617 | 0.00016619025460347 | 0.00012526932905747353 | 0.00012351473530792219 | 0.0003218953196420524 | 0.9941611521992996    |
+------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
| A(1) | 0.0009386146048432514 | 0.0002614515791675382 | 0.00015919004107103055 | 0.00011853397183632825 | 0.00014601098002569788 | 0.9982000359992801    | 0.0009386146048432516 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.000821962847279303 | 0.00021651582730697615 | 0.0001328162354566222 | 0.00013553808620222278 | 0.00014682131845543967 | 0.9983833593792101    | 0.0006751282743721308 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.0011410314924691922 | 0.0002539231120816617 | 0.00016619025460347 | 0.00012526932905747353 | 0.00012351473530792219 | 0.9980686280821478    | 0.0009731413001167772 |
+------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
| A(2) | 0.0009386146048432514 | 0.0002614515791675382 | 0.00015919004107103055 | 0.00011853397183632825 | 0.9991239341198456     | 0.0002999940001199976 | 0.0009386146048432516 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.000821962847279303 | 0.00021651582730697615 | 0.0001328162354566222 | 0.00013553808620222278 | 0.9991190720892671     | 0.0002694401034649997 | 0.0006751282743721308 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.0011410314924691922 | 0.0002539231120816617 | 0.00016619025460347 | 0.00012526932905747353 | 0.9992589115881523     | 0.0003218953196420524 | 0.0009731413001167772 |
+------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
| A(3) | 0.0009386146048432514 | 0.0002614515791675382 | 0.00015919004107103055 | 0.9992887961689818     | 0.00014601098002569788 | 0.0002999940001199976 | 0.0009386146048432516 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.000821962847279303 | 0.00021651582730697615 | 0.0001328162354566222 | 0.9991867714827865     | 0.00014682131845543967 | 0.0002694401034649997 | 0.0006751282743721308 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.0011410314924691922 | 0.0002539231120816617 | 0.00016619025460347 | 0.999248384025655      | 0.00012351473530792219 | 0.0003218953196420524 | 0.0009731413001167772 |
+------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
| A(4) | 0.0009386146048432514 | 0.0002614515791675382 | 0.9990448597535737     | 0.00011853397183632825 | 0.00014601098002569788 | 0.0002999940001199976 | 0.0009386146048432516 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.000821962847279303 | 0.00021651582730697615 | 0.9992031025872602    | 0.00013553808620222278 | 0.00014682131845543967 | 0.0002694401034649997 | 0.0006751282743721308 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.0011410314924691922 | 0.0002539231120816617 | 0.999002858472379   | 0.00012526932905747353 | 0.00012351473530792219 | 0.0003218953196420524 | 0.0009731413001167772 |
+------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
| A(5) | 0.0009386146048432514 | 0.9984312905249948    | 0.00015919004107103055 | 0.00011853397183632825 | 0.00014601098002569788 | 0.0002999940001199976 | 0.0009386146048432516 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.000821962847279303 | 0.9987009050361582     | 0.0001328162354566222 | 0.00013553808620222278 | 0.00014682131845543967 | 0.0002694401034649997 | 0.0006751282743721308 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.0011410314924691922 | 0.9984764613275101    | 0.00016619025460347 | 0.00012526932905747353 | 0.00012351473530792219 | 0.0003218953196420524 | 0.0009731413001167772 |
+------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
| A(6) | 0.9943683123709405    | 0.0002614515791675382 | 0.00015919004107103055 | 0.00011853397183632825 | 0.00014601098002569788 | 0.0002999940001199976 | 0.0009386146048432516 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.9950682229163242   | 0.00021651582730697615 | 0.0001328162354566222 | 0.00013553808620222278 | 0.00014682131845543967 | 0.0002694401034649997 | 0.0006751282743721308 | 0.14285714285714285 | 0.14285714285714285 | 0.14285714285714285 | 0.9931538110451849    | 0.0002539231120816617 | 0.00016619025460347 | 0.00012526932905747353 | 0.00012351473530792219 | 0.0003218953196420524 | 0.0009731413001167772 |
+------+-----------------------+-----------------------+------------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+----------------------+------------------------+-----------------------+------------------------+------------------------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+---------------------+------------------------+------------------------+-----------------------+-----------------------+
+------+----------+
| G(0) | 0.326015 |
+------+----------+
| G(1) | 0.345975 |
+------+----------+
| G(2) | 0.328011 |
+------+----------+
+------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+
| A    | A(0)                  | A(1)                  | A(2)                | A(3)                | A(4)                | A(5)                  | A(6)                  |
+------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+
| B(0) | 0.9949723479135243    | 0.6856282119440014    | 0.5093465674110835  | 0.30210223835450695 | 0.1605408839277611  | 0.0007265329845975006 | 0.0028441410693970416 |
+------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+
| B(1) | 0.0025138260432378077 | 0.31348573453836615   | 0.3373862696443341  | 0.4259679370840895  | 0.35302659043470364 | 0.34859052600988083   | 0.0028441410693970416 |
+------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+
| B(2) | 0.0025138260432378077 | 0.0008860535176324649 | 0.15326716294458229 | 0.27192982456140347 | 0.4864325256375351  | 0.6506829410055216    | 0.9943117178612059    |
+------+-----------------------+-----------------------+---------------------+---------------------+---------------------+-----------------------+-----------------------+
+------+-----------------------+--------------------+--------------------+-----------------------+-----------------------+--------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+--------------------+-----------------------+-----------------------+--------------------+--------------------+-----------------------+
| A    | A(0)                  | A(0)               | A(0)               | A(1)                  | A(1)                  | A(1)               | A(2)                | A(2)                   | A(2)                  | A(3)                   | A(3)                | A(3)                   | A(4)                  | A(4)                   | A(4)                | A(5)               | A(5)                  | A(5)                  | A(6)               | A(6)               | A(6)                  |
+------+-----------------------+--------------------+--------------------+-----------------------+-----------------------+--------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+--------------------+-----------------------+-----------------------+--------------------+--------------------+-----------------------+
| B    | B(0)                  | B(1)               | B(2)               | B(0)                  | B(1)                  | B(2)               | B(0)                | B(1)                   | B(2)                  | B(0)                   | B(1)                | B(2)                   | B(0)                  | B(1)                   | B(2)                | B(0)               | B(1)                  | B(2)                  | B(0)               | B(1)               | B(2)                  |
+------+-----------------------+--------------------+--------------------+-----------------------+-----------------------+--------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+--------------------+-----------------------+-----------------------+--------------------+--------------------+-----------------------+
| C(0) | 0.998315647633485     | 0.3333333333333333 | 0.3333333333333333 | 0.5214956491772206    | 0.9981156962502357    | 0.3333333333333333 | 0.35152105662011474 | 0.5770205115632916     | 0.9982011153085089    | 0.00041718815185648727 | 0.30599443754068284 | 0.5494067482387838     | 0.0009421518748822309 | 0.00042844901456726646 | 0.37251243781094523 | 0.3333333333333333 | 0.0006947339169098235 | 0.0003721899657585231 | 0.3333333333333333 | 0.3333333333333333 | 0.0009534706331045003 |
+------+-----------------------+--------------------+--------------------+-----------------------+-----------------------+--------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+--------------------+-----------------------+-----------------------+--------------------+--------------------+-----------------------+
| C(1) | 0.0008421761832575375 | 0.3333333333333333 | 0.3333333333333333 | 0.4780735762901697    | 0.0009421518748822311 | 0.3333333333333333 | 0.3447006603875717  | 0.42257089155838845    | 0.0008994423457456378 | 0.4682519816437213     | 0.3395467187407539  | 0.45012977382276603    | 0.0009421518748822309 | 0.529477292202228      | 0.3333333333333333  | 0.3333333333333333 | 0.0006947339169098235 | 0.48808992109572724   | 0.3333333333333333 | 0.3333333333333333 | 0.0009534706331045003 |
+------+-----------------------+--------------------+--------------------+-----------------------+-----------------------+--------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+--------------------+-----------------------+-----------------------+--------------------+--------------------+-----------------------+
| C(2) | 0.0008421761832575375 | 0.3333333333333333 | 0.3333333333333333 | 0.0004307745326096321 | 0.0009421518748822311 | 0.3333333333333333 | 0.3037782829923135  | 0.00040859687831984963 | 0.0008994423457456378 | 0.5313308302044222     | 0.35445884371856323 | 0.00046347793845012973 | 0.9981156962502354    | 0.47009425878320477    | 0.2941542288557214  | 0.3333333333333333 | 0.9986105321661803    | 0.5115378889385142    | 0.3333333333333333 | 0.3333333333333333 | 0.998093058733791     |
+------+-----------------------+--------------------+--------------------+-----------------------+-----------------------+--------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+------------------------+-----------------------+------------------------+---------------------+--------------------+-----------------------+-----------------------+--------------------+--------------------+-----------------------+
+-------+-----------------------+------------------------+------------------------+
| G     | G(0)                  | G(1)                   | G(2)                   |
+-------+-----------------------+------------------------+------------------------+
| H(-6) | 0.034512471655328794  | 0.00021367521367521362 | 0.00022537750732476897 |
+-------+-----------------------+------------------------+------------------------+
| H(-5) | 0.12390022675736959   | 0.037136752136752126   | 0.00022537750732476897 |
+-------+-----------------------+------------------------+------------------------+
| H(-4) | 0.20349206349206345   | 0.14098290598290597    | 0.028217263917061076   |
+-------+-----------------------+------------------------+------------------------+
| H(-3) | 0.2732879818594104    | 0.2298290598290598     | 0.12679738562091503    |
+-------+-----------------------+------------------------+------------------------+
| H(-2) | 0.22185941043083895   | 0.22521367521367516    | 0.1937345052963714     |
+-------+-----------------------+------------------------+------------------------+
| H(-1) | 0.10798185941043081   | 0.20790598290598286    | 0.25702050935316656    |
+-------+-----------------------+------------------------+------------------------+
| H(0)  | 0.034512471655328794  | 0.11329059829059827    | 0.2606716249718278     |
+-------+-----------------------+------------------------+------------------------+
| H(1)  | 0.0002267573696145124 | 0.045213675213675204   | 0.10002253775073247    |
+-------+-----------------------+------------------------+------------------------+
| H(2)  | 0.0002267573696145124 | 0.00021367521367521362 | 0.03308541807527609    |
+-------+-----------------------+------------------------+------------------------+
[<TabularCPD representing P(A:7 | G:3, H:9) at 0x269465c8b08>, <TabularCPD representing P(B:3 | A:7) at 0x269465ef888>, <TabularCPD representing P(C:3 | A:7, B:3) at 0x269465ef908>, <TabularCPD representing P(G:3) at 0x269465f3288>, <TabularCPD representing P(H:9 | G:3) at 0x269465f33c8>]

在这里插入图片描述
在这里插入图片描述
参考资料
1.周志华,机器学习,清华大学出版社
2.李航,统计学习方法(第二版),清华大学出版社
3.垃圾邮件分类和新闻分类数据集:https://github.com/Jack-Cherish/Machine-Learning
4.视频参考1:https://www.bilibili.com/video/BV16t411Q7TM
5.视频参考2:https://www.bilibili.com/video/BV1Tb411H7uC
6.贝叶斯网参考:https://blog.csdn.net/GnahzNib/article/details/70244175
7.贝叶斯网参考:https://blog.csdn.net/weixin_41599977/article/details/90320390

  • 3
    点赞
  • 1
    评论
  • 20
    收藏
  • 一键三连
    一键三连
  • 扫一扫,分享海报

©️2021 CSDN 皮肤主题: 1024 设计师:白松林 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值