本周工作
因为需要有推荐处方的功能,所以读了论文《A Topic Modeling Approach for Traditional Chinese Medicine Prescriptions》
这篇论文提出了一个主题模型来描述中医理论中处方的生成过程。
利用主题模型建模
将处方视为文档,处方中的草药和症状当作单词,将治疗的模式(一种证候及其对应的治疗方式)当作主题进行建模。把草药和症状当作观察变量,证候和治疗方式当作隐藏变量。也就是建模如何生成一个处方的N个草药和M种症状。
每个处方的主题分布,每一个证候的症状分布,每一个治疗方法的草药分布都是多项式分布,它们的先验分布都是Dirichlet分布。
提出的第一个模型如下:
根据训练样本,通过吉布斯采样得到参数估计:
推荐草药
根据给定的一组症状推荐草药:
计算以上的条件概率,把条件概率最高的N种作为推荐的草药。衡量性能的指标是Precision@N(Precision at top-N),也就是推荐的这N种草药中,实际出现在处方中的比例。