1.最大熵模型:对于未知变量,倾向于最大熵(均匀分布),因为这样最保险 2.学习时候进行最大似然估计 约束条件:也就是求出的条件分布尽量符合数据情况 3.求解的时候使用拉格朗日方法, 先求w才行,但是这个对于P是凸函数,就对P求导,