2022深圳杯A题思路模型分析

数模竞赛pawn

已于 2022-08-17 16:18:26 修改

阅读量4.2k

点赞数 5

分类专栏：数学建模比赛文章标签：数据库架构数据库

于 2022-08-07 01:12:08 首次发布

本文链接：https://blog.csdn.net/zzzzzzzxxaaa/article/details/126204086

版权

数学建模比赛专栏收录该内容

71 篇文章 354 订阅

订阅专栏

已更新A题代码模型

A题分析

问题分析：首先我们通过微博选择需要研究的话题，收集话题的相关数据以及用户粉丝人数、转发量、评论量来作为信息传播的影响因子，通过量化单位时间的转发量、评论量等指标。来作为信息传播的综合评价指标，从而构建综合评价体系量化信息传播指数，引入熵权法求解各评价指标的权重，综合分析信息传播随时间变化的规律。

在全新的信息传播格局下，如何破除“尖叫效应”与“回声室效应”，走出“信息茧房”，是当前迫切需要解决的现实问题，即如何从信息传输的顶层设计、推荐算法的公平性和广大网络用户的责任担当等方面，帮助公众对新闻事件乃至社会现实有一个相对准确、清晰的认识和判断，并在主流意识和个性化信息之间找到平衡点，使得网络舆论环境更具理性和建设性。请回答以下问题：

1. 针对某些话题，在微信、微博、Facebook和Twitter等社交媒体上下载相关数据，定量描述该话题（或信息）的传播过程，并分析其影响因素。该数据分析需至少针对两种不同的话题展开讨论，其中一个话题最终观点趋于相同（中立共识），另一话题最终观点趋于两极分化（观点极化）。

问题一分析

中立共识与观点极化其实是在话题传播途中，用户对话题评论数量的占比，通过分析话题中反对、支持、中立三种不同观点的评论数及评论数随时间增长速度随时间的变化规律；该规律用于刻画话题中共识与极化形成的机制，同时分别统计各因素指标的数值，引入相关性分析模型，分别讨论不同观点评论数量、增长量与各因素的关系。

得出一部分爬虫后的数据

2.建立数学模型刻画中立共识和观点极化的产生机制，探索“尖叫效应”、“回声室效应”与“信息茧房”的形成机制，并讨论话题的吸引度、用户的活跃度、用户心理、不同用户间的相互影响、平台推荐算法等因素对形成这些现象的影响。

问题二分析：

对于尖叫效应，当话题在短时间内快速传播，用户对话题的评论量会迅速放大，速度的增长量也会快速增加，通过收集不同话题在起初阶段的传播速度情况从而对比不同话题形成“尖叫效应”的异同，同时利用上述相关性模型得到“尖叫效应”后的形成与各因素之间的关系。“回声效应”和“信息茧房”同理，视频里有具体讲解。

具体代码过多，只展示部分：

{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 预处理"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 25,
   "metadata": {},
   "outputs": [],
   "source": [
    "import os\n",
    "import pandas as pd\n",
    "import re\n",
    "import jieba\n",
    "import jieba.posseg as psg"
]
"cell_type": "code",
   "execution_count": 27,
   "metadata": {},
   "outputs": [],
   "source": [
    "def chinese_word_cut(mytext):\n",
    "    jieba.load_userdict(dic_file)          # 加载用户词典\n",
    "    jieba.initialize()                     # 手动初始化（可选）\n",
    "    \n",
    "    # 加载用户停用词表\n",
    "    try:\n",
    "        stopword_list = open(stop_file,encoding ='utf-8')\n",
    "    except:\n",
    "        stopword_list = []\n",
    "        print(\"error in stop_file\")\n",
    "    \n",
    "    stop_list = []                       # 存储用户停用词\n",
    "    flag_list = ['n','nz','vn']          # 指定在jieba.posseg分词函数中只保存n：名词、nz：其他专名、vn：动名词\n",
    "    for line in stopword_list:\n",
    "        line = re.sub(u'\\n|\\\\r', '', line)\n",
    "        stop_list.append(line)\n",
    "    \n",
    "    word_list = []\n",
    "    seg_list = psg.cut(mytext)            # jieba.posseg分词\n",
    "    \n",

完整的思路↓

下面给大家总结了一下华数杯数学建模常见问题分为：

1.分类问题

2.预测问题

3.优化问题

4.评价问题

分类问题

判别分析

距离判别法

基本思想：首先根据已知分类的数据，分别计算各类的重心即分组(类)的均值，判别准则是对任给的一次观测，若它与第类的重心距离最近，就认为它来自第类。
至于距离的测定，可以根据实际需要采用欧氏距离、马氏距离、明科夫距离等。

Fisher判别法

基本思想：从两个总体中抽取具有个指标的样品观测数据，借助方差分析的思想构造一个判别函数或称判别式。其中系数确定的原则是使两组间的区别最大，而使每个组内部的离差最小。

聚类分析

聚类分析是一种无监督的分类方法，即不预先指定类别。
根据分类对象不同，聚类分析可以分为样本聚类（Q型）和变量聚类（R型）。样本聚类是针对观测样本进行分类，而变量聚类则是试图找出彼此独立且有代表性的自变量，而又不丢失大部分信息。变量聚类是一种降维的方法。

系统聚类法（分层聚类法）

基本思想：开始将每个样本自成一类；然后求两两之间的距离，将距离最近的两类合成一类；如此重复，直到所有样本都合为一类为止。

快速聚类法（K-均值聚类法）

基本思想：按照指定分类数目，选择个初始聚类中心；计算每个观测量（样本）到各个聚类中心的距离，按照就近原则将其分别分到放入各类中；重新计算聚类中心，继续以上步骤；满足停止条件时（如最大迭代次数等）则停止。

两步聚类法（智能聚类方法）

基本思想：先进行预聚类，然后再进行正式聚类。

模糊聚类分析

与遗传算法、神经网络或灰色理论联合的聚类方法

神经网络分类方法

预测问题

定性研究与定量研究的结合，是科学的预测的发展趋势。在实际预测工作中，应该将定性预测和定量预测结合起来使用，即在对系统做出正确分析的基础上，根据定量预测得出的量化指标，对系统未来走势做出判断。

回归分析法

基本思想：根据历史数据的变化规律，寻找自变量与因变量之间的回归方程式，确定模型参数，据此预测。回归问题分为一元和多元回归、线性和非线性回归。

时间序列分析法

基本思想：把预测对象的历史数据按一定的时间间隔进行排列，构成一个随时间变化的统计序列，建立相应的数据随时间变化的变化模型，并将该模型外推到未来进行预测。

灰色预测法

基本思想：将一切随机变量看作是在一定范围内变化的灰色变量，不是从统计规律角度出发进行大样本分析研究，而是利用数据处理方法(数据生成与还原)，将杂乱无章的原始数据整理成规律性较强的生成数据来加以研究，即灰色系统理论建立的不是原始数据模型，而是生成数据模型。

BP神经网络法

利用人工神经网络的学习功能，用大量样本对神经元网络进行训练，调整其连接权值和闭值，然后可以利用已确定的模型进行预测。神经网络能从数据样本中自动地学习以前的经验而无需繁复的查询和表述过程，并自动地逼近那些最佳刻画了样本数据规律的函数，而不论这些函数具有怎样的形式，且所考虑的系统表现的函数形式越复杂，神经网络这种特性的作用就越明显。
目前，神经网络模型已成功地应用于许多领域，诸如经济预测、财政分析、贷款抵押评估和破产预测等许多经济领域。

组合预测法

在实际预测工作中，从信息利用的角度来说，就是任何一种单一预测方法都只利用了部分有用信息，同时也抛弃了其它有用的信息。为了充分发挥各预测模型的优势，对于同一预测问题，往往可以采用多种预测方法进行预测。不同的预测方法往往能提供不同的有用信息，组合预测将不同预测模型按一定方式进行综合。根据组合定理，各种预测方法通过组合可以尽可能利用全部的信息，尽可能地提高预测精度，达到改善预测性能的目的。
优化组合预测有两类概念，一是指将几种预测方法所得的预测结果，选取适当的权重进行加权平均的一种预测方法，其关键是确定各个单项预测方法的加权系数；二是指在几种预测方法中进行比较，选择拟合度最佳或标准离差最小的预测模型作为最优模型进行预测。组合预测是在单个预测模型不能完全正确地描述预测量的变化规律时发挥其作用的。

优化问题

数学规划模型

线性规划、整数线性规划、非线性规划、多目标规划、动态规划。

微分方程组模型

阻滞增长模型、SARS传播模型。

图论与网络优化问题

最短路径问题、网络最大流问题、最小费用最大流问题、最小生成树问题(MST)、旅行商问题(TSP)、图的着色问题。

概率模型

决策模型、随机存储模型、随机人口模型、报童问题、Markov链模型。

组合优化经典问题

多维背包问题(MKP)

背包问题：个物品，对物品，体积为，背包容量为。如何将尽可能多的物品装入背包。
多维背包问题：个物品，对物品，价值为，体积为，背包容量为。如何选取物品装入背包，是背包中物品的总价值最大。
多维背包问题在实际中的应用有：资源分配、货物装载和存储分配等问题。该问题属于难问题。

二维指派问题(QAP)

工作指派问题：个工作可以由个工人分别完成。工人完成工作的时间为。如何安排使总工作时间最小。
二维指派问题（常以机器布局问题为例）：台机器要布置在个地方，机器与之间的物流量为，位置与之间的距离为，如何布置使费用最小。
二维指派问题在实际中的应用有：校园建筑物的布局、医院科室的安排、成组技术中加工中心的组成问题等。

旅行商问题(TSP)

旅行商问题：有个城市，城市与之间的距离为，找一条经过个城市的巡回（每个城市经过且只经过一次，最后回到出发点），使得总路程最小。

车辆路径问题(VRP)

车辆路径问题（也称车辆计划）：已知个客户的位置坐标和货物需求，在可供使用车辆数量及运载能力条件的约束下，每辆车都从起点出发，完成若干客户点的运送任务后再回到起点，要求以最少的车辆数、最小的车辆总行程完成货物的派送任务。
TSP问题是VRP问题的特例。

车间作业调度问题(JSP)

车间调度问题：存在个工作和台机器，每个工作由一系列操作组成，操作的执行次序遵循严格的串行顺序，在特定的时间每个操作需要一台特定的机器完成，每台机器在同一时刻不能同时完成不同的工作，同一时刻同一工作的各个操作不能并发执行。如何求得从第一个操作开始到最后一个操作结束的最小时间间隔。

判别分析是在已知研究对象分成若干类型并已经取得各种类型的一批已知样本的观测数据，在此基础上根据某些准则建立判别式，然后对未知类型的样品进行判别分析。
聚类分析则是给定的一批样品，要划分的类型实现并不知道，正需要通过局内分析来给以确定类型的。