数据处理心得

作为小白参见建模竞赛心得:
最近第一次参加数学建模国赛,整个过程都经历了一次,有许多感想经验可以总结下来。对于大多数的参赛者来说题目难度都是很大的,过度对目标结果的积极估计会对比赛过程完成许多障碍。从我个人来说整个比赛应该从两个方面来说,第一个是赛题方面来说,实际工业问题主要依靠matlab编程和微分方程建模,由于个人能力有限对今年的图论优化问题难以参透其中奥妙,数据分析是今年的趋势,以后也会有,许多人认为这个题简单,但是现实情况并不是,基于部分数据对一个现实时间进行分析预测,给定的数据不同无论是类型还是数量都是问题,个人感觉今年C题数据类型很狭窄,同时脏数据的处理必须基于对现实问题呢足够了解,否则一味套用各种算法去分析得出的结论大概率不能正确反应结果
数据类别多就像葡萄题目一样有好处也有坏处,在题目给出的数据量大但是类型少,针对现实事件的典型性不强所以如果直接套用模型进行一般化求解所得的结果应该是存在显著性或者其他各种问题
所以在充分了解题目实际背景后基于现有数据类型或者适当补充数据类型是很有必要的,而且数据分析不确定很强,个人感觉比较吃经验和细节。

# for i in range(123):
    # iris = pd.read_excel('C:\\Users\\st\Desktop\\%s.xlsx'%(i),'进项发票信息')

# # 第三步:获取class列表并去重
# class_list = list(iris['企业代号'].drop_duplicates())
# #第四步:按照类别分文件存放数据
# for i in class_list:
#     iris1 = iris[iris['企业代号']==i]
#     iris1.to_excel('./%s.xlsx'%(i))
import pandas as pd
import openpyxl

for i in range(124,426):
    stexcel=pd.read_excel('C:\\Users\st\PycharmProjects\\untitled\销项信息(附件二)\\E%s.xlsx'%(i),'Sheet1')
    class_list=list(stexcel['销方单位代号'].drop_duplicates())
    print(len(class_list))


# values =
# value_cnt = {}  # 将结果用一个字典存储
# # 统计结果
# for value in values:
#  # get(value, num)函数的作用是获取字典中value对应的键值, num=0指示初始值大小。
#  value_cnt[value] = value_cnt.get(value, 0) + 1
#
# # 打印输出结果
#
# print(len(value_cnt.keys()))
#二分法查找
def search(name):
    search_queue = deque()
    search_queue += garph[name]
    searched = []
    while search_queue:
        person= search_queue.popleft()
        if person not in searched:
            if person_is_seller(person):
                print( person + "is a mango sellor!")
                return True
            else:
                search_queue += garph[person]
                searched.append(person)
    return False
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值