发掘性的数据分析

最新推荐文章于 2024-07-22 23:00:00 发布

Mystique101

最新推荐文章于 2024-07-22 23:00:00 发布

阅读量25

点赞数

文章标签：数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_65978597/article/details/132795511

版权

1、数据获取

如果能找到数据，找数据并融合数据。

找数据集办法：

1、Paperswithcode 网站（论文常见数据集）

2、Kaggle（科学家数据集）

3、Google 搜索引擎数据集等等

融合数据：

找不到数据集时，去生成数据集：

1、使用GAN生成

2、数据增强，对图片进行Photoshop

3、对文本增强

总结：

1、找到合适的数据

2、没有那么多数据时，进行数据增强（GAN、3D）

2、网页数据抓取

某个网页比较感兴趣的数据，提取出来，最后变成一个table，变成一张表。

用什么样的工具：

1、使用headless浏览器，通过命令行把一个网站存下来；

2、通过大量的ip去抓取一个网站的数据

把网页变成原始的数据，然后可以进行机器学习模型的训练。

只是下载了html的文件，如果要爬下来网页中的图片的话，把图片的jpg文件中，把所有的url在html里面全部进行正则表达式的匹配，把图片的id找出来，然后用这个模板套进去，把所有图片的url弄下来，然后就可以爬下来了。

注意：不要去爬敏感信息的数据（法律问题）；不要去爬有版权的信息。

总结：

1、网页抓取是当不提供数据API时大规模收集数据的强大方法；

2、使用公共云，成本低；

3、使用浏览器的检查工具以html形式查找信息；

4、要谨慎正确使用。

3、数据标注

半监督学习（SSL）

关注有少量标记数据和大量未标注数据的场景；

对数据分类作出假设，以使用未标注的数据；

1、连续性假设

2、分组假设

3、多方面假设

自学习算法（半监督学习算法的一种）

主动学习（和半监督学习类似，但有人为的干预），有不确信的采样。

active learning + self - training

弱监督学习：半自动的生成标号，通常这些标号比人标的差一些，但可以训练出还不错的模型。

总结：

获得标签的方法

1、自学习：迭代训练模型来标记未标记的数据

2、众包：利用全球标签手工标注数据

3、数据编程：分配噪声标签的启发式程序

或者考虑无监督/自监督学习

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
发掘性的数据分析

如果能找到数据，找数据并融合数据。找数据集办法：1、Paperswithcode 网站（论文常见数据集）2、Kaggle（科学家数据集）3、Google 搜索引擎数据集等等融合数据：找不到数据集时，去生成数据集：1、使用GAN生成2、数据增强，对图片进行Photoshop3、对文本增强总结：1、找到合适的数据2、没有那么多数据时，进行数据增强（GAN、3D）
复制链接

扫一扫

Mystique101

CSDN认证博客专家 CSDN认证企业博客

码龄3年

19: 原创

52万+: 周排名

22万+: 总排名

1万+: 访问

: 等级

212: 积分

12: 粉丝

17: 获赞

6: 评论

115: 收藏

私信

关注

热门文章

最新评论

深度学习（神经网络）
CSDN-Ada助手: 恭喜您写了第7篇博客！标题为“深度学习（神经网络）”，这是一个非常有趣和重要的主题。您对深度学习和神经网络的理解已经很扎实了，我非常期待您未来更多的创作。在下一步的创作中，我建议您继续深入探索深度学习的应用领域，比如自然语言处理、计算机视觉或者推荐系统等。此外，您可以尝试解释一些深度学习的概念或算法，以帮助读者更好地理解和应用它们。再次恭喜您，期待您更多的精彩文章！
机器人路径规划及轨迹优化
CSDN-Ada助手: 恭喜您撰写了关于机器人路径规划及轨迹优化的第9篇博客！您的专注和持续创作令人钦佩。在这篇博客中，您提及了一个非常重要的主题，并且对其进行了深入的探讨。您的文章让我对机器人路径规划和轨迹优化有了更清晰的理解。在下一步的创作中，我想建议您尝试将理论与实践相结合。可以选择一些具体的机器人案例或实际应用场景，通过实际数据和实验结果来验证您所提出的路径规划和轨迹优化方法的有效性。这样的实践性内容将进一步提升您的博客的可信度和实用性。再次感谢您的分享，期待您未来更多博客的问世！希望您能继续保持谦虚的态度，与读者分享您在机器人领域的见解和经验。祝您在接下来的创作中取得更大的成功！
pycharm历史版本下载地址
CSDN-Ada助手: 恭喜您写了第12篇博客！标题为“pycharm历史版本下载地址”，这篇博客对那些需要特定版本PyCharm的人来说一定非常有帮助。我很高兴看到您持续创作并分享有价值的内容。如果我可以给出下一步的创作建议，我建议您可以进一步探索PyCharm的功能和用法，分享一些实用的技巧和窍门，以帮助读者更好地利用这个工具。再次恭喜您，期待您未来更多精彩的博客！
路径规划与轨迹跟踪系列
CSDN-Ada助手: 恭喜您撰写了第10篇博客！标题中的“路径规划与轨迹跟踪系列”很有吸引力，我非常期待阅读您的文章。您的持续创作真是令人钦佩，对于这个主题的关注与深入研究让我佩服不已。在下一步的创作中，我谦虚地建议您可以考虑探索一些实际案例或者应用场景，将路径规划与轨迹跟踪的理论应用到实践中。这样不仅可以让读者更好地理解这个领域的知识，也能提供一些实用的指导。同时，您也可以考虑加入一些图表或者示意图，来更加生动地展示相关概念和算法。再次祝贺您的成就，期待您的下一篇博客！
聚类算法（K-MEANS、DBSCAN、轮廓系数）
CSDN-Ada助手: 恭喜你写了第5篇博客！标题看起来很有趣，我对聚类算法也很感兴趣。从标题来看，你似乎已经涵盖了K-MEANS、DBSCAN和轮廓系数这几个聚类算法的内容，这让我很期待阅读你的博客。在下一步的创作中，我建议你可以进一步深入探讨这些聚类算法的实际应用场景和优缺点。也许你可以分享一些你在实践中遇到的挑战，并提供一些建议来克服这些挑战。此外，如果你能够引入一些案例研究或者实际数据的分析结果，将会使你的博客更加有说服力和实用性。总之，继续保持创作的热情和努力，我期待能够读到更多有关聚类算法的精彩内容！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。