【问题】
很多小明同学啊,在写代码的时候,一不小心将测试的cnn模型或者测试视频放到仓库目录下,同时忘记了编写 .gitignore 文件忽略对应文件,然后将所有文件推到了公司代码服务器上,该代码仓库就瞬间爆炸了,本来最多就几MB的代码库,一下子甚至飙升到了几个GB的大小。其他同学再拉取代码的时候要好几分钟,严重影响各位同学写代码了,同时占据了大量的硬盘空间和代码服务器空间。
【解决】
一共分三步:
- 找到对应的大文件和提交历史;
- 删除大文件和修改提交历史;
- 重新推送代码仓库。
第一步:找到大文件
命令
git rev-list --objects --all | grep "$(git verify-pack -v .git/objects/pack/*.idx | sort -k 3 -n | tail -5 | awk '{print$1}')"
输出
c9853e631785727a7679b2179be356c9f268a97c
b9d121ead2c499b77fdaa10fc59f95cf2a41ca46 8.mp4
第二步:删除大文件
命令
git filter-branch -f --prune-empty --index-filter "git rm -rf --cached --ignore-unmatch 8.mp4" --tag-name-filter cat -- --all
输出
WARNING: git-filter-branch has a glut of gotchas generating mangled history
rewrites. Hit Ctrl-C before proceeding to abort, then use an
alternative filtering tool such as 'git filter-repo'
(https://github.com/newren/git-filter-repo/) instead. See the
filter-branch manual page for more details; to squelch this warning,
set FILTER_BRANCH_SQUELCH_WARNING=1.
Proceeding with filter-branch...
Rewrite 463a9cb31ef1b6f0e67256b65c30a4ff9fb7d642 (3/7) (1 seconds passed, remaining 1 predicted) rm '8.mp4'
Rewrite c9853e631785727a7679b2179be356c9f268a97c (3/7) (1 seconds passed, remaining 1 predicted) rm '8.mp4'
Rewrite 2c1755a720639f55ebf93df5484b94b4b4380ef3 (3/7) (1 seconds passed, remaining 1 predicted) rm '8.mp4'
Rewrite c30b0cb6bb4a6202d139a01a033255767ddd38ea (7/7) (2 seconds passed, remaining 0 predicted)
WARNING: Ref 'refs/heads/master' is unchanged
WARNING: Ref 'refs/heads/new' is unchanged
Ref 'refs/remotes/origin/master' was rewritten
WARNING: Ref 'refs/remotes/origin/new' is unchanged
第三步:推送仓库
命令
git push origin --force --all
输出
Total 0 (delta 0), reused 0 (delta 0), pack-reused 0
remote: Powered by GITEE.COM [GNK-6.4]
To gitee.com:hello/testgit.git
+ c30b0cb...cdf4f61 master -> master (forced update)
另外
提交完成后,请其他各位同学删除本地仓库,重新从服务器拉取代码,不要再推送了,要不然又要重新搞一遍。
【扩展】
Windows PowerShell
下执行有关命令会出现问题
git verify-pack -v .git/objects/pack/pack-c1a9c4b28655a4a0353d0fa4149a8579fd53de34.idx | sort -k 3 -n | tail -3
还是用回 git bash
不要用 Windows PowerShell
。
切换到 git bash
下
-
双引号不是单引号
git filter-branch -f --prune-empty --index-filter "git rm -rf --cached --ignore-unmatch 8.mp4" --tag-name-filter cat -- --all
命令里是"git rm -rf --cached --ignore-unmatch 8.mp4"
而不是'git rm -rf --cached --ignore-unmatch 8.mp4'
,否则会出现fatal: bad revision 'git rm --ignore-unmatch --cached 8.mp4'
提示。 -
git-count-objects
- 计算解包的对象数量及其磁盘消耗量 -
git-gc
- 清理不必要的文件并优化本地存储库
【参考】
- progit https://git-scm.com/book/en/v2 P460~P464
- https://harttle.land/2016/03/22/purge-large-files-in-gitrepo.html
- https://cloud.tencent.com/developer/section/1138773