BZOJ1076: [SCOI2008]奖励关(状压DP+期望记忆化搜索/倒推)

最新推荐文章于 2019-03-14 16:38:00 发布

肘子zhouzi

最新推荐文章于 2019-03-14 16:38:00 发布

阅读量220

点赞数

文章标签： Shape of pressure Memorized search backward

本文链接：https://blog.csdn.net/zhouzi2018/article/details/88195467

版权

题意：传送门

题解：用dp[i][j]代表从第i个宝物开始，当前状态（已经取过的宝物）为j的情况下，用最优策略应对，到最后可以取得的分数的期望值。因为当前这一轮出现任何宝物的几率相等，所以期望值等于所有情况下期望得分的和除以情况数。而出现第k种宝物的情况下，期望得分为max(dp[i+1][j],dp[i+1][j|1<<k] + P[k])。所以，转移方程为

dp[i][j]=Σ(1<=k<=N)max(dp[i+1][j],dp[i+1][j|1<<k] + P[k]) / N。

dp[i][j],i>N的情况是基础情形，期望得分为0。
那么，如何根据已有的结果，得到最优应对策略呢？假设当前正在出现第i个宝物，状态为j，出现了第k种宝物。如果状态j不满足要求，自然不收取宝物。否则，如果dp[i+1][j]>dp[i+1][j|1<<k]+P[k]，则说明不收取的期望收益大，反之则是收取的期望收益大。

最后直接记忆化搜索即可。
附上代码：

#include<bits/stdc++.h>
const int maxk=1e2+5;
const int maxn=15+5;
const int maxz=6e4+5;
const int inf=0x3f3f3f3f;
inline double max(double a, double b)
{
    return a>b ? a : b;
}
int K, N;
double P[maxn];
bool s[maxn][maxn];
double dp[maxk][100000];
double dfs(int n, int S)
{
    if (n > K)return 0;
    if (dp[n][S]!=-inf)return dp[n][S];
    dp[n][S]=0;
    for(int i=1;i<=N;i++){
        bool flag=true;
        for(int j=1;j<=N;j++){
            if(s[i][j]&&!(S&(1<<(j-1)))){
                flag=false;
                break;
            }
        }
        if(flag)dp[n][S]+=max(dfs(n+1,S),dfs(n+1,S|(1<<(i-1)))+P[i]);
        else dp[n][S]+=dfs(n+1,S);
    }
    dp[n][S]/=N;
    return dp[n][S];
}
int main()
{
    scanf("%d%d",&K,&N);
    for(int i=1;i<=K;i++){
        for(int j=0;j<maxz;j++){
            dp[i][j]=-inf;
        }
    }
    for(int i=1;i<=N;i++){
        scanf("%lf",&P[i]);
        int t;
        do{
            scanf("%d",&t);
            s[i][t]=true;
        }while(t);
    }
    printf("%f", dfs(1, 0));
    return 0;
}

第二种是使用倒推，因为正推对于dp[i][s]，可能在第i轮到不了s这个状态，依然用dp[i][j]代表从第i个宝物开始，当前状态（已经取过的宝物）为j的情况下，用最优策略应对，到最后可以取得的分数的期望值。然后就能从后往前递推，如果对于第i种物品，能取的话，那么从取它和不取它导出最大值，如果不能取，直接加上后面的值即可，最后算期望，统一除以个数即可。

附上代码：

#include<bits/stdc++.h>
using namespace std;
const int maxk=1e2+5;
const int maxn=15+5;
const int maxz=6e4+5;
int N,K,t,v[maxn],d[maxn],p[maxn];
double dp[maxk][maxz];
int main()
{
	for(int i=1;i<=16;i++)p[i]=1<<(i-1);
	scanf("%d%d",&K,&N);
	for(int i=1;i<=N;i++){
		scanf("%d%d",&v[i],&t);
		while(t){
			d[i]+=p[t];
			scanf("%d",&t);
		}
	}
	for(int i=K;i;i--){
        for(int j=0;j<=p[N+1]-1;j++){
			for(int k=1;k<=N;k++){
                if((d[k]&j)==d[k])dp[i][j]+=max(dp[i+1][j],dp[i+1][j|p[k]]+v[k]);
				else dp[i][j]+=dp[i+1][j];
			}
			dp[i][j]/=N;
		}
	}
	printf("%f\n",dp[1][0]);
	return 0;
}

肘子zhouzi

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
BZOJ1076: [SCOI2008]奖励关(状压DP+期望记忆化搜索/倒推)

题意：传送门题解：用dp[i][j]代表从第i个宝物开始，当前状态（已经取过的宝物）为j的情况下，用最优策略应对，到最后可以取得的分数的期望值。因为当前这一轮出现任何宝物的几率相等，所以期望值等于所有情况下期望得分的和除以情况数。而出现第k种宝物的情况下，期望得分为max(dp[i+1][j],dp[i+1][j|1&lt;&lt;k] + P[k])。所以，转移方程为dp[i][j...
复制链接

扫一扫