BZOJ1076: [SCOI2008]奖励关(状压DP+期望 记忆化搜索/倒推)

题意:传送门

题解:用dp[i][j]代表从第i个宝物开始,当前状态(已经取过的宝物)为j的情况下,用最优策略应对,到最后可以取得的分数的期望值。因为当前这一轮出现任何宝物的几率相等,所以期望值等于 所有情况下期望得分的和 除以 情况数。而出现第k种宝物的情况下,期望得分为max(dp[i+1][j],dp[i+1][j|1<<k] + P[k])。所以,转移方程为

dp[i][j]=Σ(1<=k<=N)max(dp[i+1][j],dp[i+1][j|1<<k] + P[k]) / N。

dp[i][j],i>N的情况是基础情形,期望得分为0。
那么,如何根据已有的结果,得到最优应对策略呢?假设当前正在出现第i个宝物,状态为j,出现了第k种宝物。如果状态j不满足要求,自然不收取宝物。否则,如果dp[i+1][j]>dp[i+1][j|1<<k]+P[k],则说明不收取的期望收益大,反之则是收取的期望收益大。

最后直接记忆化搜索即可。
附上代码:

#include<bits/stdc++.h>
const int maxk=1e2+5;
const int maxn=15+5;
const int maxz=6e4+5;
const int inf=0x3f3f3f3f;
inline double max(double a, double b)
{
    return a>b ? a : b;
}
int K, N;
double P[maxn];
bool s[maxn][maxn];
double dp[maxk][100000];
double dfs(int n, int S)
{
    if (n > K)return 0;
    if (dp[n][S]!=-inf)return dp[n][S];
    dp[n][S]=0;
    for(int i=1;i<=N;i++){
        bool flag=true;
        for(int j=1;j<=N;j++){
            if(s[i][j]&&!(S&(1<<(j-1)))){
                flag=false;
                break;
            }
        }
        if(flag)dp[n][S]+=max(dfs(n+1,S),dfs(n+1,S|(1<<(i-1)))+P[i]);
        else dp[n][S]+=dfs(n+1,S);
    }
    dp[n][S]/=N;
    return dp[n][S];
}
int main()
{
    scanf("%d%d",&K,&N);
    for(int i=1;i<=K;i++){
        for(int j=0;j<maxz;j++){
            dp[i][j]=-inf;
        }
    }
    for(int i=1;i<=N;i++){
        scanf("%lf",&P[i]);
        int t;
        do{
            scanf("%d",&t);
            s[i][t]=true;
        }while(t);
    }
    printf("%f", dfs(1, 0));
    return 0;
}

第二种是使用倒推,因为正推对于dp[i][s],可能在第i轮到不了s这个状态,依然用dp[i][j]代表从第i个宝物开始,当前状态(已经取过的宝物)为j的情况下,用最优策略应对,到最后可以取得的分数的期望值。然后就能从后往前递推,如果对于第i种物品,能取的话,那么从取它和不取它导出最大值,如果不能取,直接加上后面的值即可,最后算期望,统一除以个数即可。

附上代码:

#include<bits/stdc++.h>
using namespace std;
const int maxk=1e2+5;
const int maxn=15+5;
const int maxz=6e4+5;
int N,K,t,v[maxn],d[maxn],p[maxn];
double dp[maxk][maxz];
int main()
{
	for(int i=1;i<=16;i++)p[i]=1<<(i-1);
	scanf("%d%d",&K,&N);
	for(int i=1;i<=N;i++){
		scanf("%d%d",&v[i],&t);
		while(t){
			d[i]+=p[t];
			scanf("%d",&t);
		}
	}
	for(int i=K;i;i--){
        for(int j=0;j<=p[N+1]-1;j++){
			for(int k=1;k<=N;k++){
                if((d[k]&j)==d[k])dp[i][j]+=max(dp[i+1][j],dp[i+1][j|p[k]]+v[k]);
				else dp[i][j]+=dp[i+1][j];
			}
			dp[i][j]/=N;
		}
	}
	printf("%f\n",dp[1][0]);
	return 0;
}

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值