如何高效获取Twitter数据：Apify平台上的推特数据采集解决方案

freewind

已于 2024-12-06 00:17:53 修改

阅读量1.9k

点赞数 24

文章标签： twitter

于 2024-12-05 23:55:55 首次发布

本文链接：https://blog.csdn.net/xtj332/article/details/144278736

版权

引言

在数据分析和市场研究领域，Twitter（现在的X）数据一直是重要的信息来源。但是，自从Twitter更改API定价策略后，获取数据的成本大幅提升。本文将介绍一个经济实惠的替代方案。

为什么需要Twitter数据？

1. 市场分析

品牌声誉监控

竞品分析

用户情感分析

市场趋势预测

2. 学术研究

社会行为研究

舆情分析

网络传播研究

3. 商业应用

用户画像分析

营销策略优化

竞争对手监控

潜在客户发掘

Apify平台上的Twitter数据采集Actor

用到下面这个API

Cheapest Twitter Scraper | $0.25 per 1000 Tweets · ApifyMost affordable Twitter scraping API: Just $0.25/1000 tweets! Lightning-fast speed (150/sec), real-time data, and 99.9% uptime. Best price guaranteed.https://apify.com/kaitoeasyapi/twitter-x-data-tweet-scraper-pay-per-result-cheapest

主要功能

搜索推文
看着代码很长，其实核心就两行，拼装参数+调用HTTP接口。

这个API非常强大，因为能够支持按照任意检索条件搜索推文。具体支持的检索条件可以参考这篇文章。https://github.com/igorbrigadir/twitter-advanced-search


import time
import traceback
#from apify_client import ApifyClient
import requests


#可以在这里找到apify的token https://console.apify.com/settings/integrations
apify_token ="apify_api_sXPOOXXXXXXXXXXXXXXX"
# 
tweet_scraper_url = f'https://api.apify.com/v2/acts/kaitoeasyapi~twitter-x-data-tweet-scraper-pay-per-result-cheapest/run-sync-get-dataset-items?token={apify_token}'



import time
import traceback
#from apify_client import ApifyClient
import requests


apify_token ="apify_api_xxxxxxxx"
#在这个页面找到你的 apify_token https://console.apify.com/settings/integrations

tweet_scraper_url = f'https://api.apify.com/v2/acts/kaitoeasyapi~twitter-x-data-tweet-scraper-pay-per-result-cheapest/run-sync-get-dataset-items?token={apify_token}'


def get_tweet_from_apify():

    headers = {'Content-Type': 'application/json'}
    data = {
    "-min_faves": 0,
    "-min_replies": 0,
    "-min_retweets": 0,
    "filter:blue_verified": False,
    "filter:consumer_video": False,
    "filter:has_engagement": False,
    "filter:hashtags": False,
    "filter:images": False,
    "filter:links": False,
    "filter:media": False,
    "filter:mentions": False,
    "filter:native_video": False,
    "filter:nativeretweets": False,
    "filter:news": False,
    "filter:pro_video": False,
    "filter:quote": False,
    "filter:replies": False,
    "filter:safe": False,
    "filter:spaces": False,
    "filter:twimg": False,
    "filter:verified": False,
    "filter:videos": False,
    "filter:vine": False,
    "include:nativeretweets": False,
    "lang": "en",
    "maxItems": 19,
    "min_faves": 0,
    "min_replies": 0,
    "min_retweets": 0,
    "queryType": "Top",
    "since": "2024-11-23_16:16:50_UTC",
    "twitterContent": "\"Al Roker\""
    }
  
    response = requests.post(tweet_scraper_url, headers=headers, json=data,timeout=50)
    if response.status_code == 201:
        resp_json = response.json()
        print(f"call apidojo~tweet-scraper begin .req:{data},resp:{resp_json}")
            
        if isinstance(resp_json, list) and len(resp_json) > 0 and 'noResults' in resp_json[0]:
            return []
        else:
            return resp_json 
    else:
        print(f"call fail resp code is ：{response.status_code}")

        
    return []    
    

if __name__ == "__main__":
    tweets = get_tweet_from_apify()
    print(f"tweets:{tweets}")