面试信息处理Python脚本

import pandas as pd

xls_path = r'C:\Users\xxx\Desktop\面经_搜索_socket.xlsx'
key_word = 'socket'
output_file = r'E:\myfile.txt'
items_per_file = 20

df = pd.read_excel(xls_path, sheet_name='datatable')
def hasKeyWord(line):
    return key_word in line.lower()

line_cnt = 0
node_idx = 0

with open(output_file, 'w', encoding='utf-8') as f:
    f.write(str(int(node_idx)) + '\n')
    for index, row in df.iterrows():
        lines = row['正文'].split("\n")
        flt_lines = filter(hasKeyWord, lines)
        for line in flt_lines:
            outLine = line + '\n\t\t链接\n\t\t\t' + row['链接'] + '\n'
            outLine = outLine.lstrip()
            outLine = '\t' + outLine
            print(outLine)
            f.write(outLine)
            line_cnt += 1
            if line_cnt % items_per_file == 0:
                node_idx = line_cnt / items_per_file
                f.write(str(int(node_idx)) + '\n')

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值