博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
hadoop学习-1 获取测试数据
阅读量:6626 次
发布时间:2019-06-25

本文共 984 字,大约阅读时间需要 3 分钟。

hot3.png

制造数据:  每行101个随机数字。

import randomdef get_file():    """    获得一个文件,如果没有,则;创建并返回,如果有,则直接返回。    :return: file    """    file = open('data.txt', 'a', encoding='utf-8')    return filedef append_data(file, data_num):    """    获取数据    :param file:    :return:    """    for i in range(data_num):        tmp_data = random.randrange(0, data_num)        tmp_data = str(tmp_data) + ' '        file.write(tmp_data)        if i != 0 and i % 100 == 0:            file.write('\n')            print(i)if __name__ == '__main__':    file = get_file()    data_num = 100000000000000000000    append_data(file, data_num)    file.close()

获取文件中的单个行:

if __name__ == '__main__':    file = open('data.txt', 'r', encoding='utf-8')    try:        while True:            line = file.readline()            if line:                words = line.split(' ')                print("line=", len(words))            else:                break    finally:        file.close()

 

转载于:https://my.oschina.net/marjeylee/blog/1559781

你可能感兴趣的文章
关于反模式、设计和复用的一些想法
查看>>
NSPredicate过滤数组数据
查看>>
设置MYSQL允许用IP访问
查看>>
spark 数据预处理 特征标准化 归一化模块
查看>>
大道至简,系统设计和模块划分的实用经验之谈
查看>>
正则表达式中参数g、i、m的作用(share)
查看>>
使用Solr构建企业级的全文检索(四)---------写入文档
查看>>
用DirectX实现魔方(二)
查看>>
jvm系列(三):java GC算法 垃圾收集器
查看>>
【读书笔记】Data_Mining_with_R---Chapter_2_Predicting Algae Blooms
查看>>
iOS: 首次使用App时,显示半透明新手指引
查看>>
C# winform DataGridView 属性说明
查看>>
不错的usb分析工具!!!---用bus hound分析usb的枚举过程【转】
查看>>
web前端开发分享-css,js提高篇
查看>>
C#遍历枚举
查看>>
ASP.NET链接MySQL数据库
查看>>
【设计模式】状态模式
查看>>
Berkeley DB python btree
查看>>
jQuery选择器之属性选择器Demo
查看>>
用cflow工具生成代码函数调用关系【转】
查看>>