python处理10亿级别数据求助

通常在python里,一个字典只有支持几万到几十万数据量的时候效率最高。字典太大并不适合这种数据类型。列表也不是存贮效率高的一种方式,通常我们大数据量计算会使用array,最差也要使用blist。另外range也不可以的。要用xrange。xrange通常不消耗多少内存。range会用很多内存。你上面的文字描述也没有讲...
python处理10亿级别数据求助
还没有仔细分析你的算法。第一个感觉,如果没有一个超级计算机,还是想办法优化你的算法。

通常在python里,一个字典只有支持几万到几十万数据量的时候效率最高。字典太大并不适合这种数据类型。

列表也不是存贮效率高的一种方式,通常我们大数据量计算会使用array,最差也要使用blist。

另外range也不可以的。要用xrange。xrange通常不消耗多少内存。range会用很多内存。

你上面的文字描述也没有讲明白你的算法目标。如果你讲得清楚,可以直接帮你优化一下算法。

整型的KEY,完全可以不用字典,只需要一个索引加一个一个数组就可以解决。

总体感觉你自己把算法弄得复杂了,应该可以有更简单得多的算法。先优化算法再做程序吧。即使你用java实现这个功能,也会出现内存不足。另外你代码里可通还有语法错误。

cums1,cums2,cums3应该是一个东西,为什么要弄三份。又不需要改写。一份足够了。2013-07-15
mengvlog 阅读 9 次 更新于 2025-07-19 17:34:46 我来答关注问题0
  • 还没有仔细分析你的算法。第一个感觉,如果没有一个超级计算机,还是想办法优化你的算法。通常在python里,一个字典只有支持几万到几十万数据量的时候效率最高。字典太大并不适合这种数据类型。列表也不是存贮效率高的一种方式,通常我们大数据量计算会使用array,最差也要使用blist。另外range也不可以...

  •  翡希信息咨询 Python 适合大数据量的处理吗

    1. 数据量定义: 百万行级的数据通常不被视为大数据量。在当前的互联网应用中,大数据量通常指的是10亿条数据以上的规模。2. 处理任务类型: 数据载入和分发:Python 在数据载入和分发方面表现高效。 常用统计量和基本算法:Python 拥有现成的、高效的库,这些库提供了C实现和并行化的功能,可以处理大...

  •  文暄生活科普 10分钟入门faiss相似向量检索

    Faiss,全称为Facebook AI Similarity Search,是Facebook AI团队为大规模向量提供快速TopK相似向量检索而设计的工具。该工具以C++编写,具备Python接口,能够实现对10亿级数据的毫秒级检索,适用于构建人脸识别、相似图片检索、LLM知识库问答等应用场景。Faiss的核心原理是构建基向量数据的索引,然后通过索引实...

  •  吃大象的小猫 python可以对大数据进行卡方检验吗

    1. 百万行级不算大数据量,以目前的互联网应用来看,大数据量的起点是10亿条以上。2. 处理的具体含义,如果是数据载入和分发,用python是很高效的;如果是求一些常用的统计量和求一些基本算法的结果,python也有现成的高效的库,C实现的和并行化的;如果是纯粹自己写的算法,没有任何其他可借鉴的,什...

  •  文暄生活科普 向量检索引擎Faiss

    Faiss,全称为 Facebook AI Similarity Search,是Facebook AI团队专门针对大规模向量进行 TopK 相似向量检索设计的一款工具。它使用C++编写,并提供了Python接口,能实现10亿量级索引的毫秒级检索性能,大大提高了检索效率。简单理解,Faiss 通过将自定义的候选向量集合封装成一个index数据库,加速了我们寻找...

檬味博客在线解答立即免费咨询

Python相关话题

Copyright © 2023 WWW.MENGVLOG.COM - 檬味博客
返回顶部