python处理10亿级别数据求助

通常在python里,一个字典只有支持几万到几十万数据量的时候效率最高。字典太大并不适合这种数据类型。列表也不是存贮效率高的一种方式,通常我们大数据量计算会使用array,最差也要使用blist。另外range也不可以的。要用xrange。xrange通常不消耗多少内存。range会用很多内存。你上面的文字描述也没有讲...
python处理10亿级别数据求助
还没有仔细分析你的算法。第一个感觉,如果没有一个超级计算机,还是想办法优化你的算法。

通常在python里,一个字典只有支持几万到几十万数据量的时候效率最高。字典太大并不适合这种数据类型。

列表也不是存贮效率高的一种方式,通常我们大数据量计算会使用array,最差也要使用blist。

另外range也不可以的。要用xrange。xrange通常不消耗多少内存。range会用很多内存。

你上面的文字描述也没有讲明白你的算法目标。如果你讲得清楚,可以直接帮你优化一下算法。

整型的KEY,完全可以不用字典,只需要一个索引加一个一个数组就可以解决。

总体感觉你自己把算法弄得复杂了,应该可以有更简单得多的算法。先优化算法再做程序吧。即使你用java实现这个功能,也会出现内存不足。另外你代码里可通还有语法错误。

cums1,cums2,cums3应该是一个东西,为什么要弄三份。又不需要改写。一份足够了。2013-07-15
mengvlog 阅读 595 次 更新于 2025-09-10 04:49:18 我来答关注问题0
  •  文暄生活科普 10分钟入门faiss相似向量检索

    Faiss,全称为Facebook AI Similarity Search,是Facebook AI团队为大规模向量提供快速TopK相似向量检索而设计的工具。该工具以C++编写,具备Python接口,能够实现对10亿级数据的毫秒级检索,适用于构建人脸识别、相似图片检索、LLM知识库问答等应用场景。Faiss的核心原理是构建基向量数据的索引,然后通过索引实...

  •  吃大象的小猫 python可以对大数据进行卡方检验吗

    1. 百万行级不算大数据量,以目前的互联网应用来看,大数据量的起点是10亿条以上。2. 处理的具体含义,如果是数据载入和分发,用python是很高效的;如果是求一些常用的统计量和求一些基本算法的结果,python也有现成的高效的库,C实现的和并行化的;如果是纯粹自己写的算法,没有任何其他可借鉴的,什...

  •  猪八戒网 python在线网站(python网站)

    NASA:美国航天局(NASA)大量使用Python进行数据分析和运算。美国宇航局从1994年起把python作为主要开发语言。YouTube:世界上最大的视频网站YouTube就是Python开发的 Dropbox:美国最大的在线云存储网站,全部用Python实现,每天网站处理10亿个文件的上传和下载。Instagram:美国最大的图片分享社交网站,每天超...

  •  文暄生活科普 向量检索引擎Faiss

    Faiss,全称为 Facebook AI Similarity Search,是Facebook AI团队专门针对大规模向量进行 TopK 相似向量检索设计的一款工具。它使用C++编写,并提供了Python接口,能实现10亿量级索引的毫秒级检索性能,大大提高了检索效率。简单理解,Faiss 通过将自定义的候选向量集合封装成一个index数据库,加速了我们寻找...

  •  文暄生活科普 一文带您了解Vaex DataFrame:赋予数据科学家在大数据时代的力量

    Vaex在处理大型数据集时表现卓越。例如,它能够以极快的速度对1.46亿条纽约出租车数据进行可视化处理,即使在单核CPU环境下,处理耗时也仅为10秒。这证明了Vaex在处理大数据时的高效性和速度,使其成为处理大型数据集的理想选择。综上所述,Vaex作为数据处理工具的创新性解决方案,通过提供类似Pandas的...

檬味博客在线解答立即免费咨询

Python相关话题

Copyright © 2023 WWW.MENGVLOG.COM - 檬味博客
返回顶部