## 字典的基本结构
字典是关联数组或映射的别称,通过散列表实现。其主要由键值对组成,如:{key: value, }。列表中的值通过整数索引进行访问,也就是元素在列表中的位置,而字典中的值则通过关联的键进行访问。列表的创建如下:x = [],而字典则通过:y = {}。列表不允许对不存在的元素赋值,如:x[0] = 'a',而字典则可以:y[0] = 'a'。字典可使用非整数键来存储和使用数据,而列表则只能通过整数索引,如:y['hello'] = 'world'。
列表和字段的值可以为任意类型,但列表只能使用整数对值进行索引,而字典则可使用任何不可变的,可散列的对象,如字符串,frozenset等。元组虽然是不可变的,但当其包含了可变元素时会导致散列的结果变化,如元组的元素为列表或者字典,这时元组不可作为键,而元组只包含不可变的元素时,可作为字典的键,如:(1, 'a',)。
## 字典的基本操作
上面简单介绍了字典的创建,赋值和访问,此外字典还支持很多其他操作,可通过:python -m pydoc -p2222,然后访问:
localhost:2222/builtins.html#dict,进行查看。常用的有:len(dict)返回字典条目数量;dict.keys()获取字典所有的键;values获取字典中所有的值;items返回字典中所有的键值对;del删除字典中指定条目;in判断某个键是否在字典中存在;get返回字典中指定键关联的值,如不存在则返回None或返回函数第二个参数指定的值;copy返回字典的浅拷贝,如需深拷贝,需要导入copy.deepcopy进行复制;update使用参数字典中的键值对更新调用者的键值对。更多操作可访问库文档查看。
## 字典的应用
后续数据分析和深度学习相关的内容中会大量涉及矩阵运算,当对矩阵进行存储的时候,如果大量节点的数值都为0,此时的矩阵被称之为稀疏矩阵,可使用字典只存储那些少量的非零节点,如:{(0, 0): 1, (3, 3): 5},这样就可以节省大量的存储空间。另外,当某个计算结果需要大量重复使用,但计算过程比较复杂耗时,或者需要消耗大量的网络或者IO的时候,可以计算一次之后,使用字段将结果缓存起来,在整个过程中重复使用。其实,大型应用中的redis之类的缓存系统就是起这个作用的。另外,spark计算平台也是通过类似的思想对hadoop的分布式计算过程的中间结果进行缓存和重复使用进行优化的。后续也都会针对相关内容进行介绍,敬请期待。
"橙汁数据"(微信公众号),长期关注大数据的收集处理与分析,深度学习与人工智能应用,如有大数据或智能应用相关业务,欢迎关注"橙汁数据"(微信公众号)洽谈咨询;