Search
Search
#1. R语言as.factor()用法及代码示例 - 纯净天空
as.factor() R语言中的函数用于将传递的对象(通常是Vector)转换为Factor。 用法: as.factor(object). 参数: Object:要转换的向量. 范例1:.
因子是由向量轉換而成,多用於表示類別數據,如大學中有大學生、碩士班學生與博士班學生三種類別的學生,使用方法為 factor(資料向量,levels=類別次序) , levels 參數 ...
用class() 檢查因子變數可知其資料結構為factor, 用mode() 檢查其資料型態卻是numeric, 這表示Levels 的資料型態是數值, 雖然Levels 看起來像是字串, 但 ...
#4. 关于r:为什么使用as.factor()而不是factor() | 码农家园
在对此答案的评论中。 我使用了此代码段,但我需要显式设置因子水平以确保水平按所需顺序显示,因此我必须进行更改 ...
#5. 認識R 的美好
10.1 R 語言三大資料結構. 一維. 向量(vector); 因素向量(factor). 二維. 矩陣(matrix); 資料框(data.frame). 多維. 陣列(array); 清單(list) ...
所以我现在正在学习R,并且我从许多来源注意到,每当我们想要将数据类型转换为数字时,我们都使用两个函数 as.numeric() 和 as.factor() 。
要熟悉一個程式語言,第一步就是先了解定義在裡面的資料型態。而在R語言的資料型態,常用的有這些:. integer; number; logic; character; factor ...
#8. r语言as.factor函数
为您解决当下相关问题,如果想了解更详细r语言as.factor函数内容,请点击详情链接进行了解,或者注册账号与 ... R语言中read.table函数不常见的用法-文本中有#注释符号.
#9. R 因子 - 菜鸟教程
R 因子因子用于存储不同类别的数据类型,例如人的性别有男和女两个类别,年龄来分可以有未成年人和成年人。 R 语言创建因子使用factor() 函数,向量作为输入参数。
#10. 因子· R Basic
因子. 利用factor 建立因子. 因子有點像經過分級之後的向量,因子大多可以用在統計上的迴歸分析與實際設計等。 > x <- c(1, 2, 4, 3, 1, 2, 3, 4,1) > factor(x) [1] 1 ...
#11. R学习第九篇:因子- 悦光阴 - 博客园
因子(factor)是R语言中比较特殊的一个数据类型, 它是一个用于存储类别的类型,举个例子,从性别上,可以把人分为:男人和女人,从年龄上划分, ...
#12. R 字串與因子- 頁4,共5 - G. T. Wang
colors.factor3 <- factor(colors, levels = c("red", "yellow", "green"), labels = c("R", "Y", "G")) colors.factor3 [1] R Y G R G Levels: R Y G.
#13. 如何理解R中因子(factor)的概念? - 知乎
我们先从因子的起源说起。 我们生活中经常会遇到分类的问题,比如从性别上分能分成两类:男人和女人。如果从年龄上划分,又可将人群分为青年人(<-30岁),中年 ...
#14. 请问factor() 和as.factor()的区别- R语言论坛 - 经管之家
请问各位老师,本人刚刚自学R语言, R中factor() 和as.factor()的区别是什么好像都是把其他类型的数据转换成因子型的数据呀。
#15. 10 R因子类型| R语言教程
R 中用因子代表数据中分类变量, 如性别、省份、职业。 有序因子代表有序量度,如打分结果,疾病严重程度等。 用 factor() 函数把字符型向量转换成 ...
#16. R 軟體入門 - 臺北醫學大學數據處統計中心
臺北醫學大學生物統計研究中心eNews 第14 期R 軟體入門2016/08 ... 變數名稱中的意思,基本上這兩種用法是相同的,選擇自己習慣用法即可; ... 因子(Factor) ##.
#17. 在R编程中将向量转换为因子– as.factor()函数 - lsbin
as.factor()发挥作用R语言用于将传递的对象(通常为Vector)转换为因子。
#18. 01-RBasic-04-Factors
這個課程將帶大家快速了解R語言的Factor資料結構。 關卡2. Factor是一個向量物件,用途是儲存「類別」的資料。有這樣的資料 ...
#19. 第4 章: 常用的R 內建函式4
4: Common R Computing Functions. 4.1 函式的語法. R 向量的算數操作, 有許多時候透過“函式” (function). ... Sort a vector or factor (partially).
#20. R程式語言的基礎: 物件 - 吳漢銘
When an object is created (for example with the assignment <-), R must ... 查看mean的用法 ... Some standard R functions for working with factors include.
#21. 6.2 函数功能| 商业数据分析师-R 语言数据处理
主要介绍 fct_reorder() , fct_infreq() , fct_relevel() 等函数用法。 6.2.1 创建因子. 使用base R 中 factor 函数创建因子。 x1 ...
#22. R语言因子 - 易百教程
它们在统计建模的数据分析中很有用。 因子可通过 factor() 函数使用向量作为输入来创建。 示例 # Create a vector as input. data <- ...
#23. as factor函数 - 搜狗搜索
92%的人还搜了 · as character函数 quantile · as numeric函数含义 r语言as character · r中numeric 的意思 quartilefunction · numberic函数用法r r语言numeric.
#24. R tutorial - Amazon AWS
左下區R的執行介面(Console),在編輯區塊所執行的指令都會在左下角顯現,也可以在此執行 ... Species : Factor w/ 3 levels "setosa","versicolor",.
#25. R commands(11.09.13) 指令用法簡介
R 有哪些指令可用,所以整理此表以供簡單查詢,詳細用法請見參考資料。 指令 ... 依照levels 由小到大順序建立有序factor 變數. ○ 串列變數.
#26. 輕鬆學習R 語言:資料結構. 關於向量以外的資料結構 - Medium
接下來我們要認識利用向量所組成的資料結構,這些資料結構包含彈性的容器:清單(list)、有階層資訊的向量:因素向量(factor)、現代化表格:資料框(data.frame)、兩個 ...
#27. R語言中因子的創建與使用 - 每日頭條
nmax:水平個數的限制。 下面給出幾個具體的例子來說明具體使用方法:. fc1 <- factor(c(1, 2, 3, 3 ...
#28. R語言中is.與as.的區別與用法 - 台部落
R 語言中is.與as.的區別與用法 ... 一個字符串會將此向量中的所有元素轉換爲字符型。 你可以使用下表1 中列出的函數來判斷數據的類型或者將其轉換爲指定類型 ...
#29. R學習筆記:資料清理Cleaning Data (2)
factor (類別變項): factor(“Yeah"), factor(7) logical(邏輯變項): TRUE, FALSE, NA. 有時候我們需要做資料型態的轉換,以下是常見的幾個語法.
#30. [R] 當數值型轉Factor再轉回數字型資料時需注意之事項 - Mao's ...
再轉成數值型態即可:n_c_tmp <- as.numeric(as.character(f_tmp))。 下方有小範例。 When you want to change a factor full of numeric data to numeric ...
#31. R中factor因子向量的用法- 日记 - 豆瓣
R 中factor因子向量的用法变量可归为名义型、连续型或连续型变量。 diabetes <- c("Type1","type2","Type1","Type2") class(diabetes) diabetes ...
#32. R语言中因子的创建与管理
函数factor()以一个整数向量的形式存储类别值,整数的取值范围是[1... k ](其中k 是名义型变量中唯一值的个数),同时一个由字符串(原始值)组成的内部 ...
#33. R factor和levels的用法,因子的概念 - 新浪博客
R factor 和levels的用法,因子的概念 ... 因子在R中起到的是分类变量的作用。这里稍微介绍几个名词。我们在统计分析中,通常都是选整体的一小部分观察单位 ...
#34. [資料科學] R語言初學雜筆 - 沒一村
R 語言和一般的程式語言有很大的不一樣,學起來跟當初剛學JS一樣, ... as.factor(vec) [1] 14 15 16 18 19 Levels: 14 15 16 18 19 # levels 表示vec ...
#35. R语言笔记之数据类型2因子 - RVDSD的个人笔记本
一个因子不仅包括分类变量本身还包括变量不同的可能水平(即使它们在数据中不出现)。 factor()用法. factor (x,levels=sort(unique(x),na.last ...
#36. R tips: 把數字依大小做分類: cut()和他的好朋友們
其實R裡有個方便的函數cut() 可以試試,就不用再寫一堆if else囉! [cut 的用法:1.待切割的數據,2.下刀處(要給頭尾),3切完後的類別].
#37. factor中文(繁體)翻譯:劍橋詞典
factor 翻譯:事實, 因素;要素, 數字, 因數,因數, 係數。了解更多。 ... factor 在英語-中文(繁體)詞典中的翻譯. factor. noun [ C ] ... /ˈfæk.tər/ us.
#38. 如何在回归中强制R使用指定的因子水平作为参考? - QA Stack
如果我在回归中使用二进制解释变量,如何告诉R使用某个级别作为参考? 默认情况下,它仅使用某个级别。 lm(x ~ y + as.factor(b)). 与 b {0, 1, 2, 3, 4} 。
#39. factor函数用法 - 布格伦科技网
R 语言中Factor 原文链接: Factor_zhangxiaojiakele的博客-CSDN博客关于R语言中的"因子"变量类型(一)使用R语言一段时间的用户绝对不会对R语言 ...
#40. R 語言學習心得-基礎篇.md
每個程式語言都有一些額外的packages 可以下載R 語言也不例外, ... 分類(給予同樣的元素相同編號) 使用as.factor(X) 來將向量X轉換成factor vector 先看下一頁的範例, ...
#41. R語言資料視覺化技巧-facet-多類別資料分析 - 叡揚資訊
前言今天要來講資料視覺化的工具-R語言的ggplot在做資料科學的研究時, ... 我們想看一下到底有哪些類別在R裡面把它變成factor這種資料型態就可以:.
#42. 使用R 中的as.numeric 函数将因子转换为数字 - Delft Stack
as 函数通常用于将数据类型显式转换为另一种类型。转换过程在R 术语中称为强制转换,它表示其他编程语言中存在的强制转换概念。当我们调用函数 as.
#43. R factor的意思- 英漢詞典 - 漢語網
R factor 中文的意思、翻譯及用法:釋放因子;推理因素;R因子。英漢詞典提供【R factor】的詳盡中文翻譯、用法、例句等.
#44. R語言中因子(factor)轉換成數值型(numeric)的問題- IT閱讀
R 語言中因子(factor)轉換成數值型(numeric)的問題 ... x<-“123”,x為character型別,而as.numeric(x)則為numeric型別的123。但是因子(factor)型別卻不一樣。
#45. R語言中的因子類型詳解 - WalkonNet
#gl()函數#gl函數能很快的產生因子,其基本用法為:gl(n,k,length=n*k,labels=1:n ... 補充:R語言中因子(factor)轉換成數值型(numeric)的問題.
#46. r factors中文, r factors是什麼意思:[醫] R因子,… - 查查在線詞典
r factors 中文:[醫] R因子, 葉酸…,點擊查查權威綫上辭典詳細解釋r factors的中文翻譯,r factors的發音,音標,用法和例句等。
#47. R 資料結構筆記 - 龍崗山上的倉鼠
書中是說factor 可被特別的方式儲存,若查看data.frame 表示方式,可利用model.matrix 來建立指標(虛擬變數- dummy variable)。 > newFactor <- factor(c( ...
#48. R-factor - 用法_例句 - 海词词典
海詞詞典,最權威的學習詞典,為您提供R-factor的在線翻譯,R-factor是什麼意思,R-factor的真人發音,權威用法和精選例句等。
#49. R语言car包recode函数使用说明- 爱数吧
语法\用法:. recode(var, recodes, as.factor, as.numeric=TRUE, levels) Recode(...) 参数说明:. var : 数字向量、字符向量或因子。
#50. 详解R语言因子类型 - 编程宝库
详解R语言因子类型:& 一、Factor函数#函数factor可以把一个向量编码为一个因子, ... #gl()函数#gl函数能很快的产生因子,其基本用法为:gl(n,k,length=n*k ...
#51. R语言中的因子类型详解 - 脚本之家
#gl()函数#gl函数能很快的产生因子,其基本用法为:gl(n,k,length=n*k,labels=1:n ... 补充:R语言中因子(factor)转换成数值型(numeric)的问题.
#52. factor (【名詞】因素, 要素)意思、用法及發音| Engoo Words
"factor" 意思. factor. /ˈfæktər/. 名詞. 因素, 要素. "factor" 例句 ... 瀏覽單字. ABCDEFGHIJKLMNOPQRSTUVWXYZ. 相關單字. factor in. 片語動詞. major factor.
#53. 统计学与R读书笔记(第六版)
5.3.10 attach 的用法. ... 它用法,请读者参考R网站的其它文档,这方面的文档是比. 较多的。 ... factor及ordered函数在统计模型中特别有用.
#54. 大數據與商業分析實習
Data.frame為R最強大的資料結構,這是很多程式語言所沒有 ... R的每個封包(package)中都有內建的資料庫,可以 ... help & ? 的用法. 查看相關函數 ...
#55. R 使用ggplot2 繪製箱形圖Box Plot 教學與範例 - Office 指南
介紹如何在R 中使用 ggplot2 套件繪製各種樣式的箱型圖(box plot)。 ... 繪製基本箱形圖 ggplot(ToothGrowth, aes(x = as.factor(dose), y = len)) + geom_boxplot() ...
#56. factor - Yahoo奇摩字典搜尋結果
factor · 查看更多. IPA[ˈfæktə(r)] ... factoring. factor的動詞現在分詞、動名詞 ... factored. factor的動詞過去式、過去分詞 ...
#57. R语言从入门到精通:Day3
R 语言中有许多存储数据的对象类型,包括了标量、向量、矩阵、数组、数据框和列表。 ... 函数factor()的用法和参数也不在这里一一展开了。
#58. [第06 天] 資料結構(3)Data Frame - iT 邦幫忙
要注意的是Python 在指定 0:1 時不包含 1 ,在指定 0:2 時不包含 2 ,這一點是跟R 語言有很大的不同之處。 import pandas as pd groups = ["Modern Web", "DevOps", "Cloud ...
#59. R for DataScience factor学习笔记-计算机基础 - 生信技能树
title: "R for DataScience factor学习笔记"author: "Zhaoljun"date: "2018 ... 函数的用法和作用说明一下,有什么不清楚的欢迎找我,我们一起学习。
#60. R語言之重複測量方差分析——ezANOVA的使用與解析 - GetIt01
data$Density <- as.factor(data$Density). > attach(data) # 將數據框的變數(列)直接添加到R的搜索路徑,調用時就不用加上$.
#61. R中的数据结构(Array,Factor,List,DataFrame) - 云+社区- 腾讯云
Pandas中文官档~基础用法2 ... Series 与DataFrame 支持大量计算描述性统计的方法与操作。这些方法大部分都是sum()、mean()、quantile() 等聚合函数,其输出 ...
#62. R语言中的因子类型有哪些 - 亿速云
#gl()函数#gl函数能很快的产生因子,其基本用法为:gl(n,k,length=n*k,labels=1:n ... 补充:R语言中因子(factor)转换成数值型(numeric)的问题.
#63. R 統計軟體-- 語法與函數 - 陳鍾誠的網站
factor (x,levels=) 將x 轉為因子(factor) 型態. gl(n,k,length=n*k,labels=1:n), 產生因子的樣本. expand.grid(), 所有可能性列表. rbind(…) cbind(…) ...
#64. 輕鬆學習R語言學習筆記
AND(&)、OR(|)的用法與Python等其它程式語言皆相同: > ... l 因素向量(Factor)是儲存字串的資料結構,帶有層級(Levels)資訊。 l factor()函數可以將 ...
#65. Advanced R — 資料結構 - 程式前沿
這裡,你將會瞭解到因子(factors),通過設定原子向量的屬性而得到的一種重要的資料結構。 矩陣和陣列(Matrix and array)介紹矩陣和陣列,儲存2維和高 ...
#66. [程式] R的字串處理- 看板Statistics - 批踢踢實業坊
... R 的字串處理, 要小心注意character , factor , numeric 這三種物件的誤轉換和混用factor 是一種很討厭的物件, 因為它在轉成數字和字串的時候, ...
#67. R語言-進行資料的重新編碼(recode)操作 - IT145.com
as.factor.result為是否輸出factor變數。若是則為TRUE,不是為FALSE。 levels為排序向量。指定新的編碼分組的順序(預設是按照分組名稱排序 ...
#68. factor-主題- 多益單字 - 英文995
例句與用法:. Time is the limiting factor. 時間是限制性的因素。 A property, a factor, or an attribute that ...
#69. factor是什么意思及用法 - 百度知道
factor 英[ˈfæktə(r)] 美[ˈfæktɚ] n. 因素; <数>因子; 代理人; vt. 把…因素包括进去; [数学]分解…的因子,将…分解成因子; 以代理商(或管家等) ...
#70. R常见问题解答153 分钟学会
样将因子(factor) 转换为数字 ... 这个点一定要小心,因为对于顺序型factor 数据,如果强制转化为数值型,会返回的是factor ... 美)环境用法。
#71. 生态R包spatstat的部分用法(二) - 林元震的博文 - 科学网—博客
已有4524 次阅读 2019-1-7 11:02 |个人分类:R|系统分类:科研笔记| 空间生态学, 点格局函数 ... p2=unmark(p2) ##给p1,p2重新加上标记 marks(p1)=as.factor(rep("A" ...
#72. 第三讲-因子与列表 - 豆丁网
因为离散变量有各种不同表示方法,在R中为统一起见使用因子(factor)来表示这种 ... 但是,列表不同于向量,我们每次只能引用一个元素,如rec[[1:2]]的用法是不允许的。
#73. 找r $用法相關社群貼文資訊
汪培珽的臉書goo.gl/kLSOtp[PDF] R commands(11.09.13) 指令用法.。 R 因子- 菜鸟教程。 R 语言创建因子使用factor() 函数,向量作为输入参数。 factor() 函数语法 ...
#74. R语言中vapply()和tapply()的用法 - nex3z's blog
Author: nex3z · 本文通过实例说明R语言*apply()系列中vapply()和tapply()的用法,所用到的数据同R语言中lapply()和sapply()的用法。
#75. R语言的factor是什么含义(1)_weblwh的专栏-程序员宝宝
线程详细用法请参考:http://www.cnblogs.com/sunshuhai/articles/6618894.html一、初始多线程通过下面两个例子的运行效率,可以得知多线程的速度比单线程的要快很多#! ...
#76. R语言中is.与as.的区别与用法_zhmjunjun的博客-程序员秘密
R 语言中is.与as.的区别与用法_zhmjunjun的博客-程序员秘密_r语言is. 来自R语言实战(第二版),P79页. R与其他统计编程语言有着类似的数据类型转换方式。
#77. R语言:factor()函数中文帮助文档(中英文对照) - 生物统计家园
The function factor is used to encode a vector as a factor (the terms "category" and "enumerated type" are also used for factors). If argument ...
#78. as.numeric - 程序员八零
R 语言as.numeric函数将因子变量(factor)转化为数值变量(Numeric) ... 缺失origin参数原因:原日期要是字符型数据origin的含义和用法含义origin表示起始日期用法as.
#79. R語言:利用caret包中的dummyVars函數進行虛擬變量處理
可見,outcome的默認類型是numeric,現在這不是我們想要的。接下來將變量outcome轉換成factor類型。 customers$outcome<-as.factor(customers$outcome)
#80. Winsor2 stata - Marković gradnja 66
关于winsor2的用法在2017年8月4日-7日stata培训会议中,我们知道一篇完整的实证经济学论文中,经常 ... L. 建模过程: xt / ivreg2 / ,r / ,vce(cluster clustervar).
#81. Write table r - Happy Holidays Family!
write table r It might be the case that one of the column is in 'list' type instead of factor or numeric or character. eol. . If you run the above codes ...
#82. Optimproblem matlab - Abma Bestrating
Unit commitment by dynamic JRB I upgraded R to version 3. ... optimproblem 函数是在MATLAB 2017b版本才引入的,而你的MATLAB 版本是2016,所以不支持这种用法。
#83. Macs2 bedpe
1 MACS2 核心: callpeak 用法Note that MACS can't detect “BAMPE” or “BEDPE” format with ... 0+ : for bed/bedpe file manipulation; R with the ggplot2 and VGAM ...
#84. Setident seurat - KMZ-elektro doo
Identify number of factors to use for SWNE. ... R语言Seurat包Idents函数提供了这个函数的功能说明、用法、参数说明、示例Jun 04, 2020 · 我看seurat包 ...
#85. Dataframe max
Discover how to create a data frame in R, change column and row names, ... Series or DataFrame. frame are converted to factor columns unless protected by A ...
#86. r - 为什么使用as.factor() 而不仅仅是factor() - IT工具网
as.factor 是 factor 的包装器,但如果输入向量已经是一个因子,它允许快速返回: ... 性能: as.factor > factor 当输入为整数时; 未使用的级别或NA 级别; 使用R 的分组 ...
#87. Macs2 bedpe - Yaegar Global Limited
01 -style factor". bedtools intersect -a reads. 1. bed. 1 MACS2 核心: callpeak 用法Note that MACS can't detect “BAMPE” or “BEDPE” format with “AUTO”, ...
#88. Qml chartview zoom
zoomIn(r) after zooming done i need to move in zoomed plot with pressing middle button ... Feb 09, 2019 · QML中chartView的部分用法QML中关于ChartView的引用1.
#89. Macs2 bedpe
4) R wrappers for MACS -- MACSr matching the current version of MACS 5) ... As a key regulator of genome organization, CCCTC-binding factor (CTCF) has been ...
#90. Lsqcurvefit vs lsqnonlin
In GPFM, the soil profile is divided into a distribution zone nea r the soil surface, ... 其具体用法请自己用Matlab的帮助命令进行查看。 lsqcurvefit stack, ...
#91. Circos plot - Ferramenta2m
This post explores creating Circos-style genomic data plots in R using R ... Provide the factor vector, and the numeric values to use for the X axis.
#92. Fpcolors r
To build a Forest Plot often the forestplot package is used in R. (您们推荐用 ... 技术文章:用R语言中的forestplot包绘制森林图的用法. jar Files for 'RKEEL' ...
#93. Torch rfft2
使用pip install pytorch-fft即可安装用法从pytorch_fft. 0 + torchaudio 0. functional import ... 01703> but written entirely in R using the 'libtorch' library.
#94. Dataframe max
An R tutorial on the concept of data frames in R. The above data frame has 3 columns ... Once the Dataframe is created, the . frame are converted to factor ...
#95. Gsva seurat
3 (R shipped with Fedora 34). omicsbox is an all in on bioinformatics software ... Mitochondrial dysfunction has been suggested to be the key factor in the ...
#96. Dirbuster github - Anand Hirani
Enumeration is a heavy factor in this box, so make sure you don't overlook anything! ... nbtscan -r 10. ... gitS Kali—Dirbuster工具用法 工具说明. php bomb.
#97. Stenvelope
#r directive can be used in F# Interactive, C# scripting and . 50. ... based on the XY scale factor for the geometry's spatial reference system. get (this.
#98. Ewma python
您也可以进一步了解该方法所在 类pandas 的用法示例。 ... A Complete Tutorial on Time Series Modeling in R and taking the free Time Series Forecasting course.
as.factor r用法 在 [程式] R的字串處理- 看板Statistics - 批踢踢實業坊 的必吃
[軟體程式類別]:
R
[程式問題]:
資料處理
[軟體熟悉度]:
中(3個月到1年)
[問題敘述]:
最近常在處理字串
發現自己會的 function 很不夠用
想多學點 function
我列出一些我常用的
希望能拋磚引玉
請各位高手能教我一些高招
[程式範例]:
前言 :
R 的字串處理 ,
要小心注意 character , factor , numeric 這三種物件的誤轉換和混用
factor 是一種很討厭的物件 ,
因為它在轉成數字和字串的時候 ,
常常會變成跟原本不一樣的東西 ,
建議資料處理的過程 ,
預設用 matrix 和 character 兩種而避免使用 data.frame
------------------------------------------------------------------
1.字串黏合
paste ("A","B",sep="") ---->>> "AB"
2.字串切割
strsplit("A.B",split=".",fixed=T) ---->>> "A" "B"
3.精確穩合
x <- c("AB","AA")
x %in% "AB" ---->>> TRUE FALSE
4.部份吻合 + (回傳 which)
x <- c("AB","AA")
grep("B",x) ---->>> 1
grep("A",x) ---->>> 1 2
grep("B",x,value=T) ---->>> "AB"
grep("B",x,value=T,invert=T) ---->>> "AA"
grep("C",x) ---->>> integer(0)
#若目的是要找 index , 建議改用 grepl
4-2.部份吻合 + (回傳判斷式)
x <- c("AB","AA")
grepl("B",x) ---->>> TRUE FALSE
4-3.部份吻合 + (回傳位置) + (回傳??)
x <- c("BBB","AAA","CCB")
regexpr("B",x) ---->>> 1 -1 3 (第一次 "hit" 的位置)
1 -1 1 (有無 "hit")
5.子字串
substr("human123456",start=1,stop=5) ---->>> "human"
!!注意!! 4-3 的 regexpr
與這個 substr 結合起來 ,
在寫 網頁Parser 的時候很好用
regexpr 能定義出 statr=多少
所謂的網頁Parser
就是你去下載某些 html 檔案
檢視原始碼
然後找出你需要的資料
再找出一些能 cut 的規則
用 strsplit 搭配 TR , TD 之類的字串去切出你要的資料
6.特定字元取代 (1st hit)
x <- "AABB"
sub("A",replacement="C",x) ---->>> "CABB"
6-2.全部特定字元取代 (global hit)
x <- "AABB"
gsub("A",replacement="C",x) ---->>> "CCBB"
7.計算字串長度
### 盡量別用這個 fuction
x <- c("A","AAA","AAAAA")
nchar(x) ---->>> 1 3 5
nchar(as.factor(x)) ---->>> 1 1 1
8.多重字元(串)貼合 (矩陣內)
x <- matrix(letters[1:6],2,3)
apply(x,1,paste,collapse="") ---->>> "ace","bdf"
apply(x,2,paste,collapse="") ---->>> "abc","def"
9. 字元反轉
x <- c("A B","*.")
sapply(lapply(strsplit(as.character(x), NULL), rev), paste, collapse="")
[1] "B A" ".*"
10.字元檢查
x <- c("A B","*.")
unique(unlist(strsplit(as.character(x),split="",fixed=T)))
[1] "A" " " "B" "*" "."
-----------------------------------------------------------
Regular expression : 字串模糊比對 , 或特定字母排列模式的抓取
在R內
基本上分成3種
Basic regular expression (BRE) --> extended = FALSE
Extended regularexpression (ERE) --> extended = TRUE (預設)
perl-like (perl) --> perl = TRUE
雙冒號代表我測試過且成功
單冒號代表網路上抓下來或是測試失敗
--------------------------------------------------------------
通用部分
{,}
* :: {0, } 至少出現0次, 最多無限多次
+ :: {1, } 1 無限多次
? :: {0,1} 0 1
[Aa] :: A 或 a
[^1-9] :: not 1:9
[1-9] :: 1:9
[a-z] :: a b c ... z
[A-Z] :: A B C ... Z
[a-zA-Z] :: 所有英文字母
[W-z] :: WXYZabc....z
[w-Z] :: 不可使用!
(AB) :: 括號一次收集多個字元 ### 一種延伸字串的寫法
舉例 :
x <- c("company","companies",)
可以用以下兩種寫法
1. grep("[company|companies]",x)
2. grep("compan(y|ies)",x)
第二種在大資料的時候會比較快
$ :: 字尾限定
^ :: 字首限定
| :: "ABC|EFG" --> grep("ABC"or"DEF",x)
. :: 任意字元
-----------------------------------------------------
ERE , extended = TRUE
digit (數字)
\\d :: [0-9]
\\D :: [^0-9]
[[:digit:]] :: 同上
[^[:digit:]] :: 同上
blank (空白)
\\s :: 能切開 " " 或 "\t"
\\S :: 切開非空白及 tab 的字元
[[:blank:]] :: 同上
[^[:blank:]] :: 同上
AlphaBet + Digit (正常字元)
\\w :: [0-9a-zA-Z]
\\W :: [^0-9a-zA-Z]
[[:alnum:]] :: 同上
[^[:alnum:]] :: 同上
AlphaBet (英文字元)
[[:alpha:]] :: 同上
[^[:alpha:]] :: 同上
特殊符號
[[:punct:]] :: ! " # $ % & ' ( ) * + , - .
/ : ; < = > ? @ [ \ ] ^ _ ` { | } ~
[^[:punct:]] :: 英文字 , 數字 (注意! , \t 和 \n 都會被切掉)
注意 ! 正斜線這個符號很容易與其他 regular expr 混淆
必須仔細檢查 "\" 存在的字串
可印符號
[[:print]] :: 所有字元 (數字,字母,特殊符號,空白)
\n , \t , \001 除外
16進位字元
[[:xdigit:]] :: 16進位有關英文或數字
[0-9a-fA-F]
大小寫英文字元
[[:upper:]] :: 大寫英文字元 [A-Z]
[^[:upper:]] :: 非大寫 [^A-Z]
[[:lower:]] :: 小寫 [a-z]
[^[:lower:]] :: ^[a-z]
注意 "\t" 還是會被留下來
空白和換行等
[[:space:]] :: " " , \t , \n , \f , \r
(\f : 換行但不回到行頭)
(\r : 回到行頭並消除此行內所有的文字)
P.S. 這兩種不常用,當豆知識即可
[[:graph:]] :: [A-Za-z0-9]再加[["punct"]]
----------------------------------------------------------
perl = TRUE
\\w : [A-Za-z0-9_]
\\W : [^A-Za-z0-9_]
\\s : [\t\n\r\f]
\\S : [^\t\n\r\f]
\\d : [0-9]
\\D : [^0-9]
----------------------------------------------------------
regular expression 工事中 (未完)
感覺這篇被我當筆記來用了
reference:
1. https://www.rtfiber.com.tw/~changyj/
2. https://www.stat.psu.edu/~dhunter/R/html/base/html/regex.html
----------------------------------------------------------
大小寫切換
TRUTH <- c("Abc","ABC")
a <- gsub("(\\w)","\\L\\1",TRUTH,perl=TRUE) ---> "abc","abc"
b <- gsub("^(\\w)","\\U\\1",a,perl=TRUE) ---> "Abc","Abc"
同上 , 非常神秘的 Bug !?
T123 <- c("Tgfbr1","Cd320","Ndrg3","Aldoa","Bckdk","Tmed3","Hfe2")
> gsub( "(\\w)", "\\L\\1" , T123 , perl=T)
[1] "LTLgLfLbLrL1" "LCLdL3L2L0" "LNLdLrLgL3"
[4] "LALlLdLoLa" "LBLcLkLdLk" "LTLmLeLdL3"
[7] "LHLfLeL2"
> gsub( "(\\w)", "\\L\\1" , T123 , perl=TRUE)
[1] "tgfbr1" "cd320" "ndrg3" "aldoa" "bckdk" "tmed3"
[7] "hfe2"
---------------------------------------
消除多餘空白
> x <- "Hey! Apple "
> gsub(" {2,}","",x)
[1] "Hey! Apple" ### 容忍一個空白 , 但兩個以上至無限大則消除
---------------------------------------
在處理混合字串與數字的資料矩陣的時候
常常需要在 data.frame 和 matrix 之間切換
有時候會字串會被一些預設的空白字元夾住
ex:
"1" , "15" , "333"
經過轉換以後
" 1" , " 15" , "333" (fit 最長字串的長度)
> DATA <- gsub("^ *| *$",as.matrix(DATA))
---------------------------------------
### 一些參考的 pattern
1. "^\\d+$" ### 純數字的欄位 ###
2. "^ *| *$" ### 字首字尾的空白(搭配 gsub) ###
3. "^[0][\\.]{0,1}[0]*$" ### "0" "0.0" "0.00" "0.000" "0.0000" ,
bug 是 "0." "00"
####################################################################
放一些 linux 下的好用指令
光用 R 來做字串處理不夠用
原因在於若處理的檔案太大
光是讀進 R 就累死人
這邊主要是應用在檔案減肥
文字檔案
rs123\t0|1:0000\tAAAA
rs456\t1|0:0000\tBBBB
###################
橫向
grep [-w : word]
[-f : 給 pattern file]
[-F : 精確比對] ### 若要搜尋固定字串 , -F必下 (快超多)
1. cat 文字檔案|grep -w 'rs' ### 沒東西
2. cat 文字檔案|grep -w -F 'rs123' ### 出第一行
3. car 文字檔案|grep -w '^rs.*$' ### 二行皆出
###################
縱向
cut [-d : 用tab切開會是3個column的矩陣]
1. cut -d'\t' -f1,2 原檔 > 新檔 ### 留下 1 and 2 columns
###################
橫向
sed
1. sed -n '6,$p' 原檔 > 新檔 ### 從第六行開始 , print 至尾行
### 或可理解成, 把 1~5行切掉
2. sed 's/:\S*/HAHA/g' 原檔 > 新檔 ### s=取代 , g=global
### 把紅色的正規 pattern 取代成綠色
###################
當檔案有 10000000 rows , 讀不進 R 怎辦?
就算讀進 R , 資料太大一直 SWAP 電腦動不了怎麼辦?
經過一番苦戰
我建議以下的思考方式
0. 先透過上述方式
直接在終端機把檔案減肥
1. 檔案列數 <- system("wc -l 檔案",intern=TRUE)
LOOP <- ceiling(檔案列數 / 5000)
for(g in 1:LOOP) ### 用while可省前兩行
{ tmp <- read.table(檔案,skip=5000*(g-1),nrow=5000) ### 但我只熟 for
expr(中間的各種處理)
write.table(tmp,g)
Sys.sleep(5) ### 給一點時間讓電腦回氣
}
2. system("cat 小檔案1 小檔案2 小檔案3 .... > 總檔案") ### 檔案 rbind()
雖然不是最快的方法
但 Over night 是一定可以把檔案處理完的
以上
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.113.239.247
※ 編輯: gsuper 來自: 140.113.239.247 (07/02 22:21)
※ 編輯: gsuper 來自: 140.113.239.247 (07/02 22:22)
※ 編輯: gsuper 來自: 140.113.239.247 (07/02 22:48)
※ 編輯: gsuper 來自: 140.113.239.247 (07/02 23:12)
※ 編輯: gsuper 來自: 140.113.239.247 (07/02 23:30)
※ 編輯: gsuper 來自: 140.113.177.3 (07/03 01:41)
※ 編輯: gsuper 來自: 140.113.177.3 (07/03 03:12)
※ 編輯: gsuper 來自: 140.113.239.247 (07/03 21:39)
※ 編輯: gsuper 來自: 140.113.239.247 (07/08 10:32)
※ 編輯: gsuper 來自: 140.113.239.247 (07/08 17:19)
※ 編輯: gsuper 來自: 140.113.239.247 (07/08 17:28)
※ 編輯: gsuper 來自: 140.113.239.247 (08/03 22:45)
※ 編輯: gsuper 來自: 140.113.239.247 (08/03 22:47)
※ 編輯: gsuper 來自: 140.113.239.247 (09/03 21:49)
※ 編輯: gsuper 來自: 140.113.239.247 (09/03 21:55)
※ 編輯: gsuper 來自: 140.113.239.247 (09/03 22:02)
※ 編輯: gsuper 來自: 140.113.239.247 (09/03 22:03)
※ 編輯: gsuper 來自: 140.113.239.247 (09/03 22:19)
※ 編輯: gsuper 來自: 140.113.239.247 (09/03 23:10)
※ 編輯: gsuper 來自: 140.113.239.247 (09/03 23:35)
※ 編輯: gsuper 來自: 140.113.239.247 (09/03 23:44)
※ 編輯: gsuper 來自: 140.113.239.247 (09/21 22:26)
※ 編輯: gsuper 來自: 140.113.239.247 (09/21 22:54)
※ 編輯: gsuper 來自: 140.113.239.247 (09/29 13:26)
※ 編輯: gsuper 來自: 140.113.239.247 (10/04 13:54)
※ 編輯: gsuper 來自: 140.113.239.247 (10/04 14:02)
※ 編輯: gsuper 來自: 140.113.239.247 (12/03 17:13)
※ 編輯: gsuper 來自: 140.113.56.120 (12/21 02:15)
※ 編輯: gsuper 來自: 140.113.56.120 (12/29 03:27)
※ 編輯: gsuper 來自: 140.113.56.120 (12/29 03:28)
※ 編輯: gsuper 來自: 140.113.239.247 (02/17 16:33)
※ 編輯: gsuper 來自: 140.113.239.247 (02/21 12:43)
※ 編輯: gsuper 來自: 140.113.239.247 (06/12 19:52)
※ 編輯: gsuper 來自: 140.113.239.247 (06/12 19:52)
※ 編輯: gsuper 來自: 140.113.239.247 (11/09 14:28)
※ 編輯: gsuper 來自: 140.113.239.247 (11/09 14:32)
※ 編輯: gsuper 來自: 140.113.239.247 (11/09 18:58)
※ 編輯: gsuper 來自: 140.113.239.247 (11/09 19:03)
※ gsuper:轉錄至看板 R_Language 03/30 20:33
... <看更多>