Programming

스칼라 26장 익스트랙터(Programming in Scala, 3rd)

2019. 6. 24. 08:25

: 패턴 매치의 생성자 패턴은 해당 클래스가 케이스 클래스이기 때문에 가능하다. 케이스 클래스는 만들고 싶지 않지만 생성자 패턴을 사용하고 싶고, 자신만의 패턴을 만들고 싶다면 익스트랙터를 사용한다.

26.1 예제 : 전자우편 주소 추출 - 전자 우편 주소를 표현하는 문자열 분석

def isEMail(s: String): Boolean    // 전자우편 주소인지 아닌지
def getDomain(s: String): String    // 전자 주소의 도메인 리턴
def getUser(s: String): String          // 전자 주소의 사용자 리턴

if (isEMail(s)) println(getUser(s) +" AT "+ getDomain(s))
else println("not an email address")

=> 전자 우편 문자열을 Email(user, domain) 으로 패턴 매치할 수 있다면?

s match {
case EMail(user, domain) => println(user +" AT "+ domain)
case _ => println("not an email address")
}

// 같은 사용자의 전자우편 주소 2개가 연속으로 있는 경우

ss match {
case EMail(u1, d1) :: EMail(u2, d2) :: _ if (u1 == u2) => ...
...
}

: 세 가지 도우미 함수로 작성한 것보다 패턴 매치의 가독성이 좋다. 하지만 전자우편이 문자열이라 케이스 클래스가 아니다. => 문자열은 EMail(user, domain)으로 패턴 매치가 불가능하다. => 익스트랙터를 사용하면 기존 타입에 새로운 패턴을 정의할 수 있다.

26.2 익스트랙터

: 익스트랙터는 unapply라는 메소드가 있는 객체

: unapply 메소드의 목적은 값을 매치시켜 각 부분을 나누는 것

: 반대로 값을 만들어내는 apply라는 메소드도 존재(필수는 아님)

object EMail {

def apply(user: String, domain: String) = user +"@"+ domain // 인젝션 메소드 (선택적)
// EMail("John", "epfl.ch") => "John@epfl.ch" 반환 : 두 문자열을 취해서 전자우편 주소 문자열을 만든다.

// apply 메소드를 명시적으로 만들고 싶다면 Function2[String, String, String] 함수 타입 상속

// object EMail extends ((String, String) => String) { ... }

  def unapply(str: String): Option[(String, String)] = {     // 익스트랙터 메소드(필수)
    val parts = str split "@"
    if (parts.length == 2) Some(parts(0), parts(1)) else None
  }

// 전자우편 주소 문자열을 받아서 (사용자 문자열, 도메인 문자열)을 Option 타입으로 반환 : apply와 역으로 진행

// str이 전자 우편 주소라면 Some(user, domain), 아니라면 None 반환
}

=> 패턴 매치 시 익스트랙터 객체를 참조하는 패턴을 만나면 항상 그 익스트렉터의 unapply 메소드를 설렉터 식에 대해 호출

selectorString match { case EMail(user, domain) => ... } // == EMail.unapply(selectorString)

// unapply에서 None이 반환되면 패턴 매치가 이뤄지지 않는다.

// Some(u,d)이 반환되면 패턴이 매치되어 unapply가 반환한 값이 각 변수에 바인딩 => user가 u에 domain이 d에 바인딩

* 익스트랙터를 이용한 패턴 매치를 하려면 셀렉터 식의 타입은 unapply 인자 타입보다 일반적이어야 한다.

val x: Any = ...
x match { case EMail(user, domain) => ... }

: 패턴 매처가 위 코드를 본다면 x가 EMail의 unapply 메소드 인자 타입인 String과 부합하는 지 살펴본다. 부합하는 경우, 매처는 값을 String으로 캐스팅해서 처리하고 부합하지 않으면 매치가 바로 실패한다.

- apply 메소드 : 인젝션, 인자를 몇 가지 받아서 어떤 집합의 원소를 만들어 낸다.(익스트랙터 객체에 의무 X)

- unapply 메소드 : extraction, 어떤 집합에 속한 원소에서 여러 부분의 값을 뽑아낸다.

- 인젝션과 익스트랙션 메소드는 서로 쌍대성 => 쌍대성은 좋은 설계 원칙으로 익스트랙터를 설계할 때 지키는 편이 좋다.

EMail.unapply(EMail.apply(user, domain))    => (user, domain)에 apply와 unapply를 적용하면 Some(user, domain) 반환

EMail.unapply(obj) match {    => user@domain에 unapply와 apply를 적용하면 Some(user@domain) 반환
  case Some(u, d) => EMail.apply(u, d)
}

26.3 변수가 없거나 1개만 있는 패턴

: unapply로 N개의 변수를 바인딩하고 싶다면 N개의 원소로 된 튜플을 Some에 감싸서 반환하면 된다.

: 패턴이 변수를 하나만 바인딩해야 할 경우 스칼라에는 1튜플이 없기 때문에 unapply는 원소 자체를 Some으로 감싼다.

" 같은 부분 문자열을 두 번 반복해 만든 문자열 매치 "

object Twice {
  def apply(s: String): String = s + s
  def unapply(s: String): Option[String] = {
    val length = s.length / 2
    val half = s.substring(0, length)
    if (half == s.substring(length)) Some(half) else None
  }
}

: 아무 변수도 바인딩하지 않을 경우 unapply 메소드는 Boolean 값을 반환한다. 매치 성공인 경우 true, 실패인 경우 false

" 문자열의 모든 문자가 대문자인지 확인 "

object UpperCase {
def unapply(s: String): Boolean = s.toUpperCase == s
}

" 전자우편 주소의 사용자 부분이 두 번 반복되는 대문자 문자열일 경우 매치 "

def userTwiceUpper(s: String) = s match {
  case EMail(Twice(x @ UpperCase()), domain) =>
    "match: "+ x +" in domain "+ domain
  case _ =>
    "no match"
}

scala> userTwiceUpper("DIDI@hotmail.com")
res0: java.lang.String = match: DI in domain hotmail.com

scala> userTwiceUpper("DIDO@hotmail.com")
res1: java.lang.String = no match

scala> userTwiceUpper("didi@hotmail.com")
res2: java.lang.String = no match

26.4 가변 인자 익스트랙터

: unapplySeq 메소드를 사용하면 가변 길이 매치를 할 수 있다. unapplySeq의 결과 타입은 꼭 Option[Seq[T]]와 부합해야 한다.

* unapply는 매치 성공 시 항상 고정된 숫자의 하위 원소를 반환했기 때문에 가변 인자에 적용 X

* Seq는 시퀀스를 나타내는 List, Array, WrappedString 등 여러 클래스의 공통 슈퍼 클래스

object Domain {

  def apply(parts: String*): String =
    parts.reverse.mkString(".")

  def unapplySeq(whole: String): Option[Seq[String]] =
    Some(whole.split("\\.").reverse)
}

" 이름이 tom이고 도메인이 .com인 전자우편 주소 검색 "

def isTomInDotCom(s: String): Boolean = s match {
case EMail("tom", Domain("com", _*)) => true
case _ => false
}

scala> isTomInDotCom("tom@sun.com")
res3: Boolean = true

scala> isTomInDotCom("peter@sun.com")
res4: Boolean = false

scala> isTomInDotCom("tom@acm.org")
res5: Boolean = false

: unapplySeq에서 가변 길이 부분과 고정적인 요소를 함께 반환할 수 있다. 이를 표현하기 위해서는 튜플에 모든 원소를 넣되, 마지막에 가변 부분을 넣으면 된다.

object ExpandedEMail {
  def unapplySeq(email: String)
  : Option[(String, Seq[String])] = {
    val parts = email split "@"
    if (parts.length == 2)
      Some(parts(0), parts(1).split("\\.").reverse)
    else
      None
  }
}

scala> val s = "tom@support.epfl.ch"
s: java.lang.String = tom@support.epfl.ch

scala> val ExpandedEMail(name, topdom, subdoms @ _*) = s
name: String = tom
topdom: String = ch
subdoms: Seq[String] = WrappedArray(epfl, support)

26.5 익스트랙터와 시퀀스 패턴

: 리스트나 배열의 원소를 시퀀스 패턴으로 접근할 수 있다.

List()
List(x, y, _*)
Array(x, 0, 0, _)

: 시퀀스 패턴은 모두 표준 스칼라 라이브러리의 익스트랙터를 사용해 구현한 것

Ex. List(...) 패턴이 가능한 이유는 scala.List 동반 객체에 unapplySeq 정의가 있기 때문

26.6 익스트랙터와 케이스 클래스

: 케이스 클래스는 아주 유용하지만 생성자 패턴에 있는 클래스 이름이 셀렉터 객체의 구체적인 표현 타입과 대응한다.(=데이터의 구체적인 표현이 드러난다.) => 케이스 클래스에 대해 패턴 매치를 하는 클라이언트 코드가 이미 있다면 케이스 클래스 이름을 바꾸거나 클래스 계층 구조를 변경하면 클라이언트 코드에 영향을 끼친다.

: 익스트랙터는 패턴과 그 패턴이 선택하는 객체의 내부 데이터 표현 사이에 아무런 관계가 없도록 만든다.(표현 독립성) => 클래스가 바뀌더라도 클라이언트 코드에는 영향을 미치지 않는다.

* 표현 독립성은 익스트랙터의 장점이다.

* 케이스 클래스는 설정하고 정의하기 훨씬 쉽고 코드도 적게 필요하다.

* 케이스 클래스는 익스트랙터보다 더 효과적인 패턴매치가 가능하다.(케이스 클래스의 메커니즘은 변하지 않는 반면 익스트랙터의 unapply 안에서는 아무 일이나 할 수 있기 때문에 스칼라 컴파일러가 케이스 클래스의 패턴 매치를 익스트랙터의 패턴 매치보다 더 잘 최적화한다.)

* 케이스 클래스를 봉인된 케이스 클래스로 만들 경우 패턴 매치가 모든 가능한 패턴을 다 다루는지 스칼라 컴파일러가 검사해서 그렇지 않은 경우 경고를 해준다.

=> 여러 클라이언트에게 노출해야 한다면 표현 독립성을 위해 익스트랙터를 사용하고 아니면 케이스 클래스를 사용한다

* 익스트랙터나 케이스 클래스의 패턴 매치는 똑같이 보이기 때문에 케이스 클래스로 시작한 다음 필요에 따라 익스트랙터로 바꾸면 된다.

26.7 정규 표현식

< 정규 표현식 만들기 >

- ab? : 'a' or 'ab'

- \d+ : \d는 숫자(0~9), 하나 이상의 숫자로 구성된 문자열

- [a-dA-D]\w* : a부터 d까지 대문자/소문자로 시작하는 단어, \w는 단어를 이루는 문자(알파벳, 숫자, 밑줄 문자), *는 0개 이상의 반복

- (-)?(\d+)(\.\d*)? : 맨 앞에 음수가 있을 수 있고, 그 뒤에 1개 이상의 숫자가 필수, 그 뒤에 선택적으로 소수점과 0개 이상의 숫자가 오는 문자열 의미한다. 이 패턴에는 음수 부호, 소수점 앞의 숫자들, 소수 부분 세가지 그룹으로 나뉜다. 각 그룹은 괄호로 둘러싼다.

scala> import scala.util.matching.Regex

scala> val Decimal = new Regex("(-)?(\\d+)(\\.\\d*)?")
Decimal: scala.util.matching.Regex = (-)?(\d+)(\.\d*)?

scala> val Decimal = new Regex("""(-)?(\d+)(\.\d*)?""")
Decimal: scala.util.matching.Regex = (-)?(\d+)(\.\d*)?

scala> val Decimal = """(-)?(\d+)(\.\d*)?""".r
Decimal: scala.util.matching.Regex = (-)?(\d+)(\.\d*)?

package scala.runtime
import scala.util.matching.Regex

class StringOps(self: String) ... {
...
def r = new Regex(self)
}

< 정규 표현식 검색 >

regex findFirstIn str : str 문자열 안에 regex 정규 표현식과 매치되는 가장 첫 번째 부분 문자열 검색

regex findAllIn str : str 문자열 안에 regex 정규 표현식과 매치되는 모든 문자열 반환

regex findPrefix str : str 문자열의 맨 앞 부분부터 검사해 정규 표현식 regex와 매치시킬 수 있는 접두사를 반환

scala> val Decimal = """(-)?(\d+)(\.\d*)?""".r
Decimal: scala.util.matching.Regex = (-)?(\d+)(\.\d*)?

scala> val input = "for -1.0 to 99 by 3"
input: java.lang.String = for -1.0 to 99 by 3

scala> for (s <- Decimal findAllIn input)
| println(s)
-1.0
99
3

scala> Decimal findFirstIn input
res7: Option[String] = Some(-1.0)

scala> Decimal findPrefixOf input
res8: Option[String] = None

< 정규 표현식 뽑아내기 >

: 스칼라의 모든 정규 표현식은 익스트랙터를 정의한다. 익스트랙터를 사용해 정규 표현식 안의 그룹과 매치하는 부분 문자열을 구별할 수 있다.

scala> val Decimal = """(-)?(\d+)(\.\d*)?""".r
Decimal: scala.util.matching.Regex = (-)?(\d+)(\.\d*)?

scala> val Decimal(sign, integerpart, decimalpart) = "-1.23"
sign: String = -
integerpart: String = 1
decimalpart: String = .23

scala> val Decimal(sign, integerpart, decimalpart) = "1.0"
sign: String = null // 어떤 그룹이 빠진 경우 해당 값은 null이 된다.
integerpart: String = 1
decimalpart: String = .0

'스칼라' 카테고리의 다른 글

30장 객체의 동일성 (0)	2019.06.24
스칼라 25장 스칼라 컬렉션의 아키텍처(Programming in Scala, 3rd) (0)	2019.06.24
24장 컬렉션 자세히 들여다보기(1) - Traversable, Iterable, Seq, 집합, 맵(Programming in Scala, 3rd) (0)	2019.06.24
스칼라 23장 for 표현식 다시 보기(Programming in Scala, 3rd) (0)	2019.06.24
스칼라 22장 리스트 구현(Programming in Scala, 3rd) (0)	2019.06.23

스칼라 25장 스칼라 컬렉션의 아키텍처(Programming in Scala, 3rd)

2019. 6. 24. 05:25

: 컬렉션 프레임워크의 주 설계 목표는 모든 연산을 가능한 한 적은 위치에 정의해서 중복을 피하는 것

=> 대부분의 컬렉션 연산을 컬렉션 템플릿에 정의해서 개별 기반 클래스나 구현을 필요에 따라 유연하게 상속할 수 있게 제공

25.1 빌더

: 거의 대부분의 컬렉션 연산이 빌더와 순회를 가지고 구현된다. 순회는 Traversable의 foreach 메소드를 통해 처리하며, 새 컬렉션 구축은 클래스 Builder의 인스턴스가 처리한다.

" Builder 클래스 개요 "

package scala.collection.generic

class Builder[-Elem, +To] {
  def +=(elem: Elem): this.type
  def result(): To
  def clear()
  def mapResult(f: To => NewTo): Builder[Elem, NewTo] = ...
}

: b+=x 를 사용해 원소 x를 빌더 b에 넣을 수 있다.

: result() 메소드는 빌더에서 컬렉션을 반환한다. result() 호출 후 빌더 상태는 정의되어 있지 않다. clear()을 호출해 빈 상태에서 시작할 수 있다.

: 빌더는 원소 타입이 Elem이고 반환하는 컬렉션의 타입이 To인 제네릭 클래스

: mapResult() 메소드는 다른 빌더를 반환한다.

scala> val buf = new ArrayBuffer[Int] // 빌더를 상속한 클래스로 배열 버퍼 자체가 빌더
buf: scala.collection.mutable.ArrayBuffer[Int] = ArrayBuffer()

scala> val bldr = buf mapResult (_.toArray) // buf(빌더)의 result() => 배열 버퍼 반환 => _.toArray 적용해 배열 변환 => 배열 빌더
bldr: scala.collection.mutable.Builder[Int,Array[Int]]
= ArrayBuffer()

25.2 공통 연산 한데 묶기

: 스칼라의 컬렉션은 동일 결과 타입 원칙을 따른다.

* 가능하면 어떤 컬렉션에 대해 실행한 변환 코드의 결과는 같은 타입의 컬렉션이 된다.

Ex. List에 filter을 수행하면 List가 나오고, Map에 filter을 수행하면 Map이 나온다.

: 스칼라 컬렉션 라이브러리는 구현 트레이트라 불리는 제네릭 빌더와 순회를 사용해 코드 중복을 줄이고 동일 결과 타입 원칙을 달성한다. 이런 트레이트에는 Like 접미사가 붙는다.

Ex. IndexedSeqLike는 IndexedSeq의 구현 트레이트, Traversable의 구현 트레이트는 TraversableLike

: 컬렉션 클래스들은 모든 구체적인 메소드 구현을 구현 트레이트로부터 상속

: 구현 트레이트는 타입 파라미터로 원소의 타입과 컬렉션이 표현하는 타입(List, Seq)을 지정한다.

package scala.collection

class TraversableLike[+Elem, +Repr] {
  def newBuilder: Builder[Elem, Repr] // deferred
  def foreach[U](f: Elem => U)        // deferred
  ...
  def filter(p: Elem => Boolean): Repr = {
    val b = newBuilder
    foreach { elem => if (p(elem)) b += elem }
    b.result
  }
}

: Repr은 Traversable의 서브 타입이 아닌 타입이 가능 => String이나 Array처럼 컬렉션 계층 구조에 없는 클래스도 컬렉션 구현 트레이트가 정의하는 모든 연산 사용 가능

: TraversableLike 트레이트는 newBuilder, foreach 추상 멤버가 존재하고 구체적인 컬렉션 클래스에서 정의한다. filter의 구현은 newBuilder와 foreach 추상 메소드를 사용하며 모든 컬렉션에 대해 동일하다. => newBuilder와 foreach만 구현하면 모든 컬렉션에 대해 filter을 사용할 수 있다.

: filter => newBuilder을 사용해 Elem 원소를 담고 Repr 컬렉션에 대한 빌더 생성 => 현재 컬렉션의 모든 원소를 foreach를 사용해 방문 => 원소 x가 술어를 만족하면 빌더에 추가 => 빌더의 result를 호출해 빌더에서 모은 원소들을 Repr 컬렉션 타입의 인스턴스로 반환

: map 연산의 경우 Array[String]이 Array[Int]로 원소의 타입이 변경되기 때문에 newBuilder와 foreach로 충분하지 않다.

=> newBuilder은 원래의 컬렉션과 같은 타입의 인스턴스만 만든다. map의 결과 타입에 따라 일일이 메소드를 정의하는 것도 힘들다. 결과 타입은 map에 들어가는 함수 타입에 의존적이다.

scala> import collection.immutable.BitSet
import collection.immutable.BitSet

scala> val bits = BitSet(1, 2, 3)
bits: scala.collection.immutable.BitSet = BitSet(1, 2, 3)

scala> bits map (_ * 2)
res13: scala.collection.immutable.BitSet = BitSet(2, 4, 6)

scala> bits map (_.toFloat)
res14: scala.collection.immutable.Set[Float]
= Set(1.0, 2.0, 3.0)

scala> Map("a" -> 1, "b" -> 2) map { case (x, y) => (y, x) }
res3: scala.collection.immutable.Map[Int,java.lang.String]
= Map(1 -> a, 2 -> b)

scala> Map("a" -> 1, "b" -> 2) map { case (x, y) => y }
res4: scala.collection.immutable.Iterable[Int]
= List(1, 2)

: map을 제한해서 항상 같은 종류의 컬렉션을 반환하게 만들 수 있다. 하지만 제약을 가하면 리스코프 치환 법칙을 어겨 올바르지 않다.

Ex. Map은 Iterable이기도 하므로 Iterable에서 할 수 있는 일은 Map에서도 할 수 있어야 한다.

* 리스코프 치환 원칙 : U 타입의 값이 필요한 모든 경우를 T 타입의 값으로 대치할 수 있다면 T 타입을 U 타입의 서브타입으로 가정해도 안전하다.

=> 스칼라는 암시적 파라미터를 통한 오버로드를 사용해 문제를 해결

" TraversableLike의 map 구현 "

def map[B, That](p: Elem => B)
                (implicit bf: CanBuildFrom[Repr, B, That]): That = {   // ConBuildFrom 타입의 빌더 팩토리
  val b = bf(this)
  for (x <- this) b += f(x)
  b.result
}

" CanBuildFrom 트레이트 "

package scala.collection.generic

trait CanBuildFrom[-From, -Elem, +To] {
def apply(from: From): Builder[Elem, To] // 새로운 빌더를 만든다.
}

: From 타입의 컬렉션을 받아서 Elem 타입의 원소를 갖는 컬렉션 To를 반환하는 빌더 생성

=> CanBuildFrom의 암시적 정의를 제대로 하면 map의 타입 변환을 필요에 따라 변경할 수 있다.

Ex. BitSet

: BitSet의 동반 객체에는 CanBuildFrom[BitSet, Int, BitSet]이 있다. BitSet에 대해 map 연산을 적용할 때 만들려는 결과 컬렉션의 원소 타입이 Int인 새 BitSet을 만들 수 있다. => 이를 만족시킬 수 없다면 다른 암시적 빌드 팩토리 시도 => 더 일반적인 mutable.Set의 동반 객체에 있는 CanBuildFrom[Set[_], A, Set[A]] 적용한다. A의 타입과 관계없이 다시 Set을 만들 수 있다.

: 가장 적당하면서 최대한 상세한 빌더를 찾는다.

scala> val xs: Iterable[Int] = List(1, 2, 3)
xs: Iterable[Int] = List(1, 2, 3) // 정적 타입은 Iterable, 동적 타입은 List

scala> val ys = xs map (x => x * x)
ys: Iterable[Int] = List(1, 4, 9) // map 결과 타입이 동적 타입에 매칭

: CanBuildFrom의 apply 메소드가 원래 컬렉션의 인자로 넘어가고 apply 호출을 genericBuilder에 있는 메소드에 넘긴다. genericBuilder 메소드는 실제 그 메소드가 정의된 컬렉션의 빌더를 호출한다.

=> 스칼라는 정적인 암시 파라미터 해결을 사용해 맵의 타입에 대한 제약을 해결하고 가상 디스패치를 사용해 이런 제약을 만족하는 가장 좋은 동적인 타입을 가져온다.

25.3 새 컬렉션 통합

: 새로운 컬렉션 클래스를 만들면서 기존에 정의된 컬렉션 연산이 새 타입 위에 잘 동작하도록 통합하는 예

< RNA 가닥을 표현하는 시퀀스 타입 >

: RNA 가닥은 A, T, G, U 염기의 시퀀스

" RNA 염기들 "

abstract class Base
case object A extends Base
case object T extends Base
case object G extends Base
case object U extends Base

object Base {
val fromInt: Int => Base = Array(A, T, G, U) // 정수를 Base 값으로 바꾸는 배열
val toInt: Base => Int = Map(A -> 0, T -> 1, G -> 2, U -> 3) // Base 값을 정수로 바꾸는 맵
}

: RNA 가닥은 단지 Seq[Base] 이지만 네 가지 염기밖에 없기 때문에 2비트만을 사용해 염기를 구별 => 정수에는 2비트 값인 염기를 16개 저장 => Seq[Base]에 특화된 서브 클래스를 만들어 압축한 내부 표현 사용

import collection.IndexedSeqLike
import collection.mutable.{Builder, ArrayBuffer}
import collection.generic.CanBuildFrom

final class RNA1 private (val groups: Array[Int], // 비트로 압축된 RNA 정보
val length: Int) extends IndexedSeq[Base] {

                 // length : 배열 안의 염기 개수, IndexedSeq에는 length, apply 추상 메소드 존재

  import RNA1._

  def apply(idx: Int): Base = {             // 인덱스의 염기 반환
    if (idx < 0 || length <= idx)
      throw new IndexOutOfBoundsException
    Base.fromInt(groups(idx / N) >> (idx % N * S) & M)
  }
}

object RNA1 {
  private val S = 2        // 염기를 표현하는 비트 수

  private val N = 32 / S         // Int(32 bit)에 들어갈 그룹의 수

  private val M = (1 << S) - 1       // 어떤 그룹만 떼어내기 위한 비트 마스크(11)

  def fromSeq(buf: Seq[Base]): RNA1 = {
    val groups = new Array[Int]((buf.length + N - 1) / N)
    for (i <- 0 until buf.length)
      groups(i / N) |= Base.toInt(buf(i)) << (i % N * S)
    new RNA1(groups, buf.length)
  }

  def apply(bases: Base*) = fromSeq(bases)
}

: 생성자 비공개 => 클라이언트가 RNA 시퀀스의 내부 표현을 볼 수 없다. => 클라이언트 코드에는 영향을 주지 않으면서 표현을 바꿀 수 있다. => 동반 객체를 활용해 팩토리 메소드 제공

scala> val xs = List(A, G, T, A)
xs: List[Product with Base] = List(A, G, T, A)

scala> RNA1.fromSeq(xs)
res1: RNA1 = RNA1(A, G, T, A)

scala> val rna1 = RNA1(A, U, G, G, T)
rna1: RNA1 = RNA1(A, U, G, G, T)

< RNA 메소드의 결과 타입 변환 >

scala> rna1.length
res2: Int = 5

scala> rna1.last
res3: Base = T

scala> rna1.take(3)
res4: IndexedSeq[Base] = Vector(A, U, G)

: IndexedSeq에 IndexedSeq를 반환하는 take 메소드가 있고 IndexedSeq 구현이 Vector => RNA1 X

=> RNA1 클래스의 take 메소드 오버라이드

def take(count: Int) : RNA1 = RNA1.fromSeq(super.take(count))

=> drop, filter과 같은 컬렉션 메소드도 똑같이 하기는 힘들다.

=> IndexedSeq의 구현 클래스인 IndexedSeqLike를 상속한다.

final class RNA2 private (
                           val groups: Array[Int],
                           val length: Int
                         ) extends IndexedSeq[Base] with IndexedSeqLike[Base, RNA2] {

  import RNA2._

  override def newBuilder: Builder[Base, RNA2] =
    new ArrayBuffer[Base] mapResult fromSeq

  def apply(idx: Int): Base = // RNA1과 같다.
}

: take, drop, filter 등의 반환 타입은 IndexedSeqLike의 두 번째 타입 파라미터다. 이를 위해 IndexedSeqLike는 newBuilder라는 추상 메소드에 의존한다.

: IndexedSeqLike 트레이트의 서브 클래스들은 newBuilder를 오버라이드해서 자기가 원하는 컬렉션을 반환하게 해야 한다.

=> RNA2 클래스에서 newBuilder 메소드는 Builder[Base, RNA2] 타입의 빌더를 반환한다.

=> Builder[Base, ArrayBuffer] 인 ArrayBuffer을 mapResult 메소드를 호출해 RNA2 빌더를 만드는 데 ArrayBuffer=>RNA2 함수를 파라미터로 전달해 기존 ArrayBuffer을 RNA2 빌더로 변환한다.

scala> val rna2 = RNA2(A, U, G, G, T)
rna2: RNA2 = RNA2(A, U, G, G, T)

scala> rna2 take 3
res5: RNA2 = RNA2(A, U, G)

scala> rna2 filter (U !=)
res6: RNA2 = RNA2(A, G, G, T)

< map과 친구들 다루기 >

: map은 같은 종류의 컬렉션을 반환하지만 원소 타입이 바뀔 수 있다.(Seq[Int] => Seq[String]) => 원소 타입이 바뀌더라도 컬렉션 종류는 그대로다.

scala> val rna2 = RNA2(A, U, G, G, T)
rna2: RNA2 = RNA2(A, U, G, G, T)

scala> rna2 map { case A => T case b => b }
res0: IndexedSeq[Base] = Vector(T, U, G, G, T)

scala> rna2 ++ rna2
res1: IndexedSeq[Base] = Vector(A, U, G, G, T, A, U, G, G, T)

: 모두 RNA2 타입이 아니라 IndexedSeq 타입이다.

def map[B, That](f: Elem => B)
(implicit cbf: CanBuildFrom[Repr, B, That]): That

: Elem은 컬렉션의 원소 타입이며 Repr은 컬렉션 자체의 타입(TraversableLike나 IndexedSeqLike 같은 구현 클래스에 들어가는 타입 파라미터)

: B는 매핑 함수의 결과 타입인 동시에 결과 컬렉션의 원소 타입

: That은 새로 만들어질 컬렉션의 타입

: 컴파일러는 That과 B의 타입을 암시적 파라미터 cbf에 의해 결정

: cbf의 타입은 CanBuildFrom[Repr, B, That]으로 From 타입의 컬렉션을 받아서 Elem 타입의 원소를 갖는 컬렉션 To를 만드는 방법이 있다고 알린다.

=> ++나 map이 동작할 때 RNA2를 만드는 CanBuildFrom 인스턴스가 없기 때문에 부모 트레이트인 IndexedSeq 동반 객체에서 암시적 파라미터를 찾았다.

=> CanBuildFrom[RNA, Base, RNA] 타입의 인스턴스를 정의

" 최종 RNA 클래스 "
final class RNA private (val groups: Array[Int], val length: Int)
  extends IndexedSeq[Base] with IndexedSeqLike[Base, RNA] {

  import RNA._

  override protected[this] def newBuilder: Builder[Base, RNA] = // newBuilder의 구현을 동반 객체로 옮김
    RNA.newBuilder

  def apply(idx: Int): Base = {
    if (idx < 0 || length <= idx)
      throw new IndexOutOfBoundsException
    Base.fromInt(groups(idx / N) >> (idx % N * S) & M)
  }

  override def foreach[U](f: Base => U): Unit = {
    var i = 0
    var b = 0
    while (i < length) {
      b = if (i % N == 0) groups(i / N) else b >>> S
      f(Base.fromInt(b & M))
      i += 1
    }
  }
}

object RNA {

  private val S = 2
  private val M = (1 << S) - 1
  private val N = 32 / S

  def fromSeq(buf: Seq[Base]): RNA = {
    val groups = new Array[Int]((buf.length + N - 1) / N)
    for (i <- 0 until buf.length)
      groups(i / N) |= Base.toInt(buf(i)) << (i % N * S)
    new RNA(groups, buf.length)
  }

  def apply(bases: Base*) = fromSeq(bases)

  def newBuilder: Builder[Base, RNA] =
    new ArrayBuffer mapResult fromSeq

  implicit def canBuildFrom: CanBuildFrom[RNA, Base, RNA] =      // CanBuildFrom 타입 암시 값 정의
    new CanBuildFrom[RNA, Base, RNA] {
      def apply(): Builder[Base, RNA] = newBuilder
      def apply(from: RNA): Builder[Base, RNA] = newBuilder
    }
}

: CanBuildFrom은 두 가지 메소드를 정의해야 한다.

1. apply() : 반환할 빌더 타입을 만들기만 한다.

2. apply(from) : 원래의 컬렉션을 인자로 받아 반환하는 컬렉션 타입을 인자로 받은 컬렉션 타입과 같게 만든다.

* RNA의 경우 final이기 때문에 정적인 타입이 RNA이면 동적인 타입도 RNA => 기능이 쓰일 여지가 없다.

=> 코드의 양을 조금만 추가하면 컬렉션에서 제공하는 연산을 사용할 수 있다

=> 효율을 위해 기존 메소드를 오버라이드하거나 시퀀스에 새로운 기능을 추가하고 싶을 때가 있다.

* 위 코드의 foreach 메소드 : foreach 메소드는 컬렉션에 대한 루프를 구현하기에 다른 컬렉션 메소드들이 foreach를 기반해 만들어 졌다. => foreach 구현을 최적화

: IndexedSeq의 표준 foreach 구현은 단지 컬렉션에 apply를 호출에 0부터 컬렉션의 length-1까지 모든 i번째 원소를 가져온다. => RNA는 모든 배열에서 한 번에 순회한다.

< 새로운 집합과 맵의 통합 : 패트리샤 트라이 >

- 집합이나 맵을 트리로 구성하되 검색 키의 각 문자가 유일한 자식 트리를 구성하게 만드는 것

Ex. "abc", "abd", "al", "all", "xy" 문자열을 포함한 패트리샤 트라이 : "abc" 문자열을 찾으려면 "a" => "b" => "c" 서브트리를 찾는다.

: 패트시랴 트라이는 어떤 접두사를 포함하는 하위 컬렉션을 쉽게 선택할 수 있어야 한다.

Ex. 트리에서 "a"로 시작하는 모든 하위 컬렉션을 찾으려면 단지 트리 루트에서 "a"를 따라 링크를 하나 내려가기만 하면 된다.

  scala> val m = PrefixMap("abc" -> 0, "abd" -> 1, "al" -> 2, "all" -> 3, "xy" -> 4)
  m: PrefixMap[Int] = Map((abc,0), (abd,1), (al,2), (all,3), (xy,4))

  scala> m withPrefix "a"            // "a"로 시작하는 접두사 맵 획득
  res14: PrefixMap[Int] = Map((bc,0), (bd,1), (l,2), (ll,3))

" 패트리샤 트라이를 사용한 접두사 맵 구현 "

import collection._

class PrefixMap[T]

extends mutable.Map[String, T] with mutable.MapLike[String, T, PrefixMap[T]] {

// MapLike 구현 클래스 상속을 통해 filter 같은 메소드에서 올바른 타입의 결과를 얻고 쉽게 컬렉션 메소드를 사용할 수 있다.

var suffixes: immutable.Map[Char, PrefixMap[T]] = Map.empty    // 문자에 해당하는 PrefixMap 값을 보내는 맵
  var value: Option[T] = None      // 해당 노드와 관련된 Option 값

  def get(s: String): Option[T] =              // s키를 가진 노드의 value 리턴
    if (s.isEmpty) value
    else suffixes get (s(0)) flatMap (_.get(s substring 1))

  def withPrefix(s: String): PrefixMap[T] =      // 접두사 s로 시작하는 모든 하위 컬렉션 리턴
    if (s.isEmpty) this
    else {
      val leading = s(0)
      suffixes get leading match {
        case None =>
          suffixes = suffixes + (leading -> empty)
        case _ =>
      }
      suffixes(leading) withPrefix (s substring 1)
    }

  override def update(s: String, elem: T) =      // += 메소드
    withPrefix(s).value = Some(elem)

  override def remove(s: String): Option[T] =       // -= 메소드
    if (s.isEmpty) { val prev = value; value = None; prev }
    else suffixes get (s(0)) flatMap (_.remove(s substring 1))

  def iterator: Iterator[(String, T)] =
    (for (v <- value.iterator) yield ("", v)) ++
    (for ((chr, m) <- suffixes.iterator;
          (s, v) <- m.iterator) yield (chr +: s, v))

  def += (kv: (String, T)): this.type = { update(kv._1, kv._2); this }

  def -= (s: String): this.type  = { remove(s); this }

  override def empty = new PrefixMap[T]
}

" 접두사 맵의 동반 객체 "
import scala.collection.mutable.{Builder, MapBuilder}
import scala.collection.generic.CanBuildFrom

object PrefixMap extends {
def empty[T] = new PrefixMap[T] // 빈 PrefixMap 객체 반환

// 변경 불가능한 맵이나 집합은 비파괴적 원소 추가 메소드인 +를 사용하기 때문에 어떤 집합이나 맵을 만들려면 원하는 타입의 빈 집합이나 빈 맵을 만들어야 한다.

  def apply[T](kvs: (String, T)*): PrefixMap[T] = {
    val m: PrefixMap[T] = empty
    for (kv <- kvs) m += kv
    m
  }

  def newBuilder[T]: Builder[(String, T), PrefixMap[T]] =
    new MapBuilder[String, T, PrefixMap[T]](empty)

  implicit def canBuildFrom[T]
    : CanBuildFrom[PrefixMap[_], (String, T), PrefixMap[T]] =
      new CanBuildFrom[PrefixMap[_], (String, T), PrefixMap[T]] {
        def apply(from: PrefixMap[_]) = newBuilder[T]
        def apply() = newBuilder[T]
      }
}

< 정리 > : 새 컬렉션 클래스를 프레임워크에 완전히 통합하고 싶다면 다음과 같은 점에 주의

1. 컬렉션을 변경 가능하게 할지 여부를 결정해야 한다.

2. 기반 트레이트를 제대로 선택해야 한다.

3. 대부분의 컬렉션 연산을 구현하기 위해 구현 트레이트를 제대로 선택해야 한다.

4. map이나 그와 비슷한 연산을 사용해 컬렉션 타입의 인스턴스를 반환해야 한다면 암시적인 CanBuildFrom을 동반 객체에 제공해야 한다.

* 문제를 어떻게 정의 => 코드를 어떤 생각으로 짯는 가, 그대로 구현 되어 있는가

* 용어를 내 말로 어떻게 정리할 것인가????

'스칼라' 카테고리의 다른 글

30장 객체의 동일성 (0)	2019.06.24
스칼라 26장 익스트랙터(Programming in Scala, 3rd) (0)	2019.06.24
24장 컬렉션 자세히 들여다보기(1) - Traversable, Iterable, Seq, 집합, 맵(Programming in Scala, 3rd) (0)	2019.06.24
스칼라 23장 for 표현식 다시 보기(Programming in Scala, 3rd) (0)	2019.06.24
스칼라 22장 리스트 구현(Programming in Scala, 3rd) (0)	2019.06.23

PREV 1 ···3 4 5 6 7 8 9 ···129 NEXT

Programming

스칼라 26장 익스트랙터(Programming in Scala, 3rd)

26.1 예제 : 전자우편 주소 추출 - 전자 우편 주소를 표현하는 문자열 분석

26.2 익스트랙터

26.3 변수가 없거나 1개만 있는 패턴

26.4 가변 인자 익스트랙터

26.5 익스트랙터와 시퀀스 패턴

26.6 익스트랙터와 케이스 클래스

26.7 정규 표현식

'스칼라' 카테고리의 다른 글

스칼라 25장 스칼라 컬렉션의 아키텍처(Programming in Scala, 3rd)

25.1 빌더

25.2 공통 연산 한데 묶기

25.3 새 컬렉션 통합

< 정리 > : 새 컬렉션 클래스를 프레임워크에 완전히 통합하고 싶다면 다음과 같은 점에 주의

'스칼라' 카테고리의 다른 글

+ Recent posts

티스토리툴바